Projekt koncentruje się na wsparciu danych symulacyjnych dla rozwoju pojazdów autonomicznych (AV), szczególnie w obszarach takich jak wykrywanie przeszkód, planowanie trasy oraz złożone sytuacje drogowe.
Data Engineer with Cloud (m/f/d)
Twój zakres obowiązków
- Wsparcie i utrzymanie infrastruktury pipeline’ów danych FST factory oraz pomoc w analizie incydentów i wsparciu operacyjnym.
- Analiza dużych zbiorów danych przy użyciu SQL, Python, Spark i notebooków w celu badania problemów pipeline’ów i walidacji przepływów danych.
- Praca z chmurowymi platformami danych oraz środowiskami przetwarzania rozproszonego w celu zapewnienia niezawodności i skalowalności workflowów danych.
- Monitorowanie, diagnozowanie i optymalizacja pipeline’ów orkiestracji (np. Airflow, Argo Workflows lub podobne technologie).
- Współpraca z zespołami backendowymi i infrastrukturalnymi przy mikroserwisach, systemach storage oraz usługach przetwarzania danych.
- Wsparcie procesów wyszukiwania i eksploracji danych w zbiorach strukturalnych i półstrukturalnych.
- Tworzenie i utrzymanie skryptów oraz narzędzi do przetwarzania danych, debugowania i automatyzacji operacyjnej.
- Analiza niespójności danych, błędów pipeline’ów oraz problemów wydajnościowych na platformie.
- Udział w poprawie obserwowalności (observability), monitoringu oraz stabilności operacyjnej workflowów danych.
- Ścisła współpraca z zespołami cross-funkcyjnymi wspierającymi pipeline’y danych dla analityki, symulacji i ML.
Nasze wymagania
- Mocne umiejętności software engineering oraz rozwiązywania problemów.
- Zaawansowana znajomość SQL i doświadczenie w pisaniu złożonych zapytań.
- Zaawansowane umiejętności programowania w Pythonie.
- Zrozumienie przetwarzania rozproszonego i workflowów danych na dużą skalę.
- Praktyczne doświadczenie z technologiami chmurowymi i nowoczesnymi platformami danych.
- Doświadczenie z narzędziami orkiestracji workflowów, takimi jak Airflow, Argo Workflows lub podobnymi frameworkami pipeline’ów.
- Zrozumienie zagadnień infrastrukturalnych, w tym systemów storage, mikroserwisów i architektury pipeline’ów.
- Doświadczenie w pracy z notebookami i workflowami analizy danych.
- Znajomość troubleshootingu i wsparcia operacyjnego produkcyjnych pipeline’ów danych.
- Zrozumienie zasad wyszukiwania i eksploracji danych (data search & data discovery).
- Doświadczenie ze Spark / PySpark.
- Praktyczne doświadczenie z Databricks.
- Doświadczenie w analizie danych szeregów czasowych.
- Zrozumienie workflowów danych dla ML oraz procesów przygotowania danych.
- Doświadczenie we wspieraniu pipeline’ów danych używanych w analityce, symulacjach lub aplikacjach ML.
- Wykształcenie wyższe z zakresu Computer Science lub pokrewnej dziedziny.
- Doświadczenie w pracy z platformami danych na dużą skalę i systemami rozproszonymi.
- Dyplom ukończenia studiów z zakresu Computer Science.
To oferujemy
- Sprzęt: zapewnia klient
- Start ASAP
- 100% zdalnie
- Medicover
- Medicover Sport