Poszukujemy doświadczonego Senior Data Engineera, który dołączy do projektu w branży finansowej. Będziesz pracować nad budową i rozwojem nowoczesnej architektury Data Lakehouse opartej o Databricks. Projekt obejmuje integrację danych z wielu źródeł, optymalizację procesów przetwarzania w dużej skali oraz wdrażanie dobrych praktyk w zakresie jakości, bezpieczeństwa i governance danych. To rola dla osoby samodzielnej, która chce mieć realny wpływ na architekturę i rozwiązania technologiczne w projekcie. Praca głownie zdalna ze sporadycznymi spotkaniami w Warszawie bądź Wrocławiu.
Senior Data Engineer (Databricks)
Twój zakres obowiązków
- Projektowanie, rozwój i optymalizacja procesów przetwarzania danych w środowisku Databricks
- Tworzenie i utrzymywanie procesów ETL/ELT oraz integracja danych z różnych źródeł (API, batch, streaming)
- Modelowanie danych (conceptual, logical, physical) i implementacja w Delta Lake / Unity Catalog
- Optymalizacja jobów w PySpark / SQL pod kątem wydajności i kosztów
- Budowa i utrzymywanie pipeline’ów CI/CD (GitLab CI / GitHub Actions / Azure DevOps)
- Dokumentowanie procesów i wdrażanie dobrych praktyk w zakresie jakości i bezpieczeństwa danych
- Współpraca z zespołami analitycznymi i biznesowymi w branży finansowej
Nasze wymagania
- Doświadczenie w pracy z Data Lakehouse architecture
- Bardzo dobra znajomość Databricks (Delta Lake, Unity Catalog, Jobs, Workflows, Clusters, Notebooks, Asset Bundles, Repos)
- PySpark / Python Spark – zaawansowane umiejętności i praktyka w optymalizacji jobów
- Bardzo dobra znajomość SQL (w tym optymalizacja zapytań w Databricks)
- Znajomość Delta Live Tables
- Doświadczenie w pracy z danymi w dużej skali (big data), integracji danych z różnych źródeł
- Doświadczenie z chmurą (preferowana Azure lub AWS)
- Znajomość CI/CD i automatyzacji procesów (GitLab CI, GitHub Actions, Azure DevOps)
- Doświadczenie w odwzorowywaniu modeli danych i wdrażaniu ich w Databricks
- Praktyczna znajomość schema management, schema evolution, versioning w Databricks
- Umiejętność optymalizacji kosztów i wydajności w Databricks
- Doświadczenie w testowaniu i monitoringu jobów (Great Expectations, logging, alerting)
- Znajomość MLflow oraz orkiestratorów zadań (Airflow lub inne)
- Doświadczenie w migracjach danych do Databricks
- Znajomość zasad data lineage, data quality i governance (Data Contracts)
- Doświadczenie w pracy z danymi wrażliwymi i zasadami bezpieczeństwa
- Znajomość Terraform / IaC
To oferujemy
- Stabilną współpracę B2B w branży finansowej
- Pracę zdalną z okazjonalnymi wizytami we Wrocławiu lub Warszawie
- Długoterminowy projekt oparty o najnowsze technologie big data i cloud
- Wsparcie zespołu ekspertów oraz możliwość wymiany wiedzy
- Rozwój w obszarze data engineering i cloud computing