Data Engineer w/ Databricks (Mid i Senior)

Warsaw

Nazwa pozycji Data Engineer w/ Databricks (Mid i Senior)

Lokalizacja Warszawa, Warsaw, Masovian Voivodeship, Polska

Firma IT LeasingTeam Sp. z o. o.

Dodano 25. 2. 2025

Informacje o stanowisku

Warszawa

Województwo Mazowieckie

Miasto Warszawa

Data publikacji 2024-11-26

Oferta ważna do 2024-12-26

Zakres obowiązków

Dla Kogo: Dołączysz do innowacyjnej firmy biotechnologicznej. Będziesz częścią zespołu, który rozwija zaawansowane rozwiązania związane z analizą danych w branży medycznej i life sciences. Pracuj w dynamicznym środowisku, w którym technologie mają realny wpływ na zdrowie milionów ludzi na świecie.

Zatrudnienie: Umowa o współpracy B2B, pełen wymiar godzin, długofalowa współpraca.

Stawka: Twoja stawka netto (faktura VAT).

Typ Pracy: Zdalnie z Polski, z możliwością wizyt w biurze w Warszawie na prośbę pracodawcy.

Zakres Obowiązków:

Projektowanie, rozwój i automatyzacja wydajnych procesów przetwarzania danych (ETL), oczyszczania danych oraz ich przygotowania do analiz, z wykorzystaniem Apache Spark i Pythona .
Tworzenie, optymalizacja i utrzymywanie pipelineów danych w środowisku Databricks - kluczowa technologia, której znajomość jest niezbędna.
Programowanie w Pythonie jako głównym języku do tworzenia skryptów i pipelineów danych, w tym przetwarzania danych strumieniowych i batchowych.
Udział w pełnym cyklu rozwoju oprogramowania: od zbierania wymagań biznesowych, przez projektowanie i implementację, aż po wdrożenie i wsparcie.
Współpraca z analitykami, architektami i innymi zespołami w celu optymalizacji dostarczanych rozwiązań oraz zapewnienia ich zgodności z potrzebami biznesu.
Monitorowanie wydajności systemów danych, analiza i rozwiązywanie problemów technicznych, w tym tuning zapytań Spark i optymalizacja pipelineów Databricks.
Udział w tworzeniu standardów i najlepszych praktyk w zakresie zarządzania danymi, z naciskiem na architekturę lakehouse (Delta Lake).

Oczekiwania

Posiadasz min. 5 lat doświadczenia w inżynierii danych, w tym praktyczną znajomość Databricks oraz Apache Spark .
Biegła znajomość Pythona do tworzenia pipelineów danych, skryptów automatyzujących oraz analizy danych.
Znasz SQL na poziomie umożliwiającym tworzenie, optymalizację i debugowanie zapytań, a także pracę z dużymi zbiorami danych w środowisku big data.
Masz doświadczenie w pracy z procesami ETL , zarządzaniem pipelineami danych oraz ich automatyzacją w środowisku chmurowym (AWS).
Doświadczenie w integracji danych z różnych źródeł, w tym z API oraz przetwarzania danych strumieniowych (real-time processing).
Pracowałeś/aś w środowisku Agile , znasz narzędzia takie jak JIRA , Confluence .
Mile widziana znajomość Terraform oraz narzędzi do zarządzania metadanymi (np. Collibra).
Posiadasz min. 8 lat doświadczenia w inżynierii danych, w tym zaawansowaną znajomość Databricks , Apache Spark oraz architektury lakehouse (Delta Lake).
Jesteś ekspertem w programowaniu w Pythonie , potrafisz tworzyć zaawansowane skrypty oraz optymalizować procesy przetwarzania danych przy użyciu Spark API.
Masz doświadczenie w pracy z narzędziami big data, przetwarzaniem danych strumieniowych oraz integracją z różnymi systemami (RESTful API, CRM).
Ekspert w zakresie SQL , w tym optymalizacji zapytań i pracy z wielowymiarowymi modelami danych.
Posiadasz doświadczenie w tworzeniu zaawansowanych raportów i dashboardów (Tableau) oraz ich optymalizacji pod kątem wydajności.
Pracowałeś/aś w środowisku Agile , prowadząc projekty na dużą skalę i koordynując zespoły cross-funkcjonalne.
Znajomość AWS , Terraform , oraz doświadczenie z CI/CD (np. GitLab CI/CD) będą istotnymi atutami.