Informacje o stanowisku
Warszawa
Województwo Mazowieckie
Miasto Warszawa
Data publikacji 2024-11-26
Oferta ważna do 2024-12-26
Zakres obowiązków
Dla Kogo: Dołączysz do innowacyjnej firmy biotechnologicznej. Będziesz częścią zespołu, który rozwija zaawansowane rozwiązania związane z analizą danych w branży medycznej i life sciences. Pracuj w dynamicznym środowisku, w którym technologie mają realny wpływ na zdrowie milionów ludzi na świecie.
Zatrudnienie: Umowa o współpracy B2B, pełen wymiar godzin, długofalowa współpraca.
Stawka: Twoja stawka netto (faktura VAT).
Typ Pracy: Zdalnie z Polski, z możliwością wizyt w biurze w Warszawie na prośbę pracodawcy.
Zakres Obowiązków:
- Projektowanie, rozwój i automatyzacja wydajnych procesów przetwarzania danych (ETL), oczyszczania danych oraz ich przygotowania do analiz, z wykorzystaniem Apache Spark i Pythona .
- Tworzenie, optymalizacja i utrzymywanie pipelineów danych w środowisku Databricks - kluczowa technologia, której znajomość jest niezbędna.
- Programowanie w Pythonie jako głównym języku do tworzenia skryptów i pipelineów danych, w tym przetwarzania danych strumieniowych i batchowych.
- Udział w pełnym cyklu rozwoju oprogramowania: od zbierania wymagań biznesowych, przez projektowanie i implementację, aż po wdrożenie i wsparcie.
- Współpraca z analitykami, architektami i innymi zespołami w celu optymalizacji dostarczanych rozwiązań oraz zapewnienia ich zgodności z potrzebami biznesu.
- Monitorowanie wydajności systemów danych, analiza i rozwiązywanie problemów technicznych, w tym tuning zapytań Spark i optymalizacja pipelineów Databricks.
- Udział w tworzeniu standardów i najlepszych praktyk w zakresie zarządzania danymi, z naciskiem na architekturę lakehouse (Delta Lake).
Oczekiwania
- Posiadasz min. 5 lat doświadczenia w inżynierii danych, w tym praktyczną znajomość Databricks oraz Apache Spark .
- Biegła znajomość Pythona do tworzenia pipelineów danych, skryptów automatyzujących oraz analizy danych.
- Znasz SQL na poziomie umożliwiającym tworzenie, optymalizację i debugowanie zapytań, a także pracę z dużymi zbiorami danych w środowisku big data.
- Masz doświadczenie w pracy z procesami ETL , zarządzaniem pipelineami danych oraz ich automatyzacją w środowisku chmurowym (AWS).
- Doświadczenie w integracji danych z różnych źródeł, w tym z API oraz przetwarzania danych strumieniowych (real-time processing).
- Pracowałeś/aś w środowisku Agile , znasz narzędzia takie jak JIRA , Confluence .
- Mile widziana znajomość Terraform oraz narzędzi do zarządzania metadanymi (np. Collibra).
- Posiadasz min. 8 lat doświadczenia w inżynierii danych, w tym zaawansowaną znajomość Databricks , Apache Spark oraz architektury lakehouse (Delta Lake).
- Jesteś ekspertem w programowaniu w Pythonie , potrafisz tworzyć zaawansowane skrypty oraz optymalizować procesy przetwarzania danych przy użyciu Spark API.
- Masz doświadczenie w pracy z narzędziami big data, przetwarzaniem danych strumieniowych oraz integracją z różnymi systemami (RESTful API, CRM).
- Ekspert w zakresie SQL , w tym optymalizacji zapytań i pracy z wielowymiarowymi modelami danych.
- Posiadasz doświadczenie w tworzeniu zaawansowanych raportów i dashboardów (Tableau) oraz ich optymalizacji pod kątem wydajności.
- Pracowałeś/aś w środowisku Agile , prowadząc projekty na dużą skalę i koordynując zespoły cross-funkcjonalne.
- Znajomość AWS , Terraform , oraz doświadczenie z CI/CD (np. GitLab CI/CD) będą istotnymi atutami.
#J-18808-Ljbffr
Praca WarszawaDoradca podatkowy w Polsce WarszawaPośrednik w obrocie nieruchomościami WarszawaPracownicy uczelni w Polsce WarszawaSpecjalista ds. analizy i statystyki WarszawaSpecjalista ds. chłodnictwa i klimatyzacji WarszawaSpecjalista ds. badań i rozwoju WarszawaTechnik żywienia i gospodarstwa domowego WarszawaSpecjalista ds. kadr i płac WarszawaSpecjalista ds. BHP i ochrony środowiska WarszawaWarszawa - Oferty pracy w okolicznych lokalizacjach