Szukamy doświadczonego Senior Data Engineera, który swobodnie porusza się w środowisku GCP, ETL oraz zaawansowanej pracy z bazami danych i kolejkowaniem, a także biegle programuje w Pythonie i zna narzędzia wspierające wydajne przetwarzanie danych. W tej roli będziesz rozwijać, projektować i optymalizować złożone procesy integracyjne zarówno w chmurze, jak i w środowiskach on‑prem, wykorzystując nowoczesne technologie, narzędzia MLOps/DevOps oraz rozwiązania wysokowydajnościowe.
Tryb pracy: Hybrydowo, 4 dni zdalnie 1 dzień z biura w centrum Warszawy
responsibilities :
Jeśli chcesz przejąć odpowiedzialność za kluczowe obszary przetwarzania danych, pracować z ogromnymi wolumenami informacji i rozwijać narzędzia, które realnie wpływają na wydajność organizacji — dołącz do nas.
requirements-expected :
Posiadasz minimum pięcioletnie doświadczenie jako Data Engineer GCP, obejmujące projektowanie i realizację procesów integracji danych w środowisku Google Cloud.
Bardzo dobrze znasz bazy danych GCP, takie jak BigQuery, Bigtable czy Scylla Cloud, w szczególności w zakresie projektowania, tworzenia i optymalizacji ich działania.
Dobrze orientujesz się w narzędziach ETL działających na GCP, m.in. Apache Airflow, Dataflow oraz Dataproc.
Potrafisz pracować z systemami kolejkowymi, takimi jak Kafka czy Pub/Sub w GCP.
Masz co najmniej czteroletnią praktykę w roli ETL Developera tworzącego procesy integracji danych w środowiskach on‑premises.
Biegle posługujesz się narzędziami ETL on‑prem, w tym Informatica PowerCenter oraz NIFI, na poziomie zaawansowanym.
Posiadasz ekspercką znajomość relacyjnych baz danych Oracle, PostgreSQL i ScyllaDB, obejmującą ich projektowanie, budowę oraz optymalizację.
Bardzo dobrze znasz system harmonogramowania AutomateNow firmy Infinity Data.
Potrafisz tworzyć i wystawiać usługi REST API.
Masz minimum trzy lata doświadczenia w programowaniu.
Bardzo dobrze znasz Pythona w obszarach integracji i analizy danych, a także posługujesz się frameworkiem PySpark.
Posiadasz znajomość języka Rust, wykorzystywanego do tworzenia narzędzi i frameworków umożliwiających wydajne ładowanie danych.
Docelowo przejmiesz odpowiedzialność za wybrane obszary przetwarzania i udostępniania danych, szczególnie w środowiskach wymagających wysokiej wydajności.