Big Data Engineer

Warszawa

Nazwa pozycji Big Data Engineer

Lokalizacja Warszawa, Warszawa, mazowieckie, Polska

Firma GOLDENORE ITC Sp. z o.o.

Dodano 3. 12. 2025

Informacje o stanowisku

Dołączysz do zespołu, który pracuje nad najbardziej zaawansowanymi inicjatywami Big Data w bankowości. Jesteśmy 12-osobowym zespołem Scrumowym, realizującym zarówno projekty biznesowe, jak i R&D. Odpowiadamy m.in. za:

•budowę i rozwój rozwiązań streamingowych, które znacząco skróciły czas przetwarzania danych pod raportowanie,

•ścisłą współpracę z zespołem Data Science – wdrażanie i rozwijanie modeli ML/AI w środowiskach produkcyjnych,

•wsparcie architektoniczne i wdrożeniowe dla innych zespołów projektowych,

•rozwój platformy Big Data na Cloudera CDP / Hadoop,

•przygotowania do migracji do chmury (GCP, Azure).

Pracujemy z dużą skalą danych, nowoczesnym ekosystemem narzędzi i wieloma projektami równolegle. Jeśli Big Data, ML, streaming i architektura danych to obszary, które Cię napędzają — będzie to dla Ciebie świetne miejsce.

Spotykamy się z zespołem 2x w miesiącu w Warszawie.

Big Data Engineer

Twój zakres obowiązków

Rozwój i utrzymanie procesów danych w Spark (Python lub Scala)
Tworzenie i optymalizacja pipeline’ów Big Data (batch + streaming)
Praca na platformie Hadoop/Cloudera (CDP)
Integracja danych z wielu źródeł (wewnętrznych i zewnętrznych)
Implementacja standardów inżynierii danych: modelowanie, testowanie, automatyzacja, dokumentacja
Wsparcie architektów i zespołów projektowych w tworzeniu i wdrażaniu rozwiązań danych
Praca z formatami danych: JSON, PARQUET, ORC, AVRO
Wsparcie w rozwoju środowiska ML/AI (np. Kubeflow, Spark ML, pipelines)
Przygotowanie środowiska pod przyszłe prace w chmurze (GCP/Azure)

Nasze wymagania

Min. 4 lata doświadczenia w pracy ze Spark (Python lub Scala)
Dobra znajomość koncepcji Big Data, Data Warehouse, Data Governance
Doświadczenie z platformą Hadoop Cloudera lub Hortonworks
Znajomość dobrych praktyk inżynierii danych przy dużej skali
Bardzo dobra znajomość SQL
Doświadczenie w integracji danych z wielu źródeł
Znajomość formatów danych: JSON, PARQUET, ORC, AVRO
Rozumienie typów baz danych i scenariuszy użycia (Hive, Kudu, HBase, Iceberg itp.)
Znajomość narzędzi do budowy projektów (np. Maven)
Praktyczna znajomość metodyk Agile (Scrum, Kanban), narzędzia Jira/Confluence
Doświadczenie z Kubeflow
Znajomość narzędzi streamingowych: Kafka, Apache Nifi
Praktyczna wiedza w zakresie CI/CD i automatyzacji pipeline’ów