Dołącz do zespołu Big Data, który liczy 12 osób i pracuje w metodyce SCRUM. Zespół realizuje zarówno projekty biznesowe, jak i badawczo-rozwojowe (R&D).
Na co dzień zajmuje się m.in. implementacją rozwiązań z zakresu przetwarzania danych streamingowych (np. skrócenie czasu ładowania danych pod reporting w sektorze finansowym). Zespół ściśle współpracuje z Data Science, wdrażając i rozwijając rozwiązania ML/AI, a także wspiera architektonicznie i wdrożeniowo inne projekty.
Pracujemy w nowoczesnym ekosystemie obejmującym m.in. Python, Java, Kubeflow, Kafka, Hadoop Cloudera (CDP), Spark, Nifi, GX. W najbliższym czasie planowane jest także rozszerzenie działań w kierunku chmury (GCP i Azure).
responsibilities :
Rozwój i utrzymanie rozwiązań Big Data w oparciu o platformę Hadoop i Spark,
Implementacja procesów przetwarzania dużych zbiorów danych (batch i streaming),
Integracja danych z wielu źródeł w różnych formatach (JSON, PARQUET, ORC, AVRO),
Optymalizacja i automatyzacja procesów przetwarzania danych,
Tworzenie i utrzymywanie dokumentacji technicznej,
Współpraca z zespołami Data Science oraz innymi zespołami projektowymi.
requirements-expected :
Minimum 3 lata doświadczenia w programowaniu w Spark w języku Python (lub Scala),
Znajomość koncepcji Big Data, Hurtowni Danych i Zarządzania Danymi,