Szukamy doświadczonego Data Platform Engineer, który zaprojektuje i wdroży nowoczesną platformę danych typu lakehouse w chmurze, integrującą dane z systemów inżynieryjnych i bezpieczeństwa. Platforma będzie przetwarzać dane w wielu warstwach i udostępniać je zarówno do analiz biznesowych, jak i rozwiązań AI.
Data Platform Engineer (k/m/*)
Twój zakres obowiązków
- Projektowanie i wdrażanie chmurowej platformy danych typu lakehouse (Bronze/Silver/Gold).
- Integracja danych z różnych źródeł, w tym systemów inżynieryjnych i bezpieczeństwa.
- Tworzenie i utrzymanie procesów ETL/ELT oraz transformacji danych przy użyciu SQL, Python/Scala i narzędzi takich jak dbt, Databricks SQL czy Dataform.
- Projektowanie struktur danych i modeli relacyjnych oraz grafowych, zapewniając wysoką jakość danych i optymalną wydajność zapytań.
- Orkiestracja pipeline’ów danych przy użyciu narzędzi takich jak Airflow, Prefect, Dagster, Step Functions lub Azure Data Factory.
- Tworzenie infrastruktury jako kod (IaC) przy użyciu Terraform, CloudFormation, Pulumi lub szablonów ARM.
- Współpraca z zespołami Data Science, DevOps oraz ds. zgodności, wspierając analitykę i wykorzystanie danych w rozwiązaniach AI.
- Rozwiązywanie problemów związanych z jakością danych, optymalizacją zapytań i konfliktami schematów.
- Samodzielne proponowanie rozwiązań przy niepełnych wymaganiach i wyjaśnianie technicznych kompromisów (koszt, wydajność, złożoność) interesariuszom nietechnicznym.
Nasze wymagania
- 7+ lat w rolach zwiazanych z inzynieria danych, w tym co najmniej 2 lata przy budowie architektur lakehouse (Bronze/Silver/Gold lub równowazne wzorce medallion)
- Udokumentowane doswiadczenie w dostarczaniu platform danych klasy produkcyjnej
- Doswiadczenie z grafowymi bazami danych (Neo4j, Amazon Neptune, TigerGraph) do modelowania relacji
- Praktyczne doswiadczenie w przetwarzaniu strumieniowym (Kafka, Flink, Spark Streaming, Kinesis)
- Platformy chmurowe: Zaawansowana wiedza z zakresu AWS (S3/Blob, RDS/SQL Database, zarzadzany Kafka, serverless compute)
- SQL i modelowanie danych: Ekspercki poziom SQL, modelowanie wymiarowe, SCD2, kompromisy miedzy normalizacja a denormalizacja
- Narzedzia transformacyjne: dbt, Databricks SQL, Dataform lub wlasne frameworki SQL/Python
- Programowanie: Python lub Scala do przetwarzania danych, skryptów i automatyzacji
- Orkiestracja: Airflow, Prefect, Dagster, Step Functions lub Azure Data Factory
- IaC (Infrastructure as Code): Terraform, CloudFormation, Pulumi lub szablony ARM
- Gotowość do pracy hybrydowej, 2 razy w tygodniu z biura w Krakowie (warunek konieczny)
- Wyszukiwanie: OpenSearch, Elasticsearch lub Solr do indeksowania i wyszukiwania tekstu
- Grafy: Neo4j Cypher, SPARQL lub Gremlin do zapytan grafowych; doswiadczenie z grafowym ETL
- Jakosc danych: Great Expectations, testy dbt lub wlasne frameworki walidacyjne
- Przetwarzanie w czasie rzeczywistym: Flink, Spark Streaming lub serverless event processing (Lambda, Cloud Functions)
- Monitoring: Grafana, Datadog lub CloudWatch do obserwowalnosci pipeline’ów danych