Dołącz do nowego, strategicznego projektu transformacji danych: przenosimy analitykę z onpremise do GCP, budując od zera architekturę i model danych z mocnym naciskiem na zwiększanie wartości biznesowej i CX naszych klientów.
Pracujemy na technologiach: GCP, Spark, Python, Kubernetes, BigQuery, Vertex AI, Terraform, Looker. Integrujemy różnorodne, wysokowolumenowe źródła danych, projektujemy warstwy przetwarzania w trybach streaming i batch, wdrażamy data governance, lineage, jakość i bezpieczeństwo danych, a także CI/CD i monitoring/SLO, aby skrócić drogę od pytania do odpowiedzi dla naszego biznesu i zbudować solidny fundament pod rozwiązania AI/LLM.
Szukamy osób, które łączą architekturę z praktyką inżynierską i rozumieniem potrzeb biznesowych, wnoszą proaktywność, energię i świeże pomysły, i chcą realnie współkształtować standardy, wzorce oraz kierunek rozwoju naszej platformy danych.
responsibilities :
Projektowanie, rozwój i utrzymanie potoków danych (ETL/ELT) w środowisku GCP.
Integracja danych z różnych źródeł (API, bazy, pliki) do narzędzi takich jak BigQuery i Cloud Storage.
Projektowanie i optymalizacja modeli danych w hurtowniach danych (Kimball, Data Vault, Dimensional Modeling).
Implementacja rozwiązań streamingowych (np. Pub/Sub, Dataflow, Apache Beam).
Automatyzacja procesów wokół danych przy użyciu Cloud Composer (Airflow).
Zapewnienie wydajności, jakości, bezpieczeństwa i skalowalności danych.
Współpraca z zespołami ds. analityki danych, Data Science oraz zespołami biznesowymi.
Tworzenie dokumentacji technicznej i udział w code review.
Monitorowanie i rozwiązywanie problemów wydajnościowych oraz optymalizacja kosztów w chmurze.
Optymalizacja wydajności i kosztów implementowanych rozwiązań.
requirements-expected :
Min. 2-3 lata doświadczenia na stanowisku Data Engineera
Praktyczna znajomość ekosystemu GCP, w szczególności: BigQuery - zaawansowany SQL, zarządzanie kosztami, optymalizacja wydajności. Cloud Storage - zarządzanie danymi, wersjonowanie. Pub/Sub oraz Dataflow/Apache Beam lub Dataproc/Spark. Cloud Composer (Airflow) - orkiestracja i harmonogramowanie pipeline’ów danych.
Opanowanie SQL - optymalizacja zapytań, tworzenie agregacji i zarządzanie indeksami.
Umiejętność programowania w Python (np. pandas, PySpark, testy automatyczne).
Doświadczenie w projektowaniu modeli danych (Kimball, Data Vault, Dimensional Modeling) i budowie warstw danych (raw/bronze, curated/silver, semantic/gold).
Znajomość narzędzi do automatyzacji: CI/CD (np. GitLab CI, Cloud Build).
Praktyka w zapewnieniu jakości danych (testowanie, monitorowanie, alertowanie).
Znajomość narzędzi do monitorowania i rozwiązywania problemów wydajnościowych (Cloud Monitoring, Logging).
Doświadczenie w dokumentacji technicznej oraz code review.
Podstawy bezpieczeństwa w GCP: IAM, KMS, DLP.
Umiejętność pracy zespołowej i komunikacji z zespołami biznesowymi, technicznymi oraz analitycznymi.
Proaktywność, odpowiedzialność i nastawienie na jakość w obszarze danych.