bierzesz udział w kluczowym projekcie, w ramach którego projektujemy, budujemy i systematycznie rozwijamy środowisko analityczne i raportowe
utrzymujesz i rozwijasz framework (napisany w Python) do przetwarzania danych w środowisku Big Data z wykorzystaniem Python, PySpark, SQL oraz Spark-SQL
zapewniasz efektywne zarządzanie zasobami i harmonogramami zadań, korzystając z Airflow i YARN, z pełnym zrozumieniem działania systemu kolejkowania zadań
pracujesz z systemami plików HDFS, dbając o optymalizację przechowywania i przetwarzania danych
współpracujesz z zespołami DevOps, korzystając z Azure DevOps w zakresie CI/CD pipelines
systematycznie rozwijasz swoje umiejętności w zakresie analizy danych i raportowania, z możliwością wykorzystania narzędzia Power BI
requirements-expected :
biegłość w korzystaniu z PySpark i SQL na poziomie zaawansowanym
znajomość Spark-SQL
doświadczenie w pracy z systemem plików HDFS oraz umiejętność poruszania się po systemie Linux
znajomość narzędzi do zarządzania procesami w Big Data, takich jak Airflow i YARN
umiejętność pracy w środowisku Azure DevOps, z naciskiem na zrozumienie procesów CI/CD pipelines