.
Site Reliability Engineer + Hadoop
  • Warsaw
Site Reliability Engineer + Hadoop
Warszawa, Warsaw, Masovian Voivodeship, Polska
Link Group
19. 11. 2024
Informacje o stanowisku

Obowiązki:


  • Wykonywanie zadań SRE dla Big Data na różnych platformach open-source, takich jak Hadoop, Spark i HBASE.
  • Monitorowanie platform oraz przestrzeganie runbooków/SOP w celu zarządzania problemami z platformą i aplikacjami.
  • Zapoznanie się z procesami utrzymania klastrów i wprowadzanie zmian zgodnie z udokumentowanymi planami instalacji i walidacji.
  • Wykazywanie się solidnymi umiejętnościami rozwiązywania problemów i debugowania, mając na celu zidentyfikowanie i naprawienie problemu oraz sugerowanie, jak zapobiegać podobnym sytuacjom w przyszłości.
  • Przeprowadzanie dogłębnej analizy przyczyn pierwotnych (Root Cause Analysis) poważnych incydentów w środowisku produkcyjnym, dokumentowanie ich na potrzeby przyszłych działań oraz wdrażanie proaktywnych rozwiązań zwiększających niezawodność systemu.
  • Automatyzowanie rutynowych zadań za pomocą skryptów lub narzędzi automatyzujących w celu zmniejszenia pracy manualnej, ograniczenia błędów ludzkich oraz poprawy niezawodności systemu.


Wymagane umiejętności techniczne:


  • Minimum 2-3 lata doświadczenia na poziomie juniora i 5+ lat na poziomie średniozaawansowanym/seniora jako inżynier niezawodności systemów (SRE) Hadoop.
  • Zaawansowana wiedza na temat platform Hadoop oraz kluczowych komponentów Hadoop.
  • Umiejętność diagnozowania problemów z usługami platformy Hadoop oraz aplikacjami, a także identyfikowanie przyczyn problemów.
  • Pisanie playbooków Ansible oraz automatyzowanie zadań manualnych za pomocą Ansible, skryptów powłoki (shell scripting) i skryptów Python.
  • Znajomość wewnętrznych mechanizmów systemów Unix/Linux, sieci oraz systemów rozproszonych.

  • Praca Warszawa
  • Warszawa - Oferty pracy w okolicznych lokalizacjach


    93 174
    15 693