Wykonywanie zadań SRE dla Big Data na różnych platformach open-source, takich jak Hadoop, Spark i HBASE.
Monitorowanie platform oraz przestrzeganie runbooków/SOP w celu zarządzania problemami z platformą i aplikacjami.
Zapoznanie się z procesami utrzymania klastrów i wprowadzanie zmian zgodnie z udokumentowanymi planami instalacji i walidacji.
Wykazywanie się solidnymi umiejętnościami rozwiązywania problemów i debugowania, mając na celu zidentyfikowanie i naprawienie problemu oraz sugerowanie, jak zapobiegać podobnym sytuacjom w przyszłości.
Przeprowadzanie dogłębnej analizy przyczyn pierwotnych (Root Cause Analysis) poważnych incydentów w środowisku produkcyjnym, dokumentowanie ich na potrzeby przyszłych działań oraz wdrażanie proaktywnych rozwiązań zwiększających niezawodność systemu.
Automatyzowanie rutynowych zadań za pomocą skryptów lub narzędzi automatyzujących w celu zmniejszenia pracy manualnej, ograniczenia błędów ludzkich oraz poprawy niezawodności systemu.
Wymagane umiejętności techniczne:
Minimum 2-3 lata doświadczenia na poziomie juniora i 5+ lat na poziomie średniozaawansowanym/seniora jako inżynier niezawodności systemów (SRE) Hadoop.
Zaawansowana wiedza na temat platform Hadoop oraz kluczowych komponentów Hadoop.
Umiejętność diagnozowania problemów z usługami platformy Hadoop oraz aplikacjami, a także identyfikowanie przyczyn problemów.
Pisanie playbooków Ansible oraz automatyzowanie zadań manualnych za pomocą Ansible, skryptów powłoki (shell scripting) i skryptów Python.
Znajomość wewnętrznych mechanizmów systemów Unix/Linux, sieci oraz systemów rozproszonych.