Do projektu związanego z utrzymaniem i rozwojem dużych, rozproszonych systemów produkcyjnych poszukujemy Senior Site Reliability Engineera. Będziesz pracować nad środowiskami obsługującymi miliony użytkowników, dużą dynamikę ruchu oraz złożone procesy biznesowe. Kluczowe obszary to niezawodność, automatyzacja, monitoring i rozwój infrastruktury chmurowej.
Zakres zadań
projektowanie, rozwój i utrzymanie systemów monitoringu oraz observability (metrics, logs, tracing)
analiza incydentów, root cause analysis, prowadzenie post‑mortem i wdrażanie usprawnień
rozwój i utrzymanie narzędzi do alertowania, diagnostyki i automatyzacji operacji
monitorowanie i optymalizacja wydajności aplikacji oraz infrastruktury
rozwój infrastruktury wspierającej systemy produkcyjne (Kubernetes, IaC, CI/CD)
projektowanie i wdrażanie rozwiązań chmurowych dla systemów o dużej skali
współpraca z zespołami developerskimi i architektami w zakresie reliability, kosztów i bezpieczeństwa
doradztwo techniczne w obszarze chmury i automatyzacji, udział w projektowaniu nowych komponentów
min. 5-6 lat doświadczenia w SRE, DevOps lub Platform Engineering
bardzo dobra znajomość Kubernetes (operational level, mile widziane doświadczenie z dużymi klastrami)
praktyczna znajomość jednej z chmur Azure/GCP/AWS (architektura, usługi, best practices)
doświadczenie z IaC: Terraform, CloudFormation lub podobne
znajomość GitOps (Argo CD) i umiejętność tworzenia helm chartów
doświadczenie w budowie i utrzymaniu CI/CD (GitLab CI)
biegłość w narzędziach monitoringu i incident management: Prometheus, Grafana, ELK, Opsgenie/PagerDuty
dobra znajomość koncepcji sieciowych, systemów operacyjnych, optymalizacji wydajności
umiejętność programowania (Python, Go)
znajomość ITIL w obszarze zarządzania incydentami i problemami
bardzo dobre umiejętności komunikacyjne i zdolność współpracy z klientami oraz zespołami technicznymi
Mile widziane
doświadczenie w projektowaniu systemów high‑availability i high‑scale
wiedza z zakresu matematyki, algorytmów i optymalizacji niskopoziomowej
prowadzenie małych zespołów lub koordynacja prac technicznych
pełne zaangażowanie w projekt o dużej skali i wysokiej odpowiedzialności technicznej