technologies-expected :

technologies-optional :

about-project :

Tworzysz i utrzymujesz kompetencje AI całego produktu. Dobierasz, wdrażasz i optymalizujesz lokalny model językowy (LLM) działający na naszej infrastrukturze GPU. Projektujesz pipeline RAG, który pozwala fizjoterapeutom zadawać pytania do bazy wiedzy z setek szkoleń i otrzymywać precyzyjne, cytowane odpowiedzi. To rola techniczna z realnym wpływem - nie ma tu gotowego stacku do utrzymania, budujesz go od zera.

responsibilities :

Dobór i wdrożenie lokalnego LLM (on-prem):
–analiza i benchmark dostępnych modeli otwartych (jakość, latencja, wymagania sprzętowe)
–uruchomienie i utrzymanie serwisu inferencyjnego - latencja, throughput, stabilność
–rekomendacja konfiguracji sprzętowej (we współpracy przy zakupie serwerów GPU)
Projektowanie i implementacja systemu RAG:
–przygotowanie danych: czyszczenie, segmentacja transkrypcji i PDF, metadane
–budowa i utrzymanie indeksów wektorowych i wyszukiwania hybrydowego
–prompt engineering, cytowanie źródeł, ograniczanie halucynacji
Zapewnienie jakości modelu:
–golden set, testy regresyjne, ewaluacja jakości odpowiedzi
–współpraca z ekspertami merytorycznymi (fizjoterapeuci) przy ocenie wyników
Integracja z backendem .NET - projekt kontraktów API, kolejki, cache, observability
Dokumentacja techniczna, code review, udział w kształtowaniu standardów zespołu

requirements-expected :

Komercyjne doświadczenie w ML/NLP/LLM - wdrożenia produkcyjne, nie tylko PoC
Python na poziomie seniorskim; znajomość narzędzi do pracy z tekstem i danymi
Embeddings, wyszukiwanie semantyczne/hybrydowe, reranking - praktyczne doświadczenie
Optymalizacja inferencji: pamięć, throughput, kolejkowanie, monitoring
Budowa pipelineów danych i integracja z systemami produkcyjnymi
Samodzielność - potrafisz dowieźć end-to-end, nie potrzebujesz gotowej architektury

benefits :

technologies-optional :