Tworzysz i utrzymujesz kompetencje AI całego produktu. Dobierasz, wdrażasz i optymalizujesz lokalny model językowy (LLM) działający na naszej infrastrukturze GPU. Projektujesz pipeline RAG, który pozwala fizjoterapeutom zadawać pytania do bazy wiedzy z setek szkoleń i otrzymywać precyzyjne, cytowane odpowiedzi. To rola techniczna z realnym wpływem - nie ma tu gotowego stacku do utrzymania, budujesz go od zera.
responsibilities :
Dobór i wdrożenie lokalnego LLM (on-prem):
–analiza i benchmark dostępnych modeli otwartych (jakość, latencja, wymagania sprzętowe)
–uruchomienie i utrzymanie serwisu inferencyjnego - latencja, throughput, stabilność
–rekomendacja konfiguracji sprzętowej (we współpracy przy zakupie serwerów GPU)
Projektowanie i implementacja systemu RAG:
–przygotowanie danych: czyszczenie, segmentacja transkrypcji i PDF, metadane
–budowa i utrzymanie indeksów wektorowych i wyszukiwania hybrydowego