Zakres obowiązków:
- Projektowanie i wdrażanie środowisk RL obsługujących ocenę agentów na dużą skalę oraz eksperymenty z uczeniem wzmacniającym.
- Twórz potoki generowania zadań, dynamiczne zestawy danych i środowiska skryptowe o kontrolowanej złożoności i stochastyczności.
- Opracuj weryfikatory i modele nagród, aby automatycznie oceniać trajektorie i oceniać wnioskowanie modelu.
- Współpracuj z inżynierami infrastruktury i systemów, aby zapewnić skalowalność, powtarzalność i wyposażenie środowisk w narzędzia umożliwiające szczegółową
telemetrię.
- Projektuj interfejsy API i struktury orkiestracji do uruchamiania, resetowania i oceniania agentów w różnych środowiskach.
- Optymalizacja wydajności środowiska, rejestrowania i powtarzalności nagród w rozproszonych konfiguracjach
Wymagania:
- Ponad 5 lat doświadczenia w inżynierii oprogramowania w Pythonie.
- Co najmniej 3 lata doświadczenia na stanowisku Data Scientist, Machine Learning/Environment Engineering.
- Praca w godzinach 14:00 - 22:00
- Praktyczna znajomość frameworków AI (Langchain, Langraph, mcp-server).
- Bogate doświadczenie praktyczne w pracy ze sztuczną inteligencją, obejmujące m.in. inżynierię natychmiastową i kodowanie klimatu.
Oferujemy:
- Atrakcyjne wynagrodzenia
- Możliwość pełnej pracy zdalnej
- Udział w interesujących prohjektach
Dodatkowe atuty:
- Znajomość Kodeksu lub Kodeksu Claude'a.
- Doświadczenie w integrowaniu sztucznej inteligencji z systemem będzie dodatkowym atutem.
- Zrozumienie koncepcji RL - modelowanie nagród, dynamika środowiska,
weryfikowalność, ocena i pętle interakcji agentów.
- Znajomość instrumentów, metryk i kanałów danych do oceny RL.
- Ekspertyza w planowaniu własnej pracy.




















































