Janusovi simulatori

Scott Alexander

Abstract

Veliki jezički modeli (LLM) poput GPT-a ne funkcionišu kao agensi usmereni ka cilju, duhovi koji izvršavaju komande ili tragači za istinom, već kao “simulatori”. Ovi sistemi su izuzetni u predviđanju teksta tako što usvajaju različite “maske” ili likove na osnovu unosa i podataka za obuku, efikasno simulirajući stil i sadržaj prikladne za dat kontekst. Čak i modeli usavršeni metodom učenja na osnovu povratnih informacija (RLHF) da budu korisni i bezopasni su u osnovi simulatori, fiksirani da dosledno igraju određenu ulogu, kao što je “Koristan, bezopasan i pošten asistent”. To znači da su njihovi samoopisi deo simulacije. Iako čisti simulatori možda nisu po svojoj suštini toliko agentni i stoga predstavljaju drugačije izazove usklađivanja od tradicionalno zamišljenih AI agenata, rizici i dalje mogu nastati ako simuliraju neusklađene agente ili generišu štetne agentno-orijentisane izlaze. Ovaj koncept simulatora koji nosi masku fino podešenu pojačanim učenjem proširuje se i na ljudsku psihologiju, gde se pojedinci mogu posmatrati kao predviđajući motori koji razvijaju “ego” ili “ja” kao lik koji se tumači u okviru obimnog unutrašnjeg modela sveta. – Apstrakt generisan veštačkom inteligencijom.