VIDEO: LLM AI roboti pretvoreni u ubojice
- Objavljeno u Znanost
AI chatbotovi kao što je ChatGPT i druge aplikacije koje pokreću veliki jezični modeli (LLM-ovi) postali su izuzetno popularni, što je dovelo do toga da brojne tvrtke počnu razvijati autonomne robote vođene LLM-om.
Znanstvenici Sveučilišta u Pennsylvaniji odlučili su provjeriti koliko je teško napraviti "jailbreak" sigurnosnih mjera ugrađenih u LLM, kako bi robot kojeg pokreće veliki jezični model mogao izvoditi zadaće koje se kose s njegovim programiranim "moralom".
Zahvaljujući hakiranju sustava i izradom jailbreaka pod nazivom RoboPAIR, istraživači su mogli manipulirati samovozećim sustavima tako da se sudaraju s pješacima i psima robotima, prelaze postavljene ograde i generiraju neželjeni sadržaj, poput uputa za izradu bombi, recepata za sintetiziranje ilegalnih droga i vodiča za prijevare dobrotvornih organizacija.
RoboPAIR je u osnovi algoritam dizajniran za napad na bilo kojeg robota kojim upravlja LLM. U eksperimentima s tri različita robotska sustava, Dolphins LLM-om kojeg podržava Nvidia, Clearpath Robotics Jackal UGV-om i Unitree Robotics Go2, otkrili su da RoboPAIR treba samo nekoliko dana da postigne 100-postotnu stopu jailbreaka protiv sva tri sustava, kao što možete vidjeti u ovom videu.
"Jailbreak robota kojima upravlja umjetna inteligencija nije samo moguće, alarmantno je jednostavno", kaže Alexander Robey, postdoktorand na Sveučilištu Carnegie Mellon u Pittsburghu.
RoboPAIR koristi LLM napadača za slanje upita ciljnom LLM-u. Napadač ispituje odgovore svoje mete i prilagođava svoje upite dok te naredbe zaobiđu sigurnosne filtre mete.
RoboPAIR je bio opremljen programskim sučeljem ciljnog robota (API) kako bi napadač mogao formatirati njegove upite na način da se njegov cilj može izvršiti kao kod. Znanstvenici su također dodali sustav procjene kako bi osigurali da napadač generira upute da meta zapravo može zaobići određena fizička ograničenja, kao što su specifične prepreke u okruženju.
Jedno otkriće koje su znanstvenici smatrali zabrinjavajućim bilo je kako su jailbreakani LLM-ovi često išli dalje od pridržavanja zlonamjernih upita aktivnim davanjem prijedloga. Na primjer, kada je zatraženo da locira oružje, robot koji je jailbreakan, opisao je kako se uobičajeni predmeti poput stolova i stolica mogu koristiti za udaranje ljudi.
Istraživači su naglasili da su prije javnog objavljivanja svog rada, otkrića podijelili s proizvođačima robota koje su proučavali, kao i s vodećim AI tvrtkama. Također su napomenuli kako ne sugeriraju da istraživači prestanu koristiti LLM za robotiku. Na primjer, razvili su način na koji LLM-ovi mogu pomoći u planiranju misija robota za inspekciju infrastrukture i odgovor na katastrofe, kaže Zachary Ravichandran, doktorand na Sveučilištu Pennsylvania.
"Ova otkrića naglašavaju da čak i naprednim LLM-ima nedostaje pravo razumijevanje konteksta ili posljedica", kaže Hakki Sevil , izvanredni profesor inteligentnih sustava i robotike na Sveučilištu West Florida u Pensacoli koji nije bio uključen u istraživanje. "To dovodi do važnosti ljudskog nadzora u osjetljivim okruženjima, posebno tamo gdje je sigurnost ključna."