Novi način jailbreaka jezičnih modela

image

Kako natjerati AI da odgovori na pitanje na koje nije predviđeno odgovarati? Postoje mnoge takve "jailbreak" tehnike, a istraživači Anthropica upravo su pronašli novu, u kojoj se veliki jezični model (LLM) može uvjeriti da vam kaže kako napraviti bombu ako ga prvo pripremite s nekoliko desetaka manje štetnih pitanja.

Nazivaju tu tehniku "many-shot jailbreaking" i napisali su rad o tome, te obavijestili svoje kolege u AI zajednici kako bi se to moglo ublažiti.

Ranjivost je nova, rezultat povećanog "kontekstualnog prozora" najnovije generacije LLM-ova. To je količina podataka koju mogu zadržati u onome što biste mogli nazvati kratkoročnom memorijom, nekada samo nekoliko rečenica, ali sada tisuće riječi i čak cijele knjige.

Ono što su istraživači iz tvrtke Anthropic otkrili je da ovi modeli s velikim kontekstualnim prozorima imaju tendenciju bolje izvršavati mnoge zadatke ako ima puno primjera tog zadatka unutar uputa.

Dakle, ako u uputama ima puno pitanja iz opće kulture (ili primarnog dokumenta, poput velike liste općih informacija koje model ima u kontekstu), odgovori zapravo postaju bolji tijekom vremena. Dakle, činjenica koju bi mogao pogrešno odgovoriti ako je prvo pitanje, može točno odgovoriti ako je stoto pitanje.

No, u neočekivanom proširenju ovog "učenja u kontekstu", kako se to naziva, modeli također postaju "bolji" u odgovaranju na neprimjerena pitanja. Dakle, ako ga odmah pitate da izgradi bombu, odbit će. Ali ako ga pitate da odgovori na 99 drugih pitanja manje štetnosti, a zatim ga pitate da izgradi bombu... puno je vjerojatnije da će pristati.

Zašto ovo funkcionira? Nitko zapravo ne razumije što se događa u zapletenom nizu težina koji je LLM, ali očito postoji neki mehanizam koji mu omogućuje da se fokusira na ono što korisnik želi, kao što pokazuje sadržaj u kontekstualnom prozoru. Ako korisnik želi opću kulturu, čini se da se postupno aktivira više latentne snage opće kulture kako postavljate desetke pitanja. I iz nekog razloga, ista stvar se događa kada korisnici traže desetke neprikladnih odgovora.

Tim je već obavijestio svoje kolege i zapravo konkurente o ovom napadu, nešto što se nadaju da će "potaknuti kulturu u kojoj su takvi napadi otvoreno dijeljeni među pružateljima LLM-a i istraživačima".

Za vlastito ublažavanje, otkrili su da iako ograničavanje kontekstualnog prozora pomaže, također ima negativan utjecaj na performanse modela. To, dakako, nije dopustivo - pa rade na klasifikaciji i kontekstualizaciji upita prije nego što dođu do modela. Naravno, to samo znači da imate drugačiji model koji se može prevariti... ali u ovoj fazi, premještanje cilja u sigurnosti umjetne inteligencije se očekuje.

Podijeli