Novi način jailbreaka jezičnih modela

Kako natjerati AI da odgovori na pitanje na koje nije predviđeno odgovarati? Postoje mnoge takve "jailbreak" tehnike, a istraživači Anthropica upravo su pronašli novu, u kojoj se veliki jezični model ( LLM ) može uvjeriti da vam kaže kako napraviti bombu ako ga prvo pripremite s nekoliko desetaka manje štetnih pitanja.
Nazivaju tu tehniku "many-shot jailbreaking" i napisali su rad o tome, te obavijestili svoje kolege u AI zajednici kako bi se to moglo ublažiti.
Ranjivost je nova, rezultat povećanog...
- Objavljeno u POP TECH










