Izbijanje samouvjerenosti AI modelima
- Objavljeno u Znanost

Današnji najsposobniji modeli zaključivanja daju svaki odgovor s istom nepokolebljivom sigurnošću, bez obzira jesu li točni ili nagađaju.
Istraživači u MIT-ovom Laboratoriju za računalne znanosti i umjetnu inteligenciju (CSAIL) sada su pratili tu pretjeranu samouvjerenost do specifičnog nedostatka u načinu na koji se ovi modeli obučavaju i razvili metodu koja ga ispravlja bez žrtvovanja točnosti.
Tehnika, nazvana RLCR (Reinforcement Learning with Calibration Rewards (učenje s potkrepljenjem i nagrade za kalibraciju), obučava jezične modele da proizvode kalibrirane procjene pouzdanosti uz svoje odgovore. Osim što daje odgovor, model razmatra svoju nesigurnost u tom odgovoru i daje rezultat pouzdanosti.
U eksperimentima na više mjerila, RLCR je smanjio pogrešku kalibracije do 90 posto uz održavanje ili poboljšanje točnosti, kako na zadacima na kojima je model obučavan, tako i na potpuno novima koje nikada prije nije vidio.
Problem se temelji na iznenađujuće jednostavnom izvoru. Metode učenja s potkrepljenjem (RL) koje stoje iza nedavnih otkrića u zaključivanju umjetne inteligencije, uključujući pristup obučavanju koji se koristi u sustavima poput OpenAI-jevog o1, nagrađuju modele za dobivanje točnog odgovora i kažnjavaju ih za pogrešan odgovor. Ništa između.
Model koji dođe do točnog odgovora pažljivim zaključivanjem dobiva istu nagradu kao i onaj koji slučajno pogodi. Tijekom vremena, to obučava modele da samouvjereno odgovore na svako postavljeno pitanje, bez obzira imaju li jake dokaze ili zapravo bacaju novčić.
To pretjerano samopouzdanje ima posljedice. Kada se modeli primjenjuju u medicini, pravu, financijama ili bilo kojem okruženju gdje korisnici donose odluke na temelju rezultata umjetne inteligencije, sustav koji izražava visoko samopouzdanje bez obzira na njegovu stvarnu sigurnost postaje nepouzdan na načine koje je teško otkriti izvana.
RLCR to rješava dodavanjem jednog člana funkciji nagrađivanja: Brierove skale, dobro utvrđene mjere koja kažnjava jaz između iskazane pouzdanosti modela i njegove stvarne točnosti. Tijekom treniranja, modeli uče razmišljati i o problemu i o vlastitoj nesigurnosti, zajedno dajući odgovor i procjenu pouzdanosti. Pouzdano pogrešni odgovori se kažnjavaju. Isto vrijedi i za nepotrebno nesigurno točne odgovore.
Tim je formalno dokazao da ova vrsta strukture nagrađivanja jamči modele koji su i točni i dobro kalibrirani. Zatim su testirali pristup na modelu sa 7 milijardi parametara u nizu referentnih vrijednosti za odgovaranje na pitanja i matematiku, uključujući šest skupova podataka na kojima model nikada nije bio obučen.
Rezultati su pokazali dosljedan obrazac. Standardno RL treniranje aktivno je degradiralo kalibraciju u usporedbi s osnovnim modelom, čineći modele lošijima u procjeni vlastite nesigurnosti. RLCR je preokrenuo taj učinak, značajno poboljšavajući kalibraciju bez gubitka točnosti.
Metoda je također nadmašila post-hoc pristupe, u kojima se zaseban klasifikator trenira za dodjeljivanje bodova pouzdanosti nakon događaja.
Tim je također pokazao da su procjene pouzdanosti koje proizvodi RLCR praktično korisne u trenutku zaključivanja. Kada modeli generiraju više kandidata odgovora, odabir onog s najvišim samoprocjenom pouzdanosti ili ponderiranje glasova prema pouzdanosti u shemi većinskog glasanja poboljšava i točnost i kalibraciju prilikom izračuna skala.
Dodatni nalaz sugerira da sam čin zaključivanja o nesigurnosti ima vrijednost. Istraživači su obučavali klasifikatore na izlazima modela i otkrili da uključivanje eksplicitnog zaključivanja o nesigurnosti modela u ulaz poboljšava performanse klasifikatora, posebno za manje modele.
Samoreflektivno zaključivanje modela o tome što zna, a što ne zna sadrži stvarne informacije, a ne samo ukrase.