AI dosegao ljudsku razinu na testu opće inteligencije

  • Objavljeno u Novosti
image

OpenAI-jev o3 sustav postigao je 85% na ARC-AGI benchmarku, što je znatno iznad prethodnog najboljeg rezultata umjetne inteligencije od 55% i na razini prosječnog ljudskog rezultata, a također je postigao dobar rezultat na vrlo teškom testu iz matematike.

Ovo je iznenađujuće i važno povećanje funkcija AI-ja u sposobnostima umjetne inteligencije, koje pokazuje novu sposobnost prilagodbe zadacima kakva dosad nije viđena u modelima GPT obitelji. Za kontekst, ARC-AGI-1 je trebalo 4 godine da prijeđe s 0% s GPT-3 2020. na 5% 2024. s GPT-4o.

Stvaranje opće umjetne inteligencije ili AGI, predstavlja najveći izazov znanstvenicima koji se bave razvojem AI-a, a sada se čini da je OpenAI napravio značajan korak prema tom cilju.

OpenAI o3 je novi model koji je razvio OpenAI kao nasljednika modela OpenAI o1 s ciljem da se bavi pitanjima koja zahtijevaju logičko razmišljanje korak po korak.

ARC-AGI je test učinkovitosti uzorka sustava umjetne inteligencije u prilagodbi nečemu novom, odnosno mjeri koliko primjera nove situacije sustav treba vidjeti da bi shvatio kako funkcionira.

Sustav umjetne inteligencije kao što je ChatGPT nije baš učinkovit za uzorkovanje, jer je treniran na milijunima primjera ljudskog teksta, konstruirajući probabilistička pravila o tome koje su kombinacije riječi najvjerojatnije.

Mada pokazuje dobre rezultate u običnim pitanjima, loš je u neuobičajenim zadacima, jer ima manje podataka, odnosno manje uzoraka o njima.

Sve dok sustavi umjetne inteligencije ne budu mogli učiti iz malog broja primjera i prilagoditi se s većom učinkovitošću uzorka, koristit će se samo za poslove koji se vrlo ponavljaju i one u kojima je povremeni kvar tolerantan.

Sposobnost točnog rješavanja prethodno nepoznatih ili novih problema iz ograničenih uzoraka podataka poznata je kao sposobnost generalizacije i smatra se temeljnim elementom inteligencije.

U ARC-AGI benchmark testovima svako pitanje daje samo tri primjera iz kojih AI može učiti, a sustav umjetne inteligencije zatim treba otkriti pravila koja se "generaliziraju", što je vrlo slično IQ testovima koje ste vjerojatno rješavali.

Ukratko rečeno OpenAI-jev o3 model se pokazao vrlo prilagodljivim jer je iz samo nekoliko primjera uspio pronalaziti pravila koja se mogu generalizirati.

Francuski istraživač umjetne inteligencije Francois Chollet, koji je osmislio benchmark, vjeruje da o3 pretražuje različite "lance misli" koji opisuju korake za rješavanje zadatka, a zatim odabire najbolje prema nekom labavo definiranom pravilu ili heuristici.

OpenAI je otkrio vrlo malo detalja o ApenAI o3, pa osim nekoliko medijskih prezentacija i rezultata ranog testiranje nekoliko laboratorija i institucija za sigurnost umjetne inteligencije, još ne znamo kako točno funkcionira i kako postiže takav rezultat na testu opće inteligencije.

Za istinsko razumijevanje potencijala o3 bit će potreban opsežan rad, uključujući procjene, razumijevanje distribucije njegovih kapaciteta, koliko često uspijeva i koliko često ne uspijeva. 

Kada o3 konačno bude objavljen, imat ćemo puno bolju ideju o tome je li približno prilagodljiv kao prosječan čovjek i koliko se približio pravoj općoj umjetnoj inteligenciji.

Podijeli