Tehnologija koja će nam snimati snove
- Objavljeno u Znanost
Najnoviji modeli strojnog učenja, danas nam gotovo svaki dan demonstriraju mogućnosti napredne umjetne inteligencije, pri čemu je najviše prašine podigao ChatGPT, napredni AI chatbot tvrtke OpenAI i Microsofta.
Japanski znanstvenici sa Sveučilišta u Osaki, sada nam predstavljaju još jedan iskorak u umjetnoj inteligenciji, odnosno mogućnost AI-ja da rekonstruira slike koje gledamo iz skenova ljudskog mozga.
Znanstvenici su za ovo koristili AI algoritam pod nazivom Stable Diffusion, odnosno jezični model razvijen u Njemačkoj 2022., koji je u stanju iz teksta koji u njega unesete kreirati slike na sličan način kao što to radi OpenAi-jev DALL-E 2 koji je uvježban na milijardama slika povezanih s tekstualnim opisima.
Za novu studiju, japanski znanstvenici su modelu pružili dodatnu obuku, povezujući nove tekstualne opise o tisućama fotografija s moždanim obrascima stvorenim iz skenova mozga koje su promatrali sudionici studije.
Za razliku od prethodnih pokušaja korištenja algoritama umjetne inteligencije za dešifriranje skeniranja mozga, koji su morali biti uvježbani na velikim skupovima podataka, Stable Diffusion je uspio izvući više iz manje obuke za svakog sudionika uključivanjem naslova fotografija u algoritam.
"Algoritam umjetne inteligencije koristi informacije prikupljene iz različitih regija mozga uključenih u percepciju slike, poput okcipitalnog i temporalnog režnja", navodi Yu Takagi, sistemski neuroznanstvenik sa Sveučilišta u Osaki koji je radio na eksperimentu. Sustav je interpretirao informacije dobivene skeniranjem mozga funkcionalnom magnetskom rezonancijom (fMRI), koja otkriva promjene u protoku krvi u aktivnim regijama mozga. Kada ljudi gledaju fotografiju, sljepoočni režnjevi pretežno registriraju informacije o sadržaju slike (ljudi, objekti ili krajolik), dok okcipitalni režanj pretežno registrira informacije o rasporedu i perspektivi, kao što su mjerilo i položaj sadržaja. Sve te informacije bilježi fMRI dok bilježi vrhunce moždane aktivnosti, a ti se obrasci zatim mogu ponovno pretvoriti u imitaciju slike pomoću umjetne inteligencije.
Svaka slika generirana umjetnom inteligencijom počinje kao šum koji podsjeća na smetnje TV-a i zamjenjuje šum prepoznatljivim značajkama jer algoritam uspoređuje obrasce aktivnosti mozga osobe nakon gledanja fotografije s uzorcima u skupu podataka za obuku. Sustav učinkovito generira sliku koja prikazuje sadržaj, izgled i perspektivu fotografije koja se gleda.
Moždana aktivnost, uglavnom u okcipitalnom režnju, pružila je dovoljno informacija da se ponovno stvori izgled i perspektiva fotografija koje se gledaju. No, algoritam se borio da rekapitulira objekte, poput tornja sa satom sa stvarne fotografije i umjesto toga je stvorio apstraktne figure. Jedan pristup rješavanju ovog problema bio bi korištenje većih skupova podataka za obuku koji bi mogli istrenirati algoritam za predviđanje više detalja, jer je skup podataka fMRI-ja bio previše ograničen za to, kaže japanski tim.
Umjesto toga, istraživači su zaobišli ovaj problem koristeći ključne riječi iz naslova slika koji su pratili fotografije u skupu podataka fMRI-ja. Ako bi, primjerice, jedna od fotografija s treninga sadržavala toranj sa satom, uzorak moždane aktivnosti iz skeniranja bio bi povezan s tim objektom. To je značilo da bi, ako bi isti obrazac mozga bio ponovno prikazan od strane sudionika studije tijekom faze testiranja, sustav ubacio ključnu riječ objekta u normalni generator teksta u sliku Stable Diffusiona i toranj sa satom bi bio ugrađen u ponovno stvorenu sliku, slijedeći raspored i perspektivu naznačenu uzorkom mozga, što rezultira uvjerljivom imitacijom prave fotografije.
Važno je reći da algoritam Stable Diffusiona ne prima tekstualni upit izravno iz testnih podataka. Može zaključiti da je objekt prisutan samo ako se moždani uzorak podudara s onim koji se vidi u podacima s obuke. To ograničava objekte koje može ponovno stvoriti na one koji su prisutni na fotografijama koje se koriste tijekom treninga modela.
Istraživači su testirali svoj sustav na dodatnim skenovima mozga istih sudionika kada su gledali odvojeni skup fotografija, uključujući igračku medvjedića, aviona, sata i vlaka. Uspoređujući uzorke mozga iz tih slika s onima koje proizvode fotografije u skupu podataka za obuku, AI sustav je uspio proizvesti uvjerljive imitacije novih fotografija.
Međutim, AI sustav je testiran samo na skeniranju mozga istih četvero ljudi koji su omogućili skeniranje mozga za obuku, a njegovo proširenje na druge pojedince zahtijevalo bi ponovno uvježbavanje sustava na skeniranju njihovih mozgova. Stoga bi moglo proći neko vrijeme dok ova tehnologija ne postane široko dostupna. Unatoč tome, znanstvenici tvrde da ovi difuzijski modeli imaju neviđenu sposobnost generiranja realističnih slika, i mogli bi stvoriti nove mogućnosti za istraživanje kognitivne neuroznanosti.
Kako se ova tehnologija bude razvijala, kažu istraživači, mogla bi imati brojne primjene, od istraživanja kako različite životinjske vrste percipiraju svijet do snimanja ljudskih snova jednog dana i pomoći u komunikaciji kod paraliziranih osoba.
Čitavu studiju možete preuzeti i pogledati na ovoj poveznici.