AI koji razumije odnose između objekata
- Objavljeno u Znanost
Kad ljudi gledaju neki prizor, vide objekte i odnose među njima. Na vrhu vašeg stola može se nalaziti prijenosno računalo koje se nalazi s lijeve strane telefona, a koji je ispred monitora računala.
Mnogi modeli dubokog učenja ne mogu gledati svijet na ovaj način jer ne razumiju zamršene odnose između pojedinačnih objekata. Bez znanja o tim odnosima, robot dizajniran da pomogne nekome u kuhinji imao bi poteškoća s praćenjem naredbe poput "podigni lopaticu koja se nalazi lijevo od štednjaka i stavi je na dasku za rezanje".
U nastojanju da riješe ovaj problem, istraživači MIT-a razvili su model koji razumije temeljne odnose između objekata u sceni. Njihov model predstavlja pojedinačne odnose jedan po jedan, a zatim kombinira te prikaze kako bi opisao cjelokupnu scenu. To omogućuje modelu da generira točnije slike iz tekstualnih opisa, čak i kada scena uključuje nekoliko objekata koji su raspoređeni u različitim odnosima jedan prema drugom.
Ovaj bi se model mogao primijeniti u situacijama kada industrijski roboti moraju obavljati zamršene zadatke manipulacije u više koraka, poput slaganja predmeta u skladištu ili sastavljanja uređaja. Također bi nas mogao približiti strojevima koji mogu učiti iz svog okruženja i komunicirati s njim na isti način kao ljudi.
“Kada pogledam stol, ne mogu reći da postoji objekt na lokaciji XYZ. Naši umovi ne rade tako. U našim mislima, kada razumijemo scenu, stvarno je razumijemo na temelju odnosa između objekata. Mislimo da bismo izgradnjom sustava koji može razumjeti odnose između objekata, mogli koristiti taj sustav za učinkovitije manipuliranje i promjenu našeg okruženja,” kaže Yilun Du, doktorand u Laboratoriju za računalnu znanost i umjetnu inteligenciju (CSAIL) i glavni autor rada.
Framework koji su razvili istraživači može generirati sliku scene na temelju tekstualnog opisa objekata i njihovih odnosa, kao što su "drveni stol lijevo od plave stolice i crveni kauč desno od plave stolice".
Njihov bi sustav rastavljao ove rečenice na dva manja dijela koji opisuju svaki pojedinačni odnos ("drveni stol lijevo od plave stolice" i "crveni kauč desno od plave stolice"), a zatim modelirao svaki dio zasebno . Ti se dijelovi zatim kombiniraju kroz proces optimizacije koji generira sliku scene.
"Rastavljanjem rečenica na kraće dijelove za svaki odnos, sustav ih može rekombinirati na različite načine, tako da se bolje prilagođava opisima scene koje prije nije vidio", objašnjavaju znanstvenici.
"Drugi sustavi bi sve relacije shvaćali holistički i generirali sliku u jednom snimku iz opisa. Međutim, takvi pristupi ne uspijevaju kada imamo opise izvan distribucije, kao što su opisi s više relacija, budući da ovi modeli ne mogu stvarno prilagoditi jednu snimku za generiranje slika koje sadrže više odnosa. Međutim, kako zajedno sastavljamo ove zasebne, manje modele, možemo modelirati veći broj odnosa i prilagoditi se novim kombinacijama", kaže Du.
Sustav također radi obrnutim redoslijedom - na slici može pronaći tekstualne opise koji odgovaraju odnosima između objekata u sceni. Osim toga, njihov se model može koristiti za uređivanje slike preuređivanjem objekata u sceni tako da odgovaraju novom opisu.
Istraživači su usporedili svoj model s drugim metodama dubokog učenja koje su dobile tekstualni opis i zadaću generiranja slika koje prikazuju odgovarajuće objekte i njihove odnose. U svakom je slučaju njihov model nadmašio druge metode.
Također su tražili od ljudi da procijene odgovaraju li generirane slike originalnom opisu scene. U najsloženijim primjerima, gdje su opisi sadržavali tri odnosa, 91 posto sudionika zaključilo je da je novi model bolji.
"Jedna zanimljiva stvar koju smo otkrili je da za naš model možemo povećati rečenicu s jednog opisa odnosa na dva, tri, ili čak četiri opisa, a naš pristup ostaje u mogućnosti generirati slike koje su ispravno opisane u deskripcijama, što druge metode ne uspijevaju", kaže Du.
Istraživači su također modelu pokazali slike scena koje prije nije vidiao, kao i nekoliko različitih tekstualnih opisa svake slike, i uspjeli su uspješno identificirati opis koji najbolje odgovara odnosima objekata na slici.
A kada su istraživači sustavu dali dva opisa relacijskih scena koji su opisivali istu sliku, ali na različite načine, model je uspio shvatiti da su opisi ekvivalentni.
Istraživači su bili impresionirani robusnošću svog modela, posebno kada su radili s opisima s kojima se prije nisu susreli.
Također su zainteresirani za ugradnju svog modela u robotske sustave, koji bi robotima omogućili donošenje zaključaka o odnosima objekata iz videa, a zatim primijenio to znanje za manipulaciju pravim objektima.
Čitav znanstveni rad možete pronaći na ovoj poveznici.