AI poput čovjeka raspravlja o tome što se nalazi na slici
- Objavljeno u Novosti
Microsoft je jedan od najvećih ulagača u tvrtku OpenAI koja je razvila ChatGPT, AI model koji već tjednima ne silazi s naslovnica svih svjetskih medija. Ako vas bilo što u životu zanima ili želite samo malo popričati s umjetnom inteligencijom, postalo je najnormalnija stvar da se obratite naprednom AI chatbotu koji možda neće biti uvijek točan i pouzdan, ali će vam u većini slučajeva pružiti korisnu informaciju ili vas barem malo zabaviti.
Microsoft je sada predstavio novi AI model pod nazivom Kosmos-1 koji nema nikakve veze sa svemirom, već je posvećen razumijevanju konteksta na slikama.
Ukratko rečeno, radi se o "multimodalnom" AI-ju koji prema Microsoftu predstavlja novi korak prema općenitoj umjetnoj inteligenciji koja će u potpunosti promijeniti odnos između čovjeka i računala.
Microsoft je trenirao Kosmos-1 s djelomično povezanim slikovnim i jezičnim podacima, kao što su parovi riječ-slika. Osim toga, tim je koristio velike količine internetskog teksta, što je uobičajeno kod velikih jezičnih modela, a kao rezultat toga, model može razumjeti slike i tekst , uključujući opisivanje slika prirodnim jezikom, prepoznavanje teksta na slikama, pisanje naslova za slike i odgovaranje na pitanja o slikama. Kosmos-1 može obavljati te zadatke na izravan zahtjev ili, slično ChatGPT- u, kroz dijaloge.
Na vizualnom IQ testu, Kosmos-1 je bio oko pet do devet posto bolji od slučajnosti, pa istraživački tim vjeruje da može percipirati apstraktne konceptualne obrasce u neverbalnom kontekstu kombinirajući neverbalno razmišljanje s percepcijom jezičnih obrazaca. Međutim, još uvijek postoji veliki jaz u izvedbi u odnosu na prosječnu razinu odraslih.
Razumije li AI doista u potpunosti kontekst na slikama poput čovjeka, teško je reći, ali da je na dobrom putu prema tome svjedoče primjeri koje ističe Microsoft.
Primjerice, na jednoj slici se nalazi dječak koji sjedi na podu pokraj romobila i plače, a na pitanje zbog čega plače, odgovara da je tužen jer mu se razbio romobil. U drugom primjeru donosi vrlo ispravan zaključak o tome zbog čega je slika s mačkom ispred koje je papir s nacrtanim ustima koje se smiju smiješna, a u trećem vodi s čovjekom dijalog oko slike Windows 10 Shutdown prozora i daje konkretne savjete o tome što kliknuti ako želite ugasiti računalo ili ako to ne želite učiniti, dok iz filmskog postera može zaključiti o kojem se filmu radi i kada će biti prikazivan.
Kako nam se čini, Kosmos-1 dosta dobro razumije kontekst slika, ali je još uvijek na razini djeteta pa vjerujemo da se ne bi mogao u potpunosti snaći u svijetu odraslih stručnih osoba kojima ne bio toliko koristan kao klincima i laicima.
No to je trenutna situacija i rekli bismo da je u fazi odrastanja, a kakvom će to budućnošću rezultirati vjerojatno još nitko na ovom svijetu ne zna.
Čitav znanstveni rad Microsoftovih istraživača možete pronaći na ovoj poveznici.