Istraživači podučavaju AI modele u tumačenju grafikona

  • Objavljeno u Znanost
image

Kako bi ubrzali i poboljšali donošenje odluka na brzorastućem globalnom tržištu, poduzeća mogu primijeniti generativne modele umjetne inteligencije kako bi pomogla u sažimanju i interpretaciji grafikona koji često ispunjavaju sažetke tržišta i financijska izvješća.

No čak i najnoviji modeli vizualnog jezika ponekad se muče s ovim zadatkom, budući da je potreban model koji integrira vizualno, numeričko i lingvističko razumijevanje. Tvrtka koja ulaže u najsuvremeniji model i dalje bi mogla primati netočne ili nepotpune informacije.

Kako bi popunili ovu prazninu u performansama, istraživači s američkog tehnološkog instituta MIT i MIT-IBM Computing Research Laba razvili su višestruki resurs za korisnike umjetne inteligencije koji je posebno dizajniran za podučavanje modela vizualnog jezika (VLM) kako učinkovito interpretirati grafikone.

Koristili su novu metodu generiranja podataka kako bi izgradili najsuvremeniji skup podataka koji uključuje više od milijun različitih grafikona. Skup podataka također kodira mnoge vizualne, lingvističke i numeričke komponente svake slike grafikona, što modelima omogućuje robusno rasuđivanje o informacijama u grafikonu.

Istraživači su koristili ovaj skup podataka, nazvan ChartNet, za treniranje niza VLM-ova otvorenog koda. Mnogi od ovih manjih modela značajno su nadmašili veće komercijalne modele, u zadacima poput ekstrakcije podataka i sažimanja grafikona.

Omogućavanjem modelima otvorenog koda da nadmaše svoje komercijalne ekvivalente, ChartNet bi mogao omogućiti malim tvrtkama s ograničenim proračunima da lakše koriste umjetnu inteligenciju. Skup podataka otvorenog koda može se koristiti za poboljšanje mogućnosti modela umjetne inteligencije za zadatke poput analize poslovnih trendova i interpretacije znanstvenih brojki.

ChartNet skup podataka sadrži više od milijun visokokvalitetnih slika grafikona, zajedno s odgovarajućim kodom koji se koristi za generiranje svakog grafikona, tekstualnim opisom i tablicom koja sadrži njegove numeričke podatke. Osim toga, svaka podatkovna točka uključuje parove pitanja i odgovora kako bi se model naučio kako ispravno odgovoriti na pitanja o slici grafikona.

ChartNet također uključuje izbor podatkovnih točaka grafikona koje su komentirali ljudski stručnjaci. To omogućuje pristup dodatnim vrstama grafikona i pratećim podacima koji nose jamstva valjanosti.

Istraživači su testirali ChartNet trenirajući IBM-ovu seriju modela Granite Vision, kao i nekoliko drugih modela otvorenog koda različitih veličina, te ih procjenjujući na raznim zadacima interpretacije grafikona. Skup podataka poboljšao je točnost svih modela u rekonstrukciji grafikona, ekstrakciji podataka iz grafikona, sažimanju grafikona i odgovaranju na pitanja o grafikonima.

S ChartNetom, mali modeli otvorenog koda dosljedno su nadmašivali mnogo veće komercijalne modele, a u budućnosti istraživači planiraju nastaviti širiti ChartNet uključivanjem podataka s dodatnim razinama složenosti. Također žele iskoristiti povratne informacije istraživačke zajednice.

Znanstveni rad o ChartNetu možete pronaći na ovoj poveznici.

Podijeli