Istraživači predstavili generativni AI za podatkovne baze

  • Objavljeno u Znanost
image

GenSQL, generativni AI sustav za baze podataka razvijen od istraživača Tehnološkog instituta u Massachussetsu MIT-a, mogao bi pomoći korisnicima u predviđanjima, otkrivanju anomalija, pogađanju vrijednosti koje nedostaju, ispravljanju pogrešaka ili generiranju sintetičkih podataka sa samo nekoliko pritisaka na tipke.

Na primjer, ako bi se sustav koristio za analizu medicinskih podataka pacijenta koji je oduvijek imao visok krvni tlak, mogao bi uhvatiti očitanje krvnog tlaka koje je nisko za tog pacijenta, ali bi inače bilo u normalnom rasponu. 

GenSQL automatski integrira tablični skup podataka i generativni probabilistički AI model, koji može uzeti u obzir nesigurnost i prilagoditi donošenje odluka na temelju novih podataka. 

Štoviše, GenSQL se može koristiti za proizvodnju i analizu sintetičkih podataka koji oponašaju stvarne podatke u bazi podataka. To bi moglo biti posebno korisno u situacijama kada se osjetljivi podaci ne mogu dijeliti, kao što su zdravstveni kartoni pacijenata, ili kada su stvarni podaci rijetki. 

Ovaj novi alat izgrađen je na temelju SQL-a, programskog jezika za stvaranje i rukovanje bazom podataka koji je uveden kasnih 1970-ih i koriste ga milijuni programera širom svijeta. 

Kada su istraživači usporedili GenSQL s popularnim pristupima za analizu podataka koji se temelje na umjetnoj inteligenciji, otkrili su da nije samo brži nego i daje preciznije rezultate. Važno je da su probabilistički modeli koje koristi GenSQL objašnjivi, tako da ih korisnici mogu čitati i uređivati. 

SQL, što je skraćenica za strukturirani upitni jezik, programski je jezik za pohranjivanje i rukovanje informacijama u bazi podataka. U SQL-u ljudi mogu postavljati pitanja o podacima pomoću ključnih riječi, kao što je zbrajanje, filtriranje ili grupiranje zapisa baze podataka. 

Međutim, postavljanje upita modelu može pružiti dublje uvide, budući da modeli mogu uhvatiti što podaci znače za pojedinca. Na primjer, razvojnu programericu koja se pita je li premalo plaćena vjerojatno više zanima što podaci o plaćama znače za nju pojedinačno nego trendove iz zapisa baze podataka. 

Istraživači su primijetili da SQL nije pružio učinkovit način za uključivanje probabilističkih AI modela, ali u isto vrijeme, pristupi koji koriste probabilističke modele za donošenje zaključaka nisu podržavali složene upite baze podataka. 

Napravili su GenSQL kako bi popunili ovu prazninu, omogućujući nekome postavljanje upita i za skup podataka i za probabilistički model koristeći jednostavan, ali moćan formalni programski jezik. 

Korisnik GenSQL-a učitava svoje podatke u model vjerojatnosti koje sustav automatski integrira. Zatim može pokrenuti upite o podacima koji također dobivaju podatke iz modela vjerojatnosti koji se izvodi iza kulisa. Ovo ne samo da omogućuje složenije upite, već može dati i točnije odgovore. 

Na primjer, upit u GenSQL-u može biti nešto poput: "Kolika je vjerojatnost da programer iz Seattlea poznaje programski jezik Rust?" Samo gledanje korelacije između stupaca u bazi podataka moglo bi propustiti suptilne ovisnosti. Uključivanje probabilističkog modela može obuhvatiti složenije interakcije.   

Osim toga, probabilistički modeli koje GenSQL koristi mogu se revidirati, tako da ljudi mogu vidjeti koje podatke model koristi za donošenje odluka. Osim toga, ovi modeli daju mjere kalibrirane nesigurnosti uz svaki odgovor. 

Na primjer, s ovom kalibriranom nesigurnošću, ako se ispita model za predviđene ishode različitih tretmana raka za pacijenta iz manjinske skupine koja je podzastupljena u skupu podataka, GenSQL bi rekao korisniku da je neizvjestan, i koliko je neizvjestan, a ne pretjerano samouvjereno zagovaranje pogrešnog liječenja. 

Kako bi ocijenili GenSQL, istraživači su usporedili svoj sustav s popularnim osnovnim metodama koje koriste neuronske mreže. GenSQL je bio između 1,7 i 6,8 puta brži od ovih pristupa, izvršavajući većinu upita u nekoliko milisekundi, a dajući točnije rezultate. 

Također su primijenili GenSQL u dvije studije slučaja: jednoj u kojoj je sustav identificirao pogrešno označene podatke kliničkih ispitivanja i drugoj u kojoj je generirao točne sintetičke podatke koji su uhvatili složene odnose u genomici.

 Istraživači sada žele primijeniti GenSQL u širem smislu kako bi proveli široko modeliranje ljudskih populacija. S GenSQL-om mogu generirati sintetičke podatke kako bi izvukli zaključke o stvarima kao što su zdravlje i plaća, dok kontroliraju koje se informacije koriste u analizi. 

Također žele učiniti GenSQL lakšim za korištenje dodavanjem novih optimizacija i automatizacija u sustav. Dugoročno, istraživači žele omogućiti korisnicima da postavljaju upite na prirodnom jeziku u GenSQL-u. Njihov je cilj na kraju razviti stručnjaka za umjetnu inteligenciju nalik ChatGPT-u s kojim bi se moglo razgovarati o bilo kojoj bazi podataka, a koji svoje odgovore temelji pomoću GenSQL upita.   

Istraživanje objavljeno u časopisu ACM Journal možete pronaći na ovoj poveznici.

Podijeli