Platforma za praćenje podataka o obuci umjetne inteligencije
- Objavljeno u Svijet
Istraživači iz više institucija koje uključuju Institut tehnologije iz Massachusettsa MIT, američki neprofitni istraživački laboratorij Cohere For AI, te 11 drugih organizacija među kojima su Harvard Law School, Carnegie Mellon University i Apple, predstavio je Data Provenance Explorer platformu koja omogućuje jednostavno praćenje i filtriranje više od 1800 popularnih AI skupova podataka na temelju kriterija kao što su licenciranje, atribucija, komercijalna i nekomercijalna primjena i druga etička razmatranja.
U posljednje vrijeme vlada velika zabrinutost oko podrijetla podataka koji se koriste za obuku AI sustava, posebno velikih jezičnih modela koji su pokazali impresivne mogućnosti, ali se istovremeno nerijetko nalaze na udaru tužbi kompanija i autora koji smatraju da im kradu podatke i potom ih interpretiraju kao svoje.
U nedavno objavljenom radu, grupa ističe kako je porasla utrka za treniranjem jezičnih modela na golemim, raznolikim i nedosljedno dokumentiranim skupovima podataka. Kako bi se ispravila ta praksa, prijeteći transparentnosti podataka, okupljen je multidisciplinarni tim koji se sastoji od pravnih stručnjaka i stručnjaka za strojno učenje koji su proveli sustavnu reviziju i praćenje gotovo 2000 skupova podataka.
Njihova analiza otkriva oštre podjele u sastavu i fokusu komercijalno otvorenih naspram zatvorenih skupova podataka, pri čemu mnogi zatvoreni skupovi podataka monopoliziraju važne kategorije: jezike s manjim resursima, kreativnije zadatke, raznolikost i sintetičnije podatke o treningu.
To ukazuje na sve dublji jaz u vrstama podataka koji su stavljeni na raspolaganje pod drugačijim licencnim uvjetima i pojačanim implikacijama za pravni sustav tumačenja autorskih prava i poštene upotrebe.
Tim je također uočio čestu pogrešnu kategorizaciju licenci kod 72 posto onih modela kojih su koristili web-mjesta za hosting skupova podataka izostavljanjem licenci i stopama pogreške od 50%.
Kao doprinos stalnim poboljšanjima u transparentnosti skupa podataka i odgovornom korištenju, istraživači objavlju čitavu svoju reviziju s interaktivnim korisničkim sučeljem, odnosno platformu Data Provenance Explorer, koja omogućuje praćenje i filtriranje porijekla podataka.
Iako Data Provenance Explorer promiče transparentnost oko postojećih skupova podataka, istraživači priznaju da ne može razriješiti temeljne pravne nejasnoće koje kompliciraju odgovornu upotrebu podataka. Primjenjivost licence u različitim jurisdikcijama, sukobi između licenci u skupovima podataka i uobičajena zlouporaba softverskih licenci za podatke ostaju otvoreni izazovi.
Unatoč tome, prikupljanjem i strukturiranjem informacija o tisućama skupova podataka, Explorer postavlja temelje za širu suradnju kako bi se poboljšala transparentnost i standardi porijekla u AI zajednici.