Google objavio kod za AI koji razumije jezik

  • Objavljeno u Znanost
image

Razumijevanje jezika je jedan od najvećih izazova koji se stavljaju pred umjetnu inteligenciju. Iste riječi mogu imati razna značenja u raznim kontekstima, fraze ne moraju imati nikakvu očitu logiku, te ih razumiju samo „specijalizirane“ skupine, a kada se u igri nađu dijalekti i šatra (sleng), velikih problema imaju i ljudi, a kamo li tek računala.

Mada se znamo nasmijati kada Google shvati pogrešno neki naš upit, ili ponudi rezultat koji nema veze ni sa čime, zapravo se trebamo čuditi kako smo uopće uspjeli napraviti računala koja nas mogu čak imalo razumjeti.      

Sustavi koji razumijevaju ljudski jezik doživjeli su velika unaprjeđenja u posljednjih nekoliko godina, a znanstvenici ih stalno poboljšavaju uvođenjem novih metoda poput "deep learninga", što algoritmima omogućuje samostalno učenje jezika i razumijevanje konteksta prema ogromnim količinama podataka, iz čega su u stanju stvarati poveznice između riječi i fraza. To se zove gramatičko raščlanjivanje (eng. parsing), ili prepoznavanje svake riječi i njezine uloge u rečenici.

Google je upravo odlučio objaviti kod za svoj jezični sustav pod nazivom SyntaxNet, kao i za već utrenirani program za engleski jezik pod nazivom Parsey McParseface.

Googleovi testovi su ukazali da je Parsey McParseface uspješan u razumijevanju riječi u više od 94 posto slučajeva, što je vrlo blisko ljudima kojima uspješnost razumijevanja u prosjeku iznosi 96 posto.

Pomoću SyntaxNeta, istraživači izvan Googlea će doći u mogućnost treniranja i implementiranja vlastitih sustava za razumijevanje jezika, što će omogućiti da razviju programe koji bolje razumiju "specijalizirane jezike" s raznih područja znanosti, tehnologije, industrije, kulture, ili lokalnih dijalekata i slengova poput bednjanskog.

Sustav funkcionira višestrukim prolascima kroz svaku rečenicu, stvarajući pretpostavke o svim potencijalnim poveznicama između riječi. Te se pretpostavke temelje na rečenicama i riječima  koje su algoritmu prikazivane u prošlosti pod nazivom "podaci za treniranje".

Sustav potom rangira pretpostavke prema varijacijama potencijalnog značenja svake pojedinačne riječi, te na kraju donosi zaključak temeljen na najvećoj vjerojatnosti za svaku riječ.

SyntaxNet je napravljen korištenjem TensorFlowa, Googleove open source platforme strojnog učenja.

Ukoliko želite i sami razvijati AI za razumijevanje ljudskog jezika, sve potrebne datoteke možete preuzeti na ovoj poveznici. 

Izvor: Google Research Blog

Podijeli