Googleov novi AI model nadmašuje liječnike
- Objavljeno u ZDRAVLJE
Google Research i njegov laboratorij za istraživanje umjetne inteligencije DeepMind, objavili su rad u kojem detaljno opisuju Med-Gemini, novi model umjetne inteligencije specijaliziran za medicinu koji pokazuje impresivne rezultate u dijagnostici bolesti i savjetima za liječenje na temelju tekstualnih i slikovnih unosa od strane korisnika.
To je veliki napredak u kliničkoj dijagnostici s golemim potencijalom u stvarnom svijetu, koji bi pacijentima mogao znatno ubrzati da čim prije dođu do stručne dijagnoze svojeg zdravstvenog stanja, što će im pomoći u bržem liječenju, a liječnicima olakšati preglede i postavljanje dijagnoze.
Kao i drugi Googleovi Gemini modeli, Med Gemini spada u novu generaciju multimodalnih AI modela, što znači da može obraditi informacije iz različitih modaliteta, uključujući tekst, slike, video i audio. Model je vješt u jeziku i razgovoru, razumijevanju različitih informacija na kojima se obučava i zaključivanju na temelju velikih količina podataka kao što su sati videa ili deseci sati audiozapisa.
Dolazak do dijagnoze i formuliranje plana liječenja zahtijeva od liječnika da kombiniraju vlastito medicinsko znanje s nizom drugih relevantnih informacija, simptomima pacijenta, medicinskom i kirurškom poviješću, laboratorijskim rezultatima i rezultatima drugih testova te pacijentovim odgovorom na prethodni tretman.
Google je stoga u Med-Gemini uključio pristup web-baziranom pretraživanju kako bi omogućio naprednije kliničko zaključivanje. Kao i mnogi veliki jezični modeli (LLM-ovi) usmjereni na medicinu, Med-Gemini je obučen za MedQA, pitanja s višestrukim izborom koja predstavljaju pitanja osmišljena za testiranje medicinskog znanja i razmišljanja u različitim scenarijima.
Pored toga, Google je razvio dva nova skupa podataka za svoj model. Prvi je MedQA-R (Reasoning), koji proširuje MedQA sintetički generiranim obrazloženjima koja se nazivaju 'Chain-of-Thoughts' (CoT).
Drugi, MedQA-RS (Reasoning and Search), daje modelu upute za korištenje rezultata web pretraživanja kao dodatnog konteksta za poboljšanje točnosti odgovora. Ako medicinsko pitanje dovede do nesigurnog odgovora, od modela se traži da pretraži web kako bi dobio dodatne informacije za rješavanje nesigurnosti.
Med-Gemini je testiran na 14 medicinskih mjerila i uspostavio je novu vrhunsku (SoTA) izvedbu na 10, nadmašujući obitelj GPT-4 modela na svakom mjerilu gdje se mogla napraviti usporedba. Na MedQA (USMLE) mjerilu, Med-Gemini je postigao 91,1% točnosti koristeći svoju strategiju pretraživanja vođenu nesigurnošću, nadmašivši prethodni Googleov medicinski LLM, Med-PaLM 2.
Na sedam multimodalnih mjerila, uključujući New England Journal of Medicine (NEJM) 'mage challenge' slike izazovnih kliničkih slučajeva iz kojih se postavlja dijagnoza s popisa od 10, Med-Gemini je imao bolje rezultate od GPT-4 s prosječnom relativnom marginom od 44,5 posto.
Iako su rezultati obećavajući, Google ističe da su potrebna značajna daljnja istraživanja, jer primjerice nisu razmatrali ograničavanje rezultata pretraživanja na vjerodostojnije medicinske izvore, koristeći multimodalno pretraživanje ili provedenu analizu točnosti i relevantnosti rezultata pretraživanja i kvalitete citata. Nadalje, ostaje za vidjeti mogu li se manji LLM-ovi također naučiti koristiti pretraživanjem weba pa ta istraživanja ostavljaju za budući rad.
Kako bi testirali sposobnost Med-Geminija da razumije i zaključi na temelju medicinskih informacija dugog konteksta, istraživači su pokrenuli takozvani 'zadatak igle u plastu sijena' koristeći veliku, javno dostupnu bazu podataka, Medical Information Mart for Intensive Care ili MIMIC-III, koja sadrži neidentificirane zdravstvene podatke pacijenata primljenih na intenzivnu njegu.
Cilj je bio da model dohvati relevantno spominjanje rijetkog i suptilnog medicinskog stanja, simptoma ili postupka preko velike zbirke kliničkih bilješki u EHR-u.
Odabrano je dvjesto primjera, a svaki se primjer sastojao od zbirke bilješki iz EHR-a 44 pacijenta na intenzivnoj njezi s dugom poviješću bolesti.
"Možda najznačajniji aspekt Med-Geminija su mogućnosti obrade dugog konteksta jer otvaraju nove granice performansi i nove, prethodno neizvodljive mogućnosti primjene za medicinske AI sustave", rekli su istraživači.
"Ovaj zadatak pronalaženja 'igle u plastu sijena' odražava izazov iz stvarnog svijeta s kojim se suočavaju kliničari, a izvedba Med-Gemini-M 1.5 pokazuje njegov potencijal da značajno smanji kognitivno opterećenje i poveća sposobnosti kliničara učinkovitim izdvajanjem i analiziranjem informacije iz golemih količina podataka o pacijentima. "
U testu korisnosti u stvarnom svijetu, pacijentica je postavila Med-Gemini pitanje o kvržici na koži koja svrbi. Nakon što je zatražio sliku, model je postavio odgovarajuća dodatna pitanja i ispravno dijagnosticirao rijetku leziju, preporučivši korisniku što bi sljedeće trebao učiniti.
Med-Gemini je također zamoljen da protumači rendgensku snimku prsnog koša za liječnika dok su čekali na službeno izvješće radiologa i formulira jednostavnu verziju izvješća koje bi se moglo dostaviti pacijentu.
Te zadaće je Med-Gemini savršeno odradio i donio točnu dijagnozu točnije i brže od liječnika koji su sudjelovali u ispitivanju.
Istraživači priznaju da ima još puno posla, ali početne mogućnosti modela svakako su obećavajuće. Ono što je važno, planiraju u model uključiti načela odgovorne umjetne inteligencije, uključujući poštovanje privatnosti, kroz cijeli proces razvoja modela.
Studiji se može pristupiti putem web stranice arXiv na ovoj poveznici.