AI dijagnostika griješi kod žena i crnaca

image

Istraživači američkog tehnološkog instituta u Massachusettsu MIT, otkrili su da modeli umjetne inteligencije koji su najprecizniji u predviđanju rase i spola iz rendgenskih slika nemaju uvijek dobre rezultate u svim demografskim skupinama, pa obično lošije prolaze kod žena i obojenih ljudi.

Nalazi upućuju da ovi modeli možda koriste "demografske prečace" pri izradi svojih dijagnostičkih procjena, što dovodi do netočnih rezultata za žene, crnce i druge skupine, kažu istraživači.

Istraživači su također otkrili da bi mogli ponovno obučiti modele na način koji bi poboljšao njihovu pravednost. Međutim, njihov pristup "smanjenju predrasuda" najbolje je funkcionirao kada su modeli testirani na istim tipovima pacijenata na kojima su bili obučavani, kao što su pacijenti iz iste bolnice. Kada su ti modeli primijenjeni na pacijente iz različitih bolnica, ponovno su se pojavile praznine u pravednosti.

U ovoj su studiji istraživači krenuli istraživati ​​zašto ovi modeli ne funkcioniraju tako dobro za određene skupine. Konkretno, htjeli su vidjeti koriste li modeli demografske prečace za predviđanja koja su na kraju bila manje točna za neke skupine.

Koristeći javno dostupne skupove podataka rendgenskih snimaka prsnog koša iz Medicinskog centra Beth Israel Deaconess u Bostonu, istraživači su uvježbali modele da predvide imaju li pacijenti jedno od tri različita medicinska stanja: nakupljanje tekućine u plućima, kolaps pluća ili povećanje srca.

Općenito, modeli su bili dobri, ali većina ih je pokazala "praznine u pravednosti", to jest, razlike između stopa točnosti za muškarce i žene, te za bijele i crne pacijente.

Istraživači su potom pokušali smanjiti razlike u pravednosti koristeći dvije vrste strategija. Za jedan skup modela obučili su ih da optimiziraju "robusnost podgrupe", što znači da su modeli nagrađeni za bolju izvedbu u podskupini za koju imaju najlošiju izvedbu i kažnjeni ako je njihova stopa pogreške za jednu grupu viša od druge.

U drugom skupu modela, istraživači su ih prisilili da uklone sve demografske informacije sa slika, koristeći pristupe "grupne kontradiktornosti". Istraživači su otkrili da su obje strategije prilično dobro funkcionirale.

Međutim, ti su pristupi djelovali samo kada su modeli testirani na podacima od istih tipova pacijenata na kojima su bili obučeni.

Kada su istraživači testirali modele koji su bili "odbačeni" korištenjem podataka za analizu pacijenata iz pet drugih bolničkih skupova podataka, otkrili su da je ukupna točnost modela ostala visoka, ali neki od njih pokazuju velike nedostatke u pravednosti.

"Ako poništite model u jednoj skupini pacijenata, ta pravednost ne mora nužno vrijediti dok prelazite na novu skupinu pacijenata iz druge bolnice na drugoj lokaciji", kaže Haoran Zhang, diplomirani student MIT-a i jedan od vodećih autora novog rada.

To je zabrinjavajuće jer u mnogim slučajevima bolnice koriste modele koji su razvijeni na temelju podataka iz drugih bolnica, posebno u slučajevima kada se kupuje gotov model, kažu istraživači.

Nalazi upućuju na to da bi ih bolnice koje koriste ove vrste AI modela trebale procijeniti točnost na vlastitoj populaciji pacijenata prije nego što ih počnu koristiti, kako bi se uvjerile da ne daju netočne rezultate za određene skupine.

Istraživanje objavljeno u časopisu Nature Medicine možete pronaći na ovoj poveznici.

Podijeli