AI sagledava širu sliku stanične biologije

  • Objavljeno u Znanost
image

Proučavanje ekspresije gena u stanicama pacijenta oboljelog od raka može pomoći kliničkim biolozima da razumiju podrijetlo raka i predvide uspjeh različitih tretmana.

No stanice su složene i sadrže mnogo slojeva, pa način na koji biolog provodi mjerenja utječe na to koje podatke može dobiti. Na primjer, mjerenje proteina u stanici moglo bi dati drugačije informacije o učincima raka od mjerenja ekspresije gena ili morfologije stanice.

Važno je odakle u stanici dolaze informacije. No, kako bi prikupili potpune informacije o stanju stanice, znanstvenici često moraju provoditi mnoga mjerenja koristeći različite tehnike i analizirati ih jedno po jedno. Metode strojnog učenja mogu ubrzati proces, ali postojeće metode grupiraju sve informacije iz svake metode mjerenja, što otežava utvrđivanje koji podaci dolaze iz kojeg dijela stanice.

Kako bi prevladali ovaj problem, istraživači s Broad Instituta MIT-a i Harvarda te ETH Zurich/Paul Scherrer Instituta (PSI) razvili su okvir vođen umjetnom inteligencijom koji uči koje se informacije o stanju stanice dijele između različitih modaliteta mjerenja, a koje su informacije jedinstvene za određenu vrstu mjerenja.

Točnim određivanjem koje informacije dolaze iz kojih dijelova stanice, pristup pruža holističkiji pogled na stanje stanice, olakšavajući biologu da vidi cjelovitu sliku staničnih interakcija. To bi moglo pomoći znanstvenicima da razumiju mehanizme bolesti i prate napredovanje raka, neurodegenerativnih poremećaja poput Alzheimerove bolesti i metaboličkih bolesti poput dijabetesa.

U novom radu, istraživači su izgradili okvir strojnog učenja koji specifično razumije koje se informacije preklapaju između različitih modaliteta, a koje su informacije jedinstvene za određeni modalitet, ali ih drugi ne obuhvaćaju.

Kako bi izgradili ovaj okvir, istraživači su preispitali tipičan način na koji su modeli strojnog učenja dizajnirani za hvatanje i interpretiranje multimodalnih staničnih mjerenja.

Obično ove metode, poznate kao autoenkoderi, imaju jedan model za svaku modalitetu mjerenja, a svaki model kodira zasebnu reprezentaciju za podatke snimljene tom modalitetom. Reprezentacija je komprimirana verzija ulaznih podataka koja odbacuje sve nebitne detalje.

MIT metoda ima zajednički prostor reprezentacije gdje se kodiraju podaci koji se preklapaju između više modaliteta, kao i odvojene prostore gdje se kodiraju jedinstveni podaci iz svakog modaliteta.

Istraživači su također koristili poseban, dvostupanjski postupak treniranja koji pomaže njihovom modelu da se nosi sa složenošću uključenom u odlučivanje o tome koji se podaci dijele između više modaliteta podataka. Nakon treniranja, model može prepoznati koji se podaci dijele, a koji su jedinstveni kada mu se daju podaci o ćelijama koje nikada prije nije vidio.

U testovima na sintetičkim skupovima podataka, okvir je ispravno zabilježio poznate dijeljene i modalno specifične informacije.

Kada su primijenili svoju metodu na stvarne skupove podataka o pojedinačnim stanicama, sveobuhvatno i automatski je razlikovao gensku aktivnost zabilježenu zajednički s dva modaliteta mjerenja, poput transkriptomike i dostupnosti kromatina, a istovremeno je ispravno identificirao koje informacije dolaze samo iz jednog od tih modaliteta.

U budućnosti, istraživači žele omogućiti modelu da pruži bolje interpretirane informacije o stanju stanice. Također žele provesti dodatne eksperimente kako bi osigurali da ispravno razdvaja stanične informacije i primijeni model na širi raspon kliničkih pitanja.

Rad objavljen u časopisu Nature Computational Science možete pronaći na ovoj poveznici.

Podijeli