Novi AI model uči skriveni jezik DNK
- Objavljeno u Znanost
DNK sadrži temeljne informacije potrebne za održavanje života. Razumijevanje načina na koji se te informacije pohranjuju i organiziraju bio je jedan od najvećih znanstvenih izazova prošlog stoljeća. Uz GROVER, novi veliki jezični model uvježban na ljudskoj DNK, istraživači sada mogu pokušati dekodirati složene informacije skrivene u našem genomu.
Razvijen u Biotehnološkom centru (BIOTEC) Tehnološkog sveučilišta u Dresdenu, GROVER tretira ljudsku DNK kao tekst, uči njegova pravila i kontekst kako bi izvukao funkcionalne informacije o sekvencama DNK. Ovaj novi alat, objavljen u časopisu Nature Machine Intelligence, ima potencijal transformirati genomiku i ubrzati personaliziranu medicinu.
Od otkrića dvostruke spirale, znanstvenici su nastojali razumjeti informacije kodirane u DNK. 70 godina kasnije jasno je da su informacije skrivene u DNK višeslojne. Samo 1-2 % genoma sastoji se od gena, sekvenci koje kodiraju proteine.
"DNK ima mnogo funkcija osim kodiranja proteina. Neke sekvence reguliraju gene, druge služe u strukturne svrhe, većina sekvenci služi više funkcija odjednom. Trenutno ne razumijemo značenje većine DNK. Kada je riječ o razumijevanju nekodirajućih regija DNK, čini se da smo tek počeli grebati po površini. Ovdje AI i veliki jezični modeli mogu pomoći," kaže dr. Anna Poetsch , voditeljica istraživačke grupe u BIOTEC-u.
Veliki jezični modeli, poput GPT-a, promijenili su naše razumijevanje jezika. Obučeni isključivo na tekstu, veliki jezični modeli razvili su sposobnost korištenja jezika u mnogim kontekstima.
"DNK je šifra života. Zašto ga ne tretirati kao jezik?" kaže dr. Poetsch. Tim je trenirao veliki jezični model na referentnom ljudskom genomu. Rezultirajući alat pod nazivom GROVER, ili Genome Rules Obtained via Extracted Representations, može se koristiti za izdvajanje biološkog značenja iz DNK.
"GROVER je naučio pravila DNK. Što se tiče jezika, govorimo o gramatici, sintaksi i semantici. Za DNK to znači naučiti pravila koja upravljaju sekvencama, redoslijed nukleotida i sekvenci i značenje sekvenci. Poput GPT modela koji uče ljudske jezike, GROVER je u osnovi naučio kako 'govoriti' DNK," objašnjava dr. Melissa Sanabria, istraživačica iza projekta.
Tim je pokazao da GROVER ne samo da može točno predvidjeti sljedeće sekvence DNK, već se također može koristiti za izdvajanje kontekstualnih informacija koje imaju biološko značenje, npr. identificirati promotore gena ili mjesta vezanja proteina na DNK. GROVER također uči procese koji se općenito smatraju "epigenetskim", tj. regulacijskim procesima koji se događaju na vrhu DNK, a ne kodirani.
Kako bi obučili GROVERA, tim je prvo morao izraditi DNK "rječnik". Koristili su trik iz algoritama kompresije. "Ovaj korak je ključan i izdvaja naš model jezika DNK od prethodnih pokušaja", kaže dr. Poetsch.
"Analizirali smo cijeli genom i tražili kombinacije slova koje se najčešće pojavljuju. Počeli smo s dva slova i prelazili na DNK, opet i opet, kako bismo ga izgradili do najčešćih kombinacija više slova. Na ovaj način, u otprilike 600 ciklusa, fragmentirali smo DNK u 'riječi' koje su omogućile GROVER-u da bude najbolji kada je u pitanju predviđanje sljedeće sekvence," objašnjava dr. Sanabria.
"Vjerujemo da će nam razumijevanje pravila DNK kroz jezični model pomoći da otkrijemo dubine biološkog značenja skrivenog u DNK, unapređujući genomiku i personaliziranu medicinu," kaže dr. Poetsch.