VIDEO: Novi AI za generiranje videa iz 2D fotografija

  • Objavljeno u Znanost
image

Znanstvenici Nvidije predstavili su novi AI za generiranje videa "govorećih glava" na video konferencijama iz samo jedne 2D fotografije govornika.

Zahvaljujući njihovom AI-u glavama se može manipulirati na razne načine, što uključuje pomicanje u stranu, rotaciju, podizanje pogleda, realistično otvaranje usta i druge elemente koji stvaraju vrlo uvjerljivi dojam da se radi o video snimci osobe koja govori a ne generiranoj animaciji koja je izrađena iz samo jedne fotografije, kao što možete vidjeti u ovom videu.

AI za generiranje koristi 2D fotografiju kao prvu sličicu (prvi frame) videa, a potom koristi sustav dubokog učenja za stvaranje ključnih 3D točaka u videu.

"Samo modificirajući transformaciju ključne točke, možemo generirati videozapise sa slobodnim prikazom. Prenošenjem transformacije ključne točke možemo postići puno bolje omjere kompresije od postojećih metoda",  navodi se u radu objavljenom u repozitoriju arXiv. "Vjerujemo da je ovo važan korak prema budućnosti video konferencija."

Nvidia se nalazi među nekoliko najpoznatijih tvrtki koje rade na GANs (generative adversarial) modelima poput StyleGana koji imaju mogućnost preoblikovanja stvarnosti i brisanja linija između stvarnosti i "lažnjaka". Takve aplikacije imaju potencijal na mnogim poljima poput gaminga, zabave, duhovitih memesa i video konferencija, no također se mogu koristiti i u "nečasne" svrhe, odnosno za izradu "deepfake" videa i lažnih računa, u što smo se mogli uvjeriti i tijekom predsjedničke kampanje u SAD-u, kada su se fake videi koristili za potrebe propagande.

Bez obzira na zabrinutost dijela javnosti u vezi deepfakeova, Nvidia i drugi istraživači stalno poboljšavaju AI modele, pa ćemo uskoro moći biti sigurni da nam se obraća stvarna osoba samo kada se s njom fizički susretnemo, a toga je u ovim danima sve manje.

Podijeli