VIDEO: Nvidia Cosmos je najbolja AI tehnologija CES-a
- Objavljeno u Novosti
Među brojnim proizvodima i tehnologijama koje su oduševile na ovogodišnjem sajmu u Las Vegasu, CES je prepoznao Nvidijinu AI platformu Cosmos i dodijelio joj nagradu za najbolju tehnologiju umjetne inteligencije.
Platforma se sastoji od najsuvremenijih generativnih modela, naprednih tokenizatora i zaštitnih sustava za ubrzanu video obradu za unapređenje razvoja fizičkih AI sustava kao što su autonomna vozila i roboti .
Fizičke AI modele skupo je razvijati i zahtijevaju ogromne količine podataka iz stvarnog svijeta i testiranja. Modeli Cosmosa, ili WFM-ovi, programerima nude jednostavan način za generiranje ogromnih količina fotorealnih sintetičkih podataka temeljenih na fizici za obuku i procjenu njihovih postojećih modela. Programeri također mogu izraditi prilagođene modele finim podešavanjem Cosmos WFM-ova.
Cosmos modeli bit će dostupni pod licencom otvorenog modela kako bi se ubrzao rad robotike i AV zajednice. Programeri mogu pregledati prve modele u Nvidia API katalogu, preuzeti iz Nvidia NGC kataloga ili Hugging Facea.
Vodeće robotske i automobilske tvrtke, uključujući 1X, Agile Robots, Agility, Figure AI, Foretellix, Fourier, Galbot, Hillbot, IntBot, Neura Robotics, Skild AI, Virtual Incision, Waabi i XPENG, zajedno s Uberom, među prvima su usvojili Cosmos.
"Dolazi ChatGPT trenutak za robotiku. Poput velikih jezičnih modela, svjetski temeljni modeli temeljni su za napredak razvoja robota i AV-a, ali nemaju svi programeri stručnost i resurse za obuku vlastitih," rekao je Jensen Huang, osnivač i izvršni direktor tvrtke Nvidia. "Stvorili smo Cosmos kako bismo demokratizirali fizičku umjetnu inteligenciju i stavili opću robotiku u doseg svakog programera."
Cosmos paket otvorenih modela znači da programeri mogu prilagoditi WFM skupovima podataka, kao što su video snimke AV putovanja ili roboti koji navigiraju skladištem, u skladu s potrebama njihove ciljane aplikacije.
Cosmos WFM-ovi su namjenski izrađeni za istraživanje i razvoj fizičke umjetne inteligencije i mogu generirati videozapise temeljene na fizici iz kombinacije ulaza, poput teksta, slike i videa, kao i senzora robota ili podataka o kretanju. Modeli su izgrađeni za fizički utemeljene interakcije i visokokvalitetno generiranje simuliranih industrijskih okruženja poput skladišta ili tvornica te okruženja za vožnju, uključujući različite uvjete na cesti, kao što možete vidjeti u ovom videu.
AI programeri mogu koristiti modele Cosmosa za pretraživanje i razumijevanje videozapisa, generiranje fotorealnih sintetičkih podataka temeljenih na fizici iz kontroliranih 3D scenarija razvijenih u Nvidia Omniverse platformi, razvoj i procjenu modela fizičke umjetne inteligencije, bilo da se radi o izradi prilagođenog modela na temeljnim modelima, poboljšanju za potpomognuto učenje, testiranje izvedbe u određenom simuliranom scenariju.
Cosmos sadrži "cjevovod" za obradu podataka ubrzan Nvidia AI i CUDA sustavima, pokretan Nvidia NeMo Curatorom, koji razvojnim programerima omogućuje obradu, kuriranje i označavanje 20 milijuna sati videozapisa u 14 dana pomoću platforme Nvidia Blackwell, umjesto više od tri godine koristeći samo CPU.
Tu je i Cosmos Tokenizer, najsuvremeniji vizualni tokenizer za pretvaranje slika i videa u tokene. Omogućuje 8x veću ukupnu kompresiju i 12x bržu obradu od današnjih vodećih tokenizatora, dok Nvidia NeMo služi za visoko učinkovitu obuku modela, prilagodbu i optimizaciju.
Nvidia kaže da je 1X, tvrtka za umjetnu inteligenciju i humanoidne robote, već pokrenula skup podataka 1X World Model Challenge koristeći Cosmos Tokenizer, dok će XPENG koristiti Cosmos za ubrzanje razvoja svog humanoidnog robota, a Hillbot i Skild AI koriste Cosmos kako bi ubrzali razvoj svojih robota opće namjene.
Otvorena platforma Cosmos uključuje zaštitne ograde dizajnirane za ublažavanje štetnog teksta i slika te ima alat za poboljšanje točnosti tekstualnih upita. Video zapisi generirani s Cosmos autoregresijskim i difuzijskim modelima u Nvidia API katalogu uključuju nevidljive vodene žigove za prepoznavanje sadržaja generiranog umjetnom inteligencijom, čime se smanjuju šanse za dezinformacije i pogrešnu atribuciju.