10 puta manji troškovi AI-ja na NVIDIA Blackwellu

  • Objavljeno u Novosti
image

Prema tekstu koji je NVIDIA objavila na svojem blogu, skaliranje interakcija umjetne inteligencije zahtijeva od tvrtki da razmotre mogu li si priuštiti više tokena. Odgovor leži u boljoj "tokenomici", koja se u svojoj srži odnosi na smanjenje cijene svakog tokena. Ovaj silazni trend odvija se u svim industrijama.

Nedavno istraživanje MIT-a pokazalo je da učinkovitost infrastrukture i algoritama smanjuje troškove zaključivanja za performanse na graničnoj razini i do 10 puta godišnje. 

Kada proizvodnja tokena premaši troškove infrastrukture, cijena svakog tokena pada. Zato vodeći pružatelji usluga zaključivanja, uključujući Baseten, DeepInfra, Fireworks AI i Together AI, koriste platformu NVIDIA Blackwell, koja im pomaže smanjiti trošak po tokenu i do 10 puta u usporedbi s platformom NVIDIA Hopper.

Kombinirajući inteligenciju otvorenog koda na najvišoj razini, ekstremni hardversko-softverski kodni dizajn NVIDIA Blackwella i vlastite optimizirane inferencijske pakete, ovi pružatelji usluga omogućuju dramatično smanjenje troškova tokena za tvrtke u svakoj industriji.

Primjerice, troškovi zaključivanja tvrtke Sully.ai pali su za 90%, što predstavlja 10 puta manje u usporedbi s prethodnom implementacijom zatvorenog koda, dok su se vremena odziva poboljšala za 65% za kritične tijekove rada poput generiranja medicinskih bilješki. 

S duge strane Latitude gradi budućnost igara temeljenih na umjetnoj inteligenciji sa svojom avanturističkom igrom AI Dungeon i nadolazećom platformom za igranje uloga s umjetnom inteligencijom Voyage, gdje igrači mogu stvarati ili igrati svjetove sa slobodom odabira bilo koje akcije i stvaranja vlastite priče.

Latitude pokreće velike modele otvorenog koda na DeepInfrinoj platformi za zaključivanje, koju pokreću NVIDIA Blackwell GPU-ovi i TensorRT-LLM.

Za model MoE velikih razmjera, DeepInfra je smanjila trošak po milijun tokena s 20 centi na NVIDIA Hopper platformi na 10 centi na Blackwellu. Prelazak na Blackwellov izvorni format NVFP4 niske preciznosti dodatno je smanjio taj trošak na samo 5 centi, za ukupno 4x poboljšanje cijene po tokenu - uz održavanje točnosti koju kupci očekuju.

Pozivi korisničkoj službi s glasovnom umjetnom inteligencijom često završavaju frustracijom jer čak i malo kašnjenje može dovesti do toga da korisnici preglasaju agenta, prekinu vezu ili izgube povjerenje.

Decagon gradi AI agente za korisničku podršku u poduzećima, a glas pokretan umjetnom inteligencijom njegov je najzahtjevniji kanal. Decagonu je bila potrebna infrastruktura koja bi mogla isporučiti odgovore u manje od sekunde pod nepredvidivim prometnim opterećenjima s tokenomikom koja podržava implementaciju glasa 24/7.

Umjetna inteligencija pokreće produkcijsko zaključivanje za Decagonov višemodelni sustav na NVIDIA Blackwell GPU-ima. Tvrtke su surađivale na nekoliko ključnih optimizacija: spekulativnom dekodiranju koje obučava manje modele za generiranje bržih odgovora dok veći model provjerava točnost u pozadini, keširanju ponovljenih elemenata razgovora kako bi se ubrzali odgovori i izgradnji automatskog skaliranja koje obrađuje porast prometa bez smanjenja performansi.

Decagon je zabilježio vrijeme odziva ispod 400 milisekundi čak i pri obradi tisuća tokena po upitu. Trošak po upitu, što je ukupni trošak dovršetka jedne glasovne interakcije, pao je 6 puta u usporedbi s korištenjem vlasničkih modela zatvorenog koda. To je postignuto kombinacijom Decagonovog pristupa više modela (neki otvorenog koda, neki obučeni interno na NVIDIA GPU-ima) i ekstremnog kodnog dizajna NVIDIA Blackwella.

Dramatične uštede troškova u zdravstvu, igrama i korisničkoj službi potaknute su učinkovitošću NVIDIA Blackwella. NVIDIA GB200 NVL72 sustav dodatno skalira ovaj utjecaj pružajući revolucionarno 10x smanjenje cijene po tokenu za modele Reasoning MoE u usporedbi s NVIDIA Hopperom.

Podijeli