Srušili vlastiti rekord za treniranje AI modela

  • Objavljeno u Svijet
image

Ovisno o hardveru koji koristite, treniranje velikog jezičnog modela značajne veličine može potrajati tjednima, mjesecima, pa čak i godinama da se završi. To nije način poslovanja - nitko nema struje i vremena da čeka tako dugo. U srijedu je NVIDIA predstavila najnoviju verziju svog superkompjutora Eos, kojeg pokreće više od 10.000 H100 Tensor Core GPU-ova i sposoban je trenirati GPT-3 model s 175 milijardi parametara na 1 milijardu tokena za manje od četiri minute. To je tri puta brže od prethodnog rezultata na MLPerf standardu umjetne inteligencije, koji je NVIDIA postavila prije samo šest mjeseci.

Eos predstavlja ogromnu računalnu snagu. Koristi 10.752 GPU-a povezana putem NVIDIA-ine Infiniband mreže (prijenos petabajt podataka u sekundi) i 860 terabajta visokopojasne memorije (36PB/s ukupne propusnosti i 1.1PB/s međusobne povezanosti) kako bi pružila 40 exaflopsa računalne snage za obradu umjetne inteligencije. Cijela arhitektura oblaka sastoji se od 1344 čvora - pojedinačnih servera koje tvrtke mogu unajmiti za otprilike 37.000 dolara mjesečno kako bi proširile svoje mogućnosti umjetne inteligencije bez izgradnje vlastite infrastrukture.

Ukupno gledano, NVIDIA je postavila šest rekorda u devet testova: 3,9 minuta za GPT-3, 2,5 minute za treniranje modela Stable Diffusion pomoću 1.024 Hopper GPU-ova, čak jednu minutu za treniranje DLRM-a, 55,2 sekunde za RetinaNet, 46 sekundi za 3D U-Net, a model BERT-Large zahtijevao je samo 7,2 sekunde za treniranje.

NVIDIA je brzo napomenula da 175 milijardi parametarska verzija GPT-3 korištena u testiranju nije puna verzija modela (niti je to bio model Stable Diffusion). Veći GPT-3 ima oko 3,7 bilijuna parametara i jednostavno je prevelik i nepraktičan za upotrebu kao test za mjerenje performansi. Na primjer, trebalo bi 18 mjeseci da ga trenirate na starijem A100 sustavu sa 512 GPU-ova - no, Eosu treba samo osam dana.

Stoga su NVIDIA i MLCommons, koji upravlja standardom MLPerf, umjesto toga koristili kompaktniju verziju koja koristi jednu milijardu tokena (najmanju jedinicu podataka koju sustavi generativne umjetne inteligencije razumiju). Ovaj test koristi verziju GPT-3 s istim brojem potencijalnih prekidača (tih 175 milijardi parametara), samo s mnogo upravljivijim skupom podataka (milijardu tokena umjesto 3,7 bilijuna).

Impresivan napredak u performansama, naravno, proizlazi iz činjenice da je u ovom nedavnom krugu testova korišteno 10.752 H100 GPU-ova u usporedbi s 3.584 Hopper GPU-ova koje je tvrtka koristila u testiranjima u lipnju. Međutim, NVIDIA objašnjava da je unatoč trostrukom povećanju broja GPU-ova uspjela održati skaliranje performansi od 2,8 puta - stopu učinkovitosti od 93 posto - zahvaljujući obilnoj primjeni optimizacije softvera.

Podijeli