Alati za smanjenje potrošnje energije AI modela
- Objavljeno u Znanost
Ogromni, popularni AI modeli poput ChatGPT-a dovode do prognoza koje predviđaju da će podatkovni centri crpiti do 21 posto svjetske opskrbe električnom energijom do 2030. godine.
MIT Lincoln Laboratory Supercomputing Center (LLSC) razvija tehnike za pomoć podatkovnim centrima u smanjenju potrošnje energije. Njihove tehnike kreću se od jednostavnih, ali učinkovitih promjena, poput hardvera za ograničenje snage, do usvajanja novih alata koji mogu rano zaustaviti AI obuku. Najvažnije je da su otkrili da ove tehnike imaju minimalan utjecaj na performanse modela.
Poput mnogih podatkovnih centara, LLSC je doživio značajan porast u broju AI poslova koji se izvode na njegovom hardveru. Primijetivši povećanje potrošnje energije, informatičare na LLSC-u zanimali su načini za učinkovitije vođenje poslova. Zeleno računalstvo princip je centra koji se u potpunosti napaja energijom bez ugljika.
Uvježbavanje AI modela, proces kojim uči uzorke iz ogromnih skupova podataka, zahtijeva korištenje grafičkih procesorskih jedinica (GPU), koje su hardver gladan energije. Kao jedan primjer, procjenjuje se da su GPU-ovi koji su trenirali GPT-3 (prethodnik ChatGPT-a) potrošili 1300 megavat-sati električne energije, što je otprilike jednako onoj koju mjesečno troši 1450 prosječnih američkih kućanstava.
Dok većina ljudi traži GPU-ove zbog njihove računalne snage, proizvođači nude načine za ograničavanje količine energije koju GPU dopušta. "Proučavali smo učinke ograničenja snage i otkrili da možemo smanjiti potrošnju energije za oko 12 do 15 posto , ovisno o modelu", kaže Siddharth Samsi, istraživač LLSC-a.
Kompromis za ograničenje snage je povećanje vremena zadatka, pa će GPU-ovima trebati oko 3 posto više vremena da dovrše zadatak, što je prema znanstvenicima "jedva primjetno" s obzirom na to da se modeli često obučavaju danima ili čak mjesecima. U jednom od njihovih eksperimenata u kojima su uvježbavali popularni jezični model BERT, ograničavanjem snage GPU-a na 150 vata došlo je do dvosatnog povećanja vremena uvježbavanja (s 80 na 82 sata), ali je ušteđeno energije ekvivalenta tjednu energije američkog kućanstva.
Tim je zatim izradio softver koji uključuje ovu mogućnost ograničenja snage u široko korišten sustav Slurm. Softver omogućuje vlasnicima podatkovnih centara da postave ograničenja u cijelom svom sustavu ili za svaki pojedinačni posao.
Pojavile su se i sporedne koristi. Otkako su uvedena ograničenja napajanja, GPU-ovi na LLSC superračunalima rade na nižoj i konzistentnijoj temperaturi, smanjujući opterećenje na rashladni sustav. Pokretanje hardverskog hladnjaka potencijalno također može povećati pouzdanost i vijek trajanja.
Kako bi olakšao ovaj proces drugima, tim je u suradnji s profesorom Deveshom Tiwarijem i Baolinom Lijem sa Sveučilišta Northeastern, nedavno razvio i objavio sveobuhvatan okvir za analizu ugljičnog otiska računalnih sustava visokih performansi. Praktičari sustava mogu koristiti ovaj okvir analize kako bi bolje razumjeli koliko je njihov trenutni sustav održiv i razmotrili promjene za sustave sljedeće generacije.
Osim prilagodbi operacija podatkovnog centra, tim smišlja načine kako učiniti razvoj AI-modela učinkovitijim. Kada obučavaju modele, programeri umjetne inteligencije često se usredotočuju na poboljšanje točnosti i nadograđuju se na prethodne modele kao početnu točku. Kako bi postigli željeni rezultat, moraju shvatiti koje parametre koristiti, a to zahtijeva testiranje tisuća konfiguracija. Ovaj proces, nazvan optimizacija hiperparametara, jedno je područje za koje su istraživači LLSC-a otkrili da je zrelo za smanjenje rasipanja energije.
"Razvili smo model koji u osnovi gleda na brzinu kojom određena konfiguracija uči", kaže znanstvenik LLSC-a Vijay Gadepally. S obzirom na tu stopu, model predviđa vjerojatnu izvedbu. Modeli s lošijim rezultatima rano se zaustavljaju. "Možemo vam dati vrlo točnu procjenu na početku da će najbolji model biti u ovih 10 najboljih od 100 modela koji se prikazuju", kaže on.
U studijama je ovo rano zaustavljanje dovelo do dramatičnih ušteda, 80 posto smanjenja energije koja se koristi za obuku modela. Primijenili su ovu tehniku na modele razvijene za računalni vid, obradu prirodnog jezika i aplikacije za dizajn materijala.
Obuka je samo jedan dio emisija AI modela. Najveći doprinos emisijama tijekom vremena je zaključivanje modela ili proces pokretanja modela uživo, na primjer kada korisnik razgovara s ChatGPT-om. Kako bi brzo odgovorili, ovi modeli koriste redundantni hardver, koji radi cijelo vrijeme, čekajući da korisnik postavi pitanje.
Jedan od načina poboljšanja učinkovitosti zaključivanja je korištenje najprikladnijeg hardvera. Također sa Sveučilištem Northeastern, tim je stvorio optimizator koji odgovara modelu s najučinkovitijom kombinacijom hardvera po emisiji ugljika, kao što su grafički procesori velike snage za računalno intenzivne dijelove zaključivanja i središnje procesorske jedinice male snage (CPU) za manje zahtjevne aspekte. Ovaj je rad nedavno osvojio nagradu za najbolji rad na Međunarodnom ACM simpoziju o paralelnom i distribuiranom računalstvu visokih performansi.
Korištenje ovog alata za optimizaciju može smanjiti potrošnju energije za 10-20 posto dok se i dalje ispunjava isti "cilj kvalitete usluge" (koliko brzo model može odgovoriti).
Ovaj je alat posebno koristan za klijente u oblaku, koji iznajmljuju sustave iz podatkovnih centara i moraju odabrati hardver među tisućama opcija. "Većina kupaca precjenjuje ono što im je potrebno, odabiru hardver koji je previše sposoban samo zato što ne znaju ništa bolje", kaže Gadepally.
Dio ovog napora zahtijeva bližu suradnju s proizvođačima hardvera kako bi prijenos podataka s hardvera bio lakši i precizniji. Ako proizvođači mogu standardizirati način na koji se podaci očitavaju, tada se alati za uštedu energije i izvješćivanje mogu primijeniti na različitim hardverskim platformama. U tijeku je suradnja između istraživača LLSC-a i Intela na ovom problemu.