di: Alessandro Trizio
L’Intelligenza Artificiale esiste da molti decenni. Per moltissimi però sembra una novità assoluta. Questo è dovuto al lancio mediatico di Chat Gpt sviluppato da Open AI.
L’utilizzo in massa di LLM ovvero Large Language Model, in italiano: modello linguistico di grandi dimensioni, un tipo di intelligenza artificiale progettata per elaborare e generare testo umano in modo naturale, basandosi su reti neurali di grandi dimensioni e addestrata su quantità enormi di dati testuali, ha portato alla luce un elemento di cui prima non si teneva molto conto, dato che l’utilizzo era limitato alle grandi Università di Ricerca e sistemi militari, ovvero il costo energetico dell’utilizzo di massa dell’Intelligenza Artificiale.
Analizziamo la situazione energetica e tecnica attuale e come potrebbe svilupparsi in futuro un mondo dove l’Intelligenza Artificiale sarà presente in ogni ambito della vita di tutti noi.
Le aziende informatiche di tutto il mondo stanno spendendo decine di miliardi di dollari ogni trimestre in acceleratori AI, il che ha portato a un aumento esponenziale del consumo di energia. Negli ultimi mesi, molteplici previsioni e diverse analisi dati attestano una domanda di elettricità in forte crescita nei data center.
L’ascesa dell’AI generativa e le crescenti vendite di GPU stanno portando un aumento nei data center da decine di migliaia a oltre 100.000 acceleratori, aprendo un fronte problematico sull’energia da risolvere.
Un acceleratore di intelligenza artificiale (AI) è un componente hardware specializzato progettato per migliorare l’efficienza e la velocità nell’esecuzione di algoritmi di AI, in particolare quelli legati al deep learning e al machine learning. Questi acceleratori sono ottimizzati per gestire operazioni matematiche complesse e parallelizzate, tipiche delle reti neurali artificiali, offrendo prestazioni superiori rispetto ai processori tradizionali.
Ogni nuova generazione di hardware aumenta le prestazioni di elaborazione, ma altrettanto consuma anche più energia rispetto alla precedente, il che significa che con la crescita dei volumi di utilizzo aumenta anche la domanda di energia totale.
L’espansione del 75% nel consumo energetico delle GPU è avvenuto rapidamente, nel giro di due soli anni, in una generazione di sviluppo di nuovi modelli GPU.
Una GPU (Graphics Processing Unit) per l’intelligenza artificiale è un processore specializzato che accelera i calcoli necessari per addestrare e utilizzare modelli di machine learning e deep learning. Grazie alla sua capacità di elaborare migliaia di operazioni in parallelo, la GPU è ideale per gestire:
- Moltiplicazioni di matrici, fondamentali per le reti neurali.
- Elaborazione di grandi quantità di dati in tempi ridotti.
- Ottimizzazione del training di modelli complessi, come quelli usati nell’intelligenza artificiale.
Rispetto alle CPU, le GPU offrono maggiore velocità ed efficienza per compiti altamente paralleli, rendendole essenziali per il progresso dell’intelligenza artificiale moderna.
Ad esempio, l’acceleratore Gaudi 2 di Intel consuma 600 W e il suo successore, il Gaudi 3, consuma 900 W, ancora un altro aumento del 50% rispetto alla generazione precedente. Il prossimo processore AI ibrido di Intel, Falcon Shores, dovrebbe consumare ben 1.500 W di potenza per chip, il più alto sul mercato.
La prossima generazione Blackwell di Nvidia aumenterà ulteriormente il consumo energetico, con il B200 che consuma fino a 1.200 W e il GB200 (che combina due GPU B200 e una CPU Grace) che dovrebbe consumare 2.700 W.
Ciò rappresenta un aumento fino al 300% del consumo energetico in una generazione di GPU con sistemi AI che incrementano il consumo energetico a una velocità esponenziale. Le GPU stanno diventando più potenti per supportare modelli linguistici di grandi dimensioni. Il risultato è che l’IA richiede un maggiore consumo energetico con ogni futura generazione di accelerazione.
Gli esperti hanno elaborato alcune stime sul consumo energetico dell’intelligenza artificiale, ma queste cifre sono solo una parte del quadro e offrono una visione parziale.
Questo accade perché i modelli di apprendimento automatico (machine learning) sono estremamente variabili: possono essere configurati in modi diversi, cosa che influenza notevolmente il loro consumo di energia. Inoltre, le aziende che potrebbero fornire dati precisi, come Meta, Microsoft e OpenAI, non rendono pubbliche queste informazioni.
Per esempio, la Microsoft ha dichiarato che l’azienda sta “investendo nello sviluppo di metodi per misurare il consumo energetico e l’impatto ambientale dell’IA, cercando al contempo di rendere i sistemi più efficienti, sia nella fase di addestramento che in quella di utilizzo“. Tuttavia, né OpenAI né Meta hanno pubblicato documenti sull’argomento.
Cos’è l’addestramento di un modello e perché è così energivoro?
Un punto cruciale da comprendere è la differenza tra l’addestramento di un modello e la sua distribuzione d’uso agli utenti. L’addestramento è la fase in cui un modello di IA “impara” dai dati, ed è un processo che richiede una quantità enorme di calcoli complessi. Di conseguenza, consuma molta più energia rispetto alle attività quotidiane di un data center, come conservare file o gestire e-mail. Almeno in teoria, vedremo poi come non sempre sia così.
Ad esempio, addestrare un modello linguistico avanzato come GPT-4 consuma circa 1.300 megawattora (MWh) di elettricità. Per dare un’idea, questa quantità equivale al consumo annuale di energia di circa 130 famiglie in Europa o Stati Uniti.
Per mettere questo dato in prospettiva, pensiamo allo streaming di un’ora di Netflix, che richiede circa 0,8 kilowattora (kWh) di energia. Per eguagliare l’energia consumata nell’addestramento di GPT-4, una persona dovrebbe guardare Netflix ininterrottamente per quasi 2.000.000 di ore!
La difficoltà di ottenere stime aggiornate sul consumo energetico dell’intelligenza artificiale è legata al fatto che le aziende sono diventate sempre più riservate man mano che questa tecnologia è diventata una fonte di guadagno.
Qualche anno fa, alcune società pubblicavano dettagli sui processi di addestramento dei loro modelli, come il tipo di hardware utilizzato e la durata dell’addestramento. Ora però, queste informazioni non sono più disponibili per i modelli più recenti, come GPT-4.
Nel caso di ChatGPT, ad esempio, non sono note informazioni cruciali come la dimensione del modello, il numero di parametri utilizzati o l’infrastruttura su cui è ospitato. In pratica, ciò che avviene “dentro i server” di queste tecnologie rimane ampiamente sconosciuto.
Un recente rapporto dell’Agenzia Internazionale per l’Energia ha evidenziato come il consumo di elettricità dei data center sia ovviamente destinato a crescere significativamente nei prossimi anni, principalmente a causa dell’aumento della domanda legata all’intelligenza artificiale e alle criptovalute. Nel 2022, il consumo di energia dei data center è stato stimato intorno ai 460 terawattora (TWh).
L’agenzia prevede che, entro il 2026, questa cifra potrebbe salire tra 620 e 1.050 TWh. Per comprendere l’entità di questo aumento, basti pensare che il consumo energetico previsto sarà paragonabile a quello attuale di interi Paesi come la Svezia o la Germania o un quarto degli Stati Uniti. Questa tendenza mette in evidenza l’importanza di affrontare l’efficienza energetica nei data center, considerando l’impatto che potrebbero avere sull’approvvigionamento e sull’ambiente.
Negli ultimi mesi, diversi ricercatori hanno evidenziato con preoccupazione l’enorme quantità di energia richiesta dall’intelligenza artificiale. Un’analisi pubblicata rappresenta uno dei primi tentativi di quantificare questa crescente domanda energetica.
Secondo lo studio guidato da Alex de Vries della Amsterdam School of Business and Economics, se le attuali tendenze nella capacità computazionale e nell’adozione dell’IA continueranno, si prevede che entro il 2027 solo NVIDIA distribuirà circa 1,5 milioni di unità server AI all’anno.
Questi server, operando a pieno regime, consumerebbero almeno 85,4 terawattora (TWh) di elettricità all’anno.
Questo consumo supera quello annuale di molti Paesi di piccole dimensioni, come tutto il Portogallo o la Grecia, dimostrando il potenziale impatto energetico dell’espansione dell’IA su scala globale.
L’analisi è stata condotta da ricercatori che studiano i costi energetici delle tecnologie emergenti, con particolare attenzione alle implicazioni ambientali. Lo studio sottolinea come l’IA, in quanto tecnologia emergente, stia rapidamente diventando una delle principali fonti di consumo energetico, sollevando interrogativi sulla sua sostenibilità a lungo termine.
La fase di formazione dei modelli di AI, spesso considerata la più dispendiosa in termini di energia, è stata al centro della ricerca sulla sostenibilità.
Un modello di AI, come quello di ChatGPT, viene alimentato da grandi set di dati. Per i modelli linguistici di grandi dimensioni (LLM) come GPT-4, il processo si traduce nell’apprendimento della previsione di parole o frasi specifiche in base al contesto dato. Una volta distribuiti, questi parametri guidano il comportamento del modello.
Hugging Face, una comunità di sviluppatori dell’intelligenza artificiale, ha segnalato che il suo modello BLOOM ha consumato 433 MWh di elettricità durante l’addestramento. Altri LLM, tra cui GPT-4, si stima abbiano utilizzato rispettivamente 1.287 MWh e 1.066 MWh.
Rispondere alle domande. Un altro consumo dell’AI
Ognuno di questi LLM è stato addestrato su terabyte di dati e ha 175 miliardi o più parametri. Dopo l’addestramento, i modelli vengono distribuiti in un ambiente di produzione e iniziano la fase di inferenza, in cui generano output basati su nuovi dati.
L’inferenza nell’intelligenza artificiale è il processo mediante il quale un modello AI utilizza i dati e le conoscenze apprese durante la fase di addestramento per fare previsioni, prendere decisioni o risolvere problemi.
Ad esempio, un modello di machine learning, una volta addestrato su un set di dati, esegue l’inferenza per classificare nuove immagini, tradurre un testo o prevedere il valore futuro di un parametro. In sintesi, l’inferenza è l’applicazione pratica delle capacità del modello per elaborare informazioni nuove e produrre risultati utili.
Per strumenti come ChatGPT, la fase di inferenza è il momento in cui il modello genera risposte in tempo reale alle domande degli utenti. Sebbene la sostenibilità ambientale dell’intelligenza artificiale sia un tema molto discusso, la fase di inferenza ha ricevuto meno attenzione rispetto all’addestramento.
Tuttavia, ci sono segnali che questa fase possa rappresentare una parte significativa dei costi complessivi di un modello di IA. In altre parole, l’inferenza è il processo con cui un modello applica le conoscenze acquisite per affrontare compiti reali, ed è anche quello che alla fine richiede più energia.
SemiAnalysis, società di ricerca e analisi indipendente, ha indicato che OpenAI richiedeva 3.617 server HGX A100 di NVIDIA, con un totale di 28.936 GPU, per supportare ChatGPT, implicando una richiesta di energia di 564 MWh al giorno.
Rispetto ai 1.287 MWh stimati utilizzati nella fase di formazione di GPT-4, la domanda energetica dell’inferenza sembra notevolmente più alta. Inoltre, Google ha segnalato che il 60% del consumo energetico correlato all’IA dal 2019 al 2021 derivava dall’inferenza.
Anche Alphabet, la società madre di Google, si è detta preoccupata per i costi legati all’inferenza rispetto a quelli dell’addestramento. Tuttavia, dati di Hugging Face mostrano che il modello BLOOM ha consumato molta meno energia durante l’inferenza rispetto alla fase di formazione.
Questi rapporti contrastanti dipendono da fattori come la frequenza con cui i modelli di IA vengono aggiornati e il bilanciamento tra le loro prestazioni e il consumo energetico.
Studi futuri dovrebbero esaminare attentamente tutte le fasi del ciclo di vita di un modello di IA.
New Street Research, società indipendente, ha indicato che Google avrebbe bisogno di circa 400.000 server, con un consumo giornaliero di 62,4 GWh e un consumo annuale di 22,8 TWh. Con Google che attualmente elabora fino a 9 miliardi di ricerche al giorno, queste stime portano a un consumo medio di 6,9-8,9 Wh per richiesta.
Questa stima è in linea con il modello BLOOM di Hugging Face, che ha consumato 914 kWh per 230.768 richieste, con una media di 3,96 Wh per richiesta. Il presidente di Alphabet ha indicato a febbraio 2023 che interagire con un LLM potrebbe “probabilmente costare 10 volte di più di una ricerca per parole chiave standard”.
Poiché una ricerca Google standard utilizza presumibilmente 0,3 W di elettricità, ciò suggerisce un consumo di circa 3 Wh per interazione LLM. Questa cifra è in linea con la valutazione di SemiAnalysis dei costi operativi di ChatGPT all’inizio del 2023, che stimava un consumo medio di 564 MWh al giorno, pari a circa 2,9 Wh per richiesta.
Questi scenari evidenziano il potenziale impatto sul consumo totale di elettricità di Google se ogni ricerca diventasse un’interazione LLM. Nel 2021, il consumo totale di elettricità di Google era di 18,3 TWh, con l’IA che rappresentava il 10%-15% di questo totale.
Lo scenario più impegnativo suggerisce che la sola IA di Google potrebbe consumare tanta elettricità quanto un paese come l’Irlanda (29,3 TWh all’anno). Tuttavia, l’adozione completa dell’IA con l’hardware attuale è poco realistica, sia per i costi sia per i limiti di produzione.
In 3 anni, i costi di ammortamento annuali per un investimento di 100 miliardi di dollari in server AI ammonterebbero a 33,33 miliardi di dollari, un impatto significativo sul margine operativo di Google. Nel 2022, Google Search ha generato ricavi per 162,5 miliardi di dollari, con un margine operativo di 26% (circa 42,25 miliardi). I costi aggiuntivi legati all’IA potrebbero azzerare questo margine.
Una stima più pragmatica deriva dalle vendite di NVIDIA, leader con una quota di mercato del 95% nel 2023. La società prevede di consegnare 100.000 server AI nel 2024, con una domanda energetica combinata di 650-1.020 MW e un consumo annuo stimato di 5,7-8,9 TWh.
Rispetto ai 205 TWh consumati storicamente dai data center, questa cifra è relativamente bassa. Tuttavia, la catena di fornitura rimane un collo di bottiglia. TSMC, fornitore di chip di NVIDIA, sta investendo in un nuovo stabilimento per la tecnologia CoWoS, essenziale per i chip AI, ma la produzione non inizierà prima del 2027.
Entro il 2025, NVIDIA potrebbe fornire 1,5 milioni di server AI, con una domanda energetica combinata di 9,75-15,3 GW e un consumo annuo di 85,4-134,0 TWh. Ciò rappresenterebbe una quota significativa del consumo globale di elettricità dei data center.
Il modello GLaM di Google, addestrato con 7 volte i parametri di GPT-4, ha richiesto 2,8 volte meno energia rispetto a GPT-4, dimostrando miglioramenti nell’efficienza. Tuttavia, il paradosso di Jevons suggerisce che una maggiore efficienza potrebbe aumentare la domanda complessiva, con un impatto netto sull’uso delle risorse.
Questo effetto è stato a lungo osservato nella storia del cambiamento tecnologico e dell’automazione, con esempi recenti nelle applicazioni di AI. L’improvviso aumento di interesse per l’AI generativa nel 2022 e 2023, durante il quale la domanda ha superato l’offerta, potrebbe essere parte di questo effetto di rimbalzo.
I miglioramenti nell’efficienza del modello ora consentono a GPU di livello consumer di addestrare modelli AI. Ciò implica che la crescita del consumo energetico correlato all’AI avrà origine non solo da nuove GPU ad alte prestazioni, come le A100 e H100 di NVIDIA, ma anche da GPU più generiche.
Un esempio è rappresentato dagli ex minatori di criptovalute, che utilizzavano tali GPU. Dopo il cambiamento dell’algoritmo di Ethereum nel settembre 2022, che ha ridotto la domanda energetica del 9,21 GW (pari a 80,7 TWh annui), il 20% di queste GPU è stato riutilizzato per l’AI, in una tendenza definita “mining 2.0“. Ciò potrebbe aggiungere fino a 16,1 TWh al consumo annuo di elettricità dell’intelligenza artificiale.
Le prestazioni dei modelli AI tendono a raggiungere un punto di svolta, in cui miglioramenti apparentemente piccoli richiedono un enorme dispendio di energia e risorse computazionali. Superata una certa soglia, ogni progresso diventa sempre più costoso, sia economicamente che in termini di impatto sull’ambiente.
Tuttavia, è possibile migliorare l’efficienza dei modelli ottimizzando il loro funzionamento o migliorando l’hardware. Ciò potrebbe ridurre i costi per perfezionare ulteriormente i modelli, rendendo questi miglioramenti più sostenibili.
C’è però un effetto collaterale da considerare: migliorare l’efficienza potrebbe incentivare ulteriori sforzi per aumentare la precisione, annullando parte dei vantaggi ottenuti in termini di risparmio energetico. Questo fenomeno, noto come “paradosso di Jevons“, suggerisce che l’efficienza di una risorsa può portare a un aumento complessivo del suo utilizzo.
L’impegno per raffreddare i data center
Il raffreddamento efficiente dei server è cruciale per garantire prestazioni ottimali e prolungare la vita utile dell’hardware nei data center, non ultimo ovviamente limitare il carico di consumo energetico per il raffreddamento. Negli ultimi anni, sono emerse diverse tecnologie innovative per migliorare l’efficienza del raffreddamento.
Raffreddamento a liquido
Il raffreddamento a liquido è una soluzione avanzata che utilizza fluidi per dissipare il calore generato dai componenti elettronici. Questo metodo è particolarmente efficace per gestire le crescenti densità di potenza nei data center. Esistono due principali categorie di raffreddamento a liquido per i server:
– Raffreddamento diretto su chip (Direct-to-Chip Cooling): Questo approccio prevede l’uso di piastre fredde che assorbono il calore direttamente dai componenti più caldi, come CPU e GPU, attraverso un liquido refrigerante. Sebbene la maggior parte del calore venga rimossa in questo modo, è spesso necessario un raffreddamento ad aria supplementare per altri componenti.
– Raffreddamento a immersione (Immersion Cooling): In questo metodo, l’hardware IT viene immerso completamente in un fluido dielettrico, come olio minerale o refrigerante sintetico, all’interno di un serbatoio sigillato. Il liquido assorbe il calore generato dai componenti, migliorando l’efficienza del raffreddamento e riducendo la necessità di sistemi di raffreddamento ad aria.
Raffreddamento a immersione in due fasi
Questo metodo utilizza fluidi dielettrici che bollono a basse temperature. Il calore generato dai componenti provoca l’ebollizione del liquido, e il vapore risultante viene condensato e riportato nel serbatoio. Questo ciclo consente un’efficiente rimozione del calore senza la necessità di pompe meccaniche. Questo metodo riduce quantitativamente il costo energetico.
Sensori e controllo intelligente
L’integrazione di sensori avanzati consente il monitoraggio in tempo reale delle temperature all’interno dei server. Questi dati possono essere utilizzati da sistemi di controllo intelligente per regolare dinamicamente le velocità delle ventole e i flussi di refrigerante, ottimizzando l’efficienza energetica e prevenendo surriscaldamenti.
Raffreddamento degli armadi server
L’implementazione di sistemi di raffreddamento specifici per gli armadi server, come scambiatori di calore posteriori o unità di raffreddamento integrate, consente una gestione termica più efficiente a livello di rack, riducendo la dipendenza dai sistemi di raffreddamento dell’intera sala.
L’adozione di queste tecnologie innovative può migliorare significativamente l’efficienza energetica e le prestazioni dei data center, rispondendo alle crescenti esigenze di potenza di calcolo e sostenibilità ambientale.
Come si può rendere più “verde” l’Intelligenza Artificiale
Il settore dei data center è responsabile del 2-3% delle emissioni globali di gas serra. Il volume di dati in tutto il mondo raddoppia ogni due anni. I server dei data center che archiviano questo mare di informazioni in continua espansione richiedono enormi quantità di energia e acqua, direttamente per il raffreddamento e indirettamente per la generazione di elettricità non rinnovabile, per far funzionare server, apparecchiature e sistemi di raffreddamento. Questi sistemi rappresentano circa il 7% dell’uso di elettricità della Danimarca e il 2,8% di quello degli Stati Uniti.
Quasi tutti i modelli di IA generativa più noti sono generati da provider cloud “hyperscale” un’architettura informatica capace di scalare in modo efficiente e rapido per gestire carichi di lavoro e volumi di dati in costante crescita.
Migliaia di server producono importanti emissioni di carbonio, in particolare, questi modelli vengono eseguiti su chip di unità di elaborazione grafica (GPU). Questi richiedono 10-15 volte l’energia di cui ha bisogno una CPU tradizionale perché una GPU utilizza più transistor nelle unità logiche aritmetiche. Attualmente, i tre principali provider cloud hyperscale sono Amazon AWS, Google Cloud e Microsoft Azure.
Se cerchiamo di comprendere l’impatto ambientale di ChatGPT (ma vale anche per altre AI) attraverso la lente dell’impronta di carbonio, dovremmo prima comprendere il ciclo di vita dell’impronta di carbonio dei modelli di apprendimento automatico (ML). Questa è la chiave per iniziare a rendere l’IA generativa più ecologica attraverso un consumo energetico inferiore.
Cosa determina l’impronta di carbonio dei modelli di intelligenza artificiale generativa?
Non tutti i grandi modelli generativi sono uguali in termini di consumo energetico ed emissioni di carbonio. Quando si determina l’impronta di carbonio di un modello ML, ci sono tre valori distinti da considerare:
- l’impronta di carbonio derivante dall’addestramento del modello
- l’impronta di carbonio derivante dall’esecuzione dell’inferenza, ovvero deduzione o previsione dei risultati utilizzando nuovi dati di input, come una richiesta o istruzione data dall’utente al modello ML una volta che è stato distribuito
- l’impronta di carbonio necessaria per produrre tutto l’hardware informatico necessario e le funzionalità del data center cloud.
I modelli con più parametri (sono valori numerici interni ai modelli che vengono appresi durante la fase di addestramento. Questi valori determinano come il modello elabora gli input per generare gli output desiderati) e dati di training generalmente consumano più energia e generano più carbonio. GPT-4, il modello “genitore” di ChatGPT, è al vertice o quasi dei modelli generativi in termini di dimensioni.
Ha 175 miliardi di parametri del modello ed è stato addestrato su oltre 500 miliardi di parole di testo. Secondo un articolo di ricerca, la recente classe di modelli di intelligenza artificiale generativa richiede un aumento da dieci a cento volte della potenza di calcolo per addestrare i modelli rispetto alla generazione precedente, a seconda del modello coinvolto. Pertanto, la domanda complessiva raddoppia circa ogni sei mesi.
I modelli di addestramento sono i componenti più energivori dell’IA generativa. I ricercatori hanno analizzato che addestrare un “singolo grande modello di apprendimento profondo del linguaggio” come GPT-4 di OpenAI o PaLM di Google si stima utilizzi circa 300 tonnellate di CO2. Per fare un confronto, una persona media è responsabile della creazione di circa 5 tonnellate di CO2 all’anno, sebbene il cittadino medio ne generi, a volte, molto di più.
Altri ricercatori hanno calcolato che addestrare un modello di IA generativa di medie dimensioni utilizzando una tecnica chiamata “ricerca di architettura neurale” ha utilizzato elettricità e consumi energetici equivalenti a 626.000 tonnellate di emissioni di CO2, ovvero le stesse emissioni di CO2 prodotte dalla guida di cinque auto medie nel corso della loro vita. Addestrare un singolo modello BERT (un grande modello linguistico sviluppato da Google) da zero richiederebbe la stessa energia e impronta di carbonio di un volo commerciale transatlantico.
L’inferenza, o l’utilizzo dei modelli per ottenere risposte alle richieste degli utenti, consuma meno energia ogni sessione, ma alla fine comporta molte più sessioni. A volte questi modelli vengono addestrati solo una volta, quindi distribuiti sul cloud e utilizzati da milioni di utenti per l’inferenza.
In tal caso, anche l’implementazione di grandi modelli di deep learning sul cloud per scopi di inferenza consuma molta energia. Gli analisti segnalano che NVIDIA stima che l’80-90% del costo energetico delle reti neurali risieda nell’elaborazione in corso dell’inferenza dopo che un modello è stato addestrato.
Oltre alla formazione iniziale e all’utilizzo inferenziale dell’energia da parte di grandi modelli generativi, gli utenti e i rivenditori di questi modelli stanno sempre più impiegando la messa a punto fine o la formazione basata su prompt. Quando combinata con il modello generativo originale addestrato su grandi volumi di dati, la messa a punto fine consente prompt e risposte che sono adattati al contenuto specifico di un’organizzazione.
Alcune ricerche suggeriscono che la formazione di messa a punto consuma notevolmente meno energia e potenza di calcolo rispetto alla formazione iniziale. Tuttavia, se molte organizzazioni adottano approcci di messa a punto e lo fanno spesso, il consumo energetico complessivo potrebbe essere piuttosto elevato.
Sebbene sia difficile calcolare il costo di produzione dei computer necessari per eseguire tutto questo software di intelligenza artificiale, è palese che sia molto alto e in continua crescita. Il consumo dei chip GPU e i server complessi e potenti utilizzati per eseguire i modelli di intelligenza artificiale hanno consumi molto più elevati di quelli finora utilizzati.
Il futuro sostenibile dell’AI
Considerato tutto ciò, c’è una strategia per rendere la modellazione, l’implementazione e l’utilizzo dell’IA più sostenibili dal punto di vista ambientale. Il suo obiettivo è sostituire gli approcci che consumano molta energia con sostituti più adatti e rispettosi dell’ambiente.
È necessario un cambiamento sia da parte dei fornitori che degli utenti per rendere gli algoritmi di IA ecologici in modo che la loro utilità possa essere ampiamente implementata senza danneggiare il nostro ambiente. I modelli generativi in particolare, dato il loro elevato consumo di energia, devono diventare più ecologici prima di diventare presenti in ogni applicazione od oggetto che usiamo. Esistono diversi modi in cui l’IA e l’IA generativa possono muoversi in questa direzione, li descriviamo di seguito.
Utilizzare modelli generativi di grandi dimensioni esistenti. Esistono già molti fornitori di modelli di linguaggio e immagini di grandi dimensioni e ce ne saranno altri. Crearli e addestrarli richiede enormi quantità di energia.
Non c’è bisogno che aziende diverse dai grandi fornitori o provider cloud generino i propri modelli di grandi dimensioni da zero. Hanno già accesso ai dati di addestramento necessari e a enormi volumi di capacità di elaborazione nel cloud, quindi non hanno bisogno di acquisirli.
Ottimizzare i modelli di formazione esistenti. Se un’azienda desidera un modello generativo addestrato sui propri contenuti, non dovrebbe partire da zero per addestrare un modello, ma piuttosto perfezionare un modello esistente. L’ottimizzazione e la formazione rapida su specifici domini di contenuti consumano molta meno energia rispetto all’addestramento di nuovi grandi modelli da zero
. Possono anche fornire più valore a molte aziende rispetto ai modelli addestrati in modo generico. Questo dovrebbe essere l’obiettivo principale per le aziende che desiderano adottare modelli generativi per i propri contenuti.
Utilizzare metodi computazionali a risparmio energetico. Un altro approccio per ridurre il consumo energetico dell’IA generativa è quello di utilizzare approcci meno costosi dal punto di vista computazionale come TinyML per elaborare i dati.
Il framework TinyML consente agli utenti di eseguire modelli ML su dispositivi edge piccoli e a bassa potenza come i microcontrollori con bassi requisiti di larghezza.
Mentre le CPU generali consumano in media 70 watt di potenza e le GPU consumano 400 watt di potenza, un minuscolo microcontrollore consuma solo poche centinaia di microwatt, mille volte meno energia, per elaborare i dati localmente senza inviarli ai server di dati.
Utilizzare un modello di grandi dimensioni solo quando offre un valore significativo. È importante che gli analisti di dati e gli sviluppatori sappiano dove il modello fornisce valore. Se l’utilizzo di un sistema 3 volte più affamato di energia aumenta l’accuratezza di un modello solo dell’1-3%, allora non vale il consumo di energia extra. Più in generale, l’apprendimento automatico e l’intelligenza artificiale non sono sempre necessari per risolvere un problema.
Gli sviluppatori devono prima fare ricerche e analisi di più soluzioni alternative e selezionare un approccio in base ai risultati. Il Montreal AI Ethics Institute, ad esempio, sta lavorando attivamente su questo problema.
Sii esigente quando utilizzi l’IA generativa. Gli strumenti di apprendimento automatico e NLP, Natural Language Processing è un sistema computazionale progettato per elaborare, analizzare e comprendere il linguaggio naturale, cioè il modo in cui le persone parlano e scrivono, sono rivoluzionari per i problemi di salute e le previsioni mediche. Sono ottimi per prevedere pericoli naturali come tsunami, terremoti, ecc.
Queste sono applicazioni utili, ma gli strumenti solo per generare post di blog o creare storie divertenti potrebbero non essere l’uso migliore per questi strumenti ad alta elaborazione. Potrebbero impoverire la salute della Terra più di quanto non aiutino le sue persone. Se un’azienda utilizza l’IA generativa per la creazione di contenuti, dovrebbe cercare di garantire che i modelli vengano utilizzati solo quando necessario o per ridurre altri costi di elaborazione, il che dovrebbe anche ridurre i budget di elaborazione complessivi.
Valuta le fonti energetiche del tuo provider cloud o data center. L’intensità di carbonio dell’IA, e del software in generale, può essere ridotta al minimo distribuendo modelli in regioni in grado di utilizzare risorse energetiche ecocompatibili e rispettose dell’ambiente. Questa pratica ha mostrato una riduzione del 75% delle emissioni operative. Ad esempio, un modello addestrato e operativo negli Stati Uniti può utilizzare energia da combustibili fossili, ma lo stesso modello può essere eseguito in Québec, dove la fonte energetica primaria è l’idroelettrico. Google ha recentemente iniziato a costruire un data center di energia pulita da 735 milioni di dollari in Québec e prevede di passare all’energia carbon-free 24/7 entro il 2030.
Offre anche una “Carbon Sense Suite” per aiutare le aziende a ridurre il consumo di energia nei loro carichi di lavoro cloud. Gli utenti dei provider cloud possono monitorare gli annunci delle aziende su quando e come hanno distribuito fonti energetiche carbon-neutral o zero-carbon.
Riutilizza modelli e risorse. Proprio come altri materiali, la tecnologia può essere riutilizzata. I modelli open source possono essere utilizzati anziché addestrarne di nuovi. Il riciclaggio può ridurre l’impatto delle pratiche di intelligenza artificiale che producono carbonio. Le materie prime possono essere estratte per realizzare nuove generazioni di laptop, processori, dischi rigidi e molto altro ancora.
Includi l’attività di IA nel tuo monitoraggio del carbonio. Le pratiche di monitoraggio del carbonio devono essere adottate da tutti i laboratori di ricerca, i fornitori di IA e le aziende che utilizzano l’IA per sapere qual è la loro impronta di carbonio. Devono anche pubblicizzare i numeri della loro impronta affinché i loro clienti possano prendere decisioni intelligenti sulle attività commerciali correlate all’IA.
Il calcolo delle emissioni di gas serra dipende dai set di dati dei fornitori di dati e delle aziende di elaborazione come i laboratori di ricerca e i fornitori di servizi basati sull’IA come OpenAI. Dall’inizio delle idee all’infrastruttura che verrà utilizzata per ottenere risultati di ricerca, tutti devono seguire approcci di IA verdi.
Sono disponibili diversi pacchetti e strumenti online come Code Carbon, Green algorithms e ML CO2 Impact, che possono essere inclusi nel tuo codice in fase di esecuzione per stimare le tue emissioni e dovremmo incoraggiare la comunità degli sviluppatori a considerare queste metriche delle prestazioni per stabilire parametri di riferimento e valutare i modelli ML.
Naturalmente, ci sono molte considerazioni coinvolte nell’uso di modelli di IA generativa da parte di organizzazioni e individui: etiche, legali e persino filosofiche e psicologiche. Le preoccupazioni ecologiche, tuttavia, meritano di essere aggiunte al mix. Possiamo discutere le implicazioni future a lungo termine di queste tecnologie per l’umanità, ma tali considerazioni saranno irrilevanti se non abbiamo un pianeta abitabile su cui discuterne.
Non abbassare l’attenzione
Sebbene il futuro del consumo di elettricità correlato all’intelligenza artificiale rimanga difficile da prevedere, gli scenari discussi in questo dossier sottolineano l’importanza di moderare sia le aspettative eccessivamente ottimistiche che quelle eccessivamente pessimistiche. L’integrazione dell’intelligenza artificiale in applicazioni come Google Search può aumentare significativamente il consumo di elettricità di queste applicazioni.
Tuttavia, è probabile che vari fattori di risorse frenino la crescita del consumo di elettricità globale correlato all’intelligenza artificiale nel breve termine. Allo stesso tempo, è troppo ottimistico aspettarsi che i miglioramenti nell’efficienza di hardware e software compensino completamente eventuali cambiamenti a lungo termine nel consumo di elettricità correlato all’intelligenza artificiale.
Questi progressi possono innescare un effetto di rimbalzo per cui l’aumento dell’efficienza porta a una maggiore domanda di intelligenza artificiale, aumentando anziché ridurre l’uso totale delle risorse. L’entusiasmo per l’IA del 2022 e 2023 potrebbe essere parte di tale effetto di rimbalzo, mettendo la supply chain dei server AI sulla buona strada per fornire un contributo più significativo al consumo di elettricità dei data center nei prossimi anni.
Inoltre, il miglioramento dell’efficienza potrebbe sbloccare un inventario significativo di GPU più vecchie e inutilizzate, come quelle precedentemente impiegate nel mining della criptovaluta Ethereum, da riutilizzare per l’IA.
Pertanto, sarebbe consigliabile che gli sviluppatori non solo si concentrassero sull’ottimizzazione dell’IA, ma anche considerassero criticamente la reale necessità di utilizzare l’IA in primo luogo, poiché è improbabile che tutte le applicazioni traggano vantaggio dall’IA o che i vantaggi superino sempre i costi.
Le informazioni sull’uso delle risorse per i casi in cui l’IA viene applicata sono limitate; quindi, gli enti regolatori potrebbero considerare l’introduzione di specifici requisiti di informativa ambientale per migliorare la trasparenza lungo la supply chain dell’IA, favorendo una migliore comprensione dei costi ambientali di questa tendenza tecnologica emergente.
Gli autori
Alessandro Trizio
Alessandro è un esperto di intelligenza artificiale e analisi dati, con una carriera dedicata allo sviluppo di soluzioni innovative per l’elaborazione e l’interpretazione di grandi volumi di informazioni. Coniuga una profonda conoscenza tecnica con una visione strategica, puntando a rendere l’intelligenza artificiale uno strumento sostenibile e accessibile.
Lucia Tinagli
Lucia è un’affermata esperta di diritto ambientale, specializzata nella regolamentazione delle tecnologie emergenti e nel loro impatto sull’ambiente.
Laureata in Giurisprudenza con una specializzazione in diritto internazionale, ha costruito la sua carriera approfondendo le intersezioni tra innovazione tecnologica, sostenibilità e governance. Lucia si distingue per la sua capacità di coniugare rigore legale e attenzione alle sfide globali, contribuendo a promuovere politiche che bilanciano progresso tecnologico e tutela dell’ambiente.
Bibliografia
- “Fixing AI’s energy crisis” – Nature
- “The Hidden Cost of AI Energy Consumption” – Knowledge at Wharton
- “The future of AI and energy efficiency” – IBM
- “AI and the Future of Energy” – McKinsey & Company
- “AI’s Energy Consumption: Challenges and Solutions” – International Energy Agency (IEA)
Questo articolo è finanziato con capitali privati del Gruppo Trizio. Nessun conflitto di interessi da segnalare.