Connect with us

Notizie

Intel è pronta per i carichi di lavoro Meta Llama 3 GenAI: ottimizzati per CPU Xeon e Core Ultra, GPU Arc e acceleratori Gaudi

Intel è pronta per i carichi di lavoro Meta Llama 3 GenAI: ottimizzati per CPU Xeon e Core Ultra, GPU Arc e acceleratori Gaudi

Perchè importa: Nell’ambito della sua missione di portare l’intelligenza artificiale ovunque, Intel investe nel software e nell’ecosistema dell’intelligenza artificiale per garantire che i suoi prodotti siano pronti per le ultime innovazioni nello spazio dinamico dell’intelligenza artificiale. Nel data center, i processori Gaudi e Xeon con accelerazione Advanced Matrix Extension (AMX) offrono ai clienti opzioni per soddisfare requisiti dinamici e di ampia portata.

I processori Intel Core Ultra e i prodotti grafici Arc forniscono sia un veicolo di sviluppo locale che un’implementazione su milioni di dispositivi con supporto per framework e strumenti software completi, tra cui PyTorch e Intel Extension per PyTorch utilizzati per la ricerca e lo sviluppo locale e il toolkit OpenVINO per lo sviluppo e l’inferenza di modelli .

Informazioni su Llama 3 in esecuzione su Intel: I test iniziali e i risultati delle prestazioni di Intel per i modelli Llama 3 8B e 70B utilizzano software open source, tra cui PyTorch, DeepSpeed, la libreria Optimum Habana e Intel Extension for PyTorch per fornire le ottimizzazioni software più recenti.

  • Gli acceleratori Intel Gaudi 2 hanno ottimizzato le prestazioni sui modelli Llama 2 (parametri 7B, 13B e 70B) e ora dispongono di misurazioni iniziali delle prestazioni per il nuovo modello Llama 3. Con la maturità del software Gaudi, Intel ha eseguito facilmente il nuovo modello Llama 3 e ha generato risultati per l’inferenza e la messa a punto. Llama 3 è supportato anche dall’acceleratore Gaudi 3 recentemente annunciato.
  • I processori Intel Xeon affrontano carichi di lavoro AI end-to-end impegnativi e Intel investe nell’ottimizzazione dei risultati LLM per ridurre la latenza. I processori Xeon 6 con core Performance (nome in codice Granite Rapids) mostrano un miglioramento doppio della latenza di inferenza di Llama 3 8B rispetto ai processori Xeon di quarta generazione e la capacità di eseguire modelli linguistici più ampi, come Llama 3 70B, sotto i 100 ms per token generato.
  • Intel Core Ultra e Arc Graphics offrono prestazioni impressionanti per Llama 3. In un primo ciclo di test, i processori Core Ultra generano già velocità di lettura più veloci rispetto a quelle tipiche di un essere umano. Inoltre, la GPU Arc A770 ha Xe Accelerazione AI Matrix eXtensions (XMX) e 16 GB di memoria dedicata per fornire prestazioni eccezionali per i carichi di lavoro LLM.

Processori scalabili Xeon

Intel ottimizza costantemente l’inferenza LLM per le piattaforme Xeon. Ad esempio, rispetto a Llama 2, i miglioramenti del software di lancio in PyTorch e Intel Extension per PyTorch si sono evoluti per offrire una riduzione della latenza di 5 volte. L’ottimizzazione utilizza l’attenzione di paginazione e il tensore parallelo per massimizzare l’utilizzo del calcolo disponibile e la larghezza di banda della memoria. La Figura 1 mostra le prestazioni dell’inferenza di Meta Llama 3 8B sull’istanza AWS m7i.metal-48x, basata sul processore scalabile Xeon di quarta generazione.

lama3-aws-performance-chart1

Abbiamo confrontato Meta Llama 3 su un processore Xeon 6 con core Performance (precedentemente nome in codice Granite Rapids) per condividere un’anteprima delle prestazioni. Questi numeri di anteprima dimostrano che Xeon 6 offre un miglioramento doppio della latenza di inferenza di Llama 3 8B rispetto ai processori Xeon di quarta generazione ampiamente disponibili e la capacità di eseguire modelli linguistici più ampi, come Llama 3 70B, sotto i 100 ms per token generato su un singolo due- server presa.

ModelloTPPrecisioneLunghezza immessaLunghezza di uscitaPortataLatenza*Lotto
Meta-Llama-3-8B-Istruzione1FP82k4k1549.27

gettone/sec

7.747

SM

12
Meta-Llama-3-8B-Istruzione1bf161k3k469.11

gettone/sec

8.527

SM

4
Meta-Llama-3-70B-Istruire8FP82k4k4927.31

gettone/sec

56.23

SM

277
Meta-Llama-3-70B-Istruire8bf162k2k3574.81

gettone/sec

60.425

SM

216

Piattaforme clienti

In un primo ciclo di valutazione, il processore Intel Core Ultra genera già velocità di lettura più veloci rispetto a quelle tipiche di una persona. Questi risultati sono guidati dalla GPU Arc integrata con 8 Xe-core, accelerazione AI DP4a inclusa e fino a 120 GB/s di larghezza di banda della memoria di sistema. Siamo entusiasti di investire in continue ottimizzazioni delle prestazioni e dell’efficienza energetica su Llama 3, soprattutto quando passiamo ai nostri processori di prossima generazione.

Con il supporto il giorno del lancio dei processori Core Ultra e dei prodotti grafici Arc, la collaborazione tra Intel e Meta fornisce sia un veicolo di sviluppo locale che un’implementazione su milioni di dispositivi. L’hardware client Intel viene accelerato tramite framework e strumenti software completi, tra cui PyTorch e Intel Extension for PyTorch utilizzati per la ricerca e lo sviluppo locali e OpenVINO Toolkit per l’implementazione e l’inferenza dei modelli.

Qual è il prossimo: Nei prossimi mesi, Meta prevede di introdurre nuove funzionalità, dimensioni di modelli aggiuntivi e prestazioni migliorate. Intel continuerà a ottimizzare le prestazioni dei suoi prodotti IA per supportare questo nuovo LLM.