Connect with us

Notizie

Le GPU NVIDIA alimentano il modello Llama 3 di nuova generazione di Meta, un’intelligenza artificiale ottimizzata su tutte le piattaforme, inclusa RTX

Le GPU NVIDIA alimentano il modello Llama 3 di nuova generazione di Meta, un’intelligenza artificiale ottimizzata su tutte le piattaforme, inclusa RTX

NVIDIA ha annunciato Quello LLM di Meta’s Llama 3 sono stati realizzati con GPU NVIDIA e ottimizzati per funzionare su tutte le piattaforme, dai server ai PC.

Gli LLM AI di prossima generazione Llama 3 di Meta sono qui e NVIDIA è la forza trainante dietro di loro, supporto ottimizzato su PC Cloud, Edge e RTX

Comunicato stampa: NVIDIA ha annunciato oggi ottimizzazioni su tutte le sue piattaforme per accelerare Meta Llama 3, l’ultima generazione del Large Language Model (LLM). Il modello aperto combinato con il computing accelerato NVIDIA consente a sviluppatori, ricercatori e aziende di innovare in modo responsabile in un’ampia varietà di applicazioni.

Formazione sull’intelligenza artificiale NVIDIA

Gli ingegneri di Meta hanno addestrato Llama 3 su un cluster di computer contenente 24.576 GPU H100 Tensor Core, collegate a una rete Quantum-2 InfiniBand. Con il supporto di NVIDIA, Meta ha ottimizzato la rete, il software e le architetture dei modelli per il suo LLM di punta.

Per far avanzare ulteriormente lo stato dell’arte dell’intelligenza artificiale generativa, Meta ha recentemente descritto i piani per scalare la propria infrastruttura fino a 350.000 GPU H100.

Mettere Llama 3 al lavoro

Le versioni di Llama 3, accelerate su GPU NVIDIA, sono oggi disponibili per l’utilizzo nel cloud, nel data center, nell’edge e nel PC.

Fonte immagine: Wccftech (generato dall’intelligenza artificiale)

Le aziende possono ottimizzare Llama 3 con i propri dati utilizzando NVIDIA NeMo, un framework open source per LLM che fa parte della piattaforma NVIDIA AI Enterprise sicura e supportata. I modelli personalizzati possono essere ottimizzati per l’inferenza con NVIDIA TensorRT-LLM e distribuiti con Triton Inference Server.

Portare Llama 3 su dispositivi e PC

Llama 3 funziona anche su Jetson Orin per dispositivi di robotica e edge computing, creando agenti interattivi come quelli del Jetson AI Lab. Inoltre, le GPU RTX e GeForce RTX per workstation e PC velocizzano l’inferenza su Llama 3. Questi sistemi offrono agli sviluppatori un obiettivo di oltre 100 milioni di sistemi accelerati da NVIDIA in tutto il mondo.

Ottieni prestazioni ottimali con Llama 3

Le migliori pratiche nell’implementazione di un LLM per un chatbot implicano un equilibrio tra bassa latenza, buona velocità di lettura e utilizzo ottimale della GPU per ridurre i costi. Un servizio di questo tipo deve fornire token – l’equivalente approssimativo di parole per un LLM – a circa il doppio della velocità di lettura di un utente, ovvero circa 10 token/secondo.

Applicando questi parametri, una singola GPU NVIDIA H200 Tensor Core ha generato circa 3.000 token al secondo, sufficienti per servire circa 300 utenti simultanei, in un test iniziale utilizzando la versione di Llama 3 con 70 miliardi di parametri. Ciò significa che un singolo server NVIDIA HGX con otto GPU H200 potrebbe fornire 24.000 token al secondo, ottimizzando ulteriormente i costi supportando più di 2.400 utenti contemporaneamente.

Per i dispositivi edge, la versione di Llama 3 con otto miliardi di parametri ha generato fino a 40 token/secondo su Jetson AGX Orin e 15 token/secondo su Jetson Orin Nano.

Promozione dei modelli comunitari

Partecipante attivo all’open source, NVIDIA è impegnata a ottimizzare il software della community che aiuta gli utenti ad affrontare le sfide più difficili. I modelli open source promuovono inoltre la trasparenza dell’IA e consentono agli utenti di condividere ampiamente il lavoro sulla sicurezza e la resilienza dell’IA.

Condividi questa storia

Facebook

Twitter