Optimizado para CPU Xeon y Core Ultra, GPU Arc y aceleradores Gaudi

Por qué es importante: Como parte de su misión de llevar la IA a todas partes, Intel invierte en su software y ecosistema de IA para garantizar que sus productos estén preparados para las últimas innovaciones en el espacio dinámico de la IA. En el centro de datos, los procesadores Gaudi y Xeon con aceleración Advanced Matrix Extension (AMX) brindan a los clientes opciones para cumplir con requisitos dinámicos y de amplio alcance. Los procesadores Intel Core Ultra y los productos gráficos Arc proporcionan un vehículo de desarrollo local y una implementación en millones de dispositivos con soporte para marcos y herramientas de software integrales, incluidos PyTorch y la extensión Intel para PyTorch utilizada para investigación y desarrollo local y el kit de herramientas OpenVINO para el desarrollo y la inferencia de modelos. . Acerca de Llama 3 ejecutándose en Intel: Las pruebas iniciales y los resultados de rendimiento de Intel para los modelos Llama 3 8B y 70B utilizan software de código abierto, incluidos PyTorch, DeepSpeed, la biblioteca Optimum Habana e Intel Extension para PyTorch para proporcionar las últimas optimizaciones de software. Los aceleradores Intel Gaudi 2 han optimizado el rendimiento en los modelos Llama 2 (parámetros 7B, 13B y 70B) y ahora tienen mediciones de rendimiento iniciales para el nuevo modelo Llama 3. A medida que el software Gaudi madura, Intel ejecutó fácilmente el nuevo modelo Llama 3 y generó. resultados para inferencia y sintonización. Llama 3 también cuenta con el apoyo del acelerador Gaudí 3 recientemente anunciado. Los procesadores Intel Xeon abordan cargas de trabajo exigentes de IA de extremo a extremo e Intel invierte en optimizar los resultados de LLM para reducir la latencia. Los procesadores Xeon 6 con núcleos Performance (con nombre en código Granite Rapids) muestran una mejora del doble en la latencia de inferencia de Llama 3 8B en comparación con los procesadores Xeon de cuarta generación y la capacidad de ejecutar modelos de lenguaje más grandes, como Llama 3 70B, por debajo de 100 ms por token generado. Intel Core Ultra y Arc Graphics ofrecen un rendimiento impresionante para Llama 3. En una primera ronda de pruebas, los procesadores Core Ultra ya generan velocidades de lectura más rápidas que las de un humano típico. Además, la GPU Arc A770 cuenta con aceleración de IA Xe Matrix eXtensions (XMX) y 16 GB de memoria dedicada para ofrecer un rendimiento excepcional para cargas de trabajo LLM. Los procesadores escalables Intel Xeon optimizan continuamente la inferencia LLM para plataformas Xeon. Por ejemplo, en comparación con Llama 2, las mejoras del software de lanzamiento en PyTorch e Intel Extension para PyTorch han evolucionado para ofrecer una reducción de latencia 5 veces mayor. La optimización utiliza la atención de paginación y el tensor paralelo para maximizar la utilización de la computadora y el ancho de banda de la memoria disponibles. La Figura 1 muestra el rendimiento de inferencia de Meta Llama 3 8B en la instancia AWS m7i.metal-48x, impulsada por el procesador escalable Xeon de cuarta generación. Comparamos Meta Llama 3 en un procesador Xeon 6 con núcleos Performance (anteriormente llamado Granite Rapids) para compartir una vista previa del rendimiento. Estos números de vista previa demuestran que Xeon 6 ofrece una mejora del doble en la latencia de inferencia de Llama 3 8B en comparación con los servidores de socket de cuarta generación ampliamente disponibles. Modelo TP Precisión Longitud de entrada Longitud de salida Rendimiento Latencia* Lote Meta-Llama-3-8B-Instruct 1 fp8 2k 4k 1549,27 tokens/seg 7,747 ms 12 Meta-Llama-3-8B-Instruct 1 bf16 1k 3k 469,11 tokens/seg 8.527 ms 4 Meta-Llama-3-70B-Instruct 8 fp8 2k 4k 4927,31 tokens/seg 56,23 ms 277 Meta-Llama-3-70B-Instruct 8 bf16 2k 2k 3574,81 tokens/seg 60,425 ms 216 Plataformas de cliente En una ronda inicial de evaluación, El procesador Intel Core Ultra ya genera velocidades que superan las velocidades típicas de lectura humana. Estos resultados están impulsados ​​por la GPU Arc integrada con 8 núcleos Xe, incluida la aceleración DP4a AI y hasta 120 GB/s de ancho de banda de memoria del sistema. Estamos entusiasmados de invertir en optimizaciones continuas de rendimiento y eficiencia energética en Llama 3, especialmente a medida que pasamos a nuestros procesadores de próxima generación. Con soporte el día del lanzamiento para los procesadores Core Ultra y los productos gráficos Arc, la colaboración entre Intel y Meta proporciona tanto un vehículo de desarrollo local como una implementación en millones de dispositivos. El hardware del cliente Intel se acelera a través de herramientas y marcos de software integrales, incluidos PyTorch e Intel Extension para PyTorch utilizados para investigación y desarrollo local, y OpenVINO Toolkit para implementación e inferencia de modelos. Qué sigue: En los próximos meses, Meta planea introducir nuevas funciones, tamaños de modelos adicionales y un rendimiento mejorado. Intel continuará optimizando el rendimiento de sus productos de IA para respaldar este nuevo LLM.

About Carlos Carraveo Jimenez

Check Also

Podcast de ThinkComputers n. 411 – ¡Modo de diseño fractal, NVIDIA, placas base con IA y más!

Compartir en Facebook Compartir en Twitter Esta semana en el podcast analizamos nuestra revisión de …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *