El rendimiento y la latencia del AI Instinct MI300X de AMD mejoraron 7 veces con el ajuste GEMM

El rendimiento y la latencia del AI Instinct MI300X de AMD mejoraron 7 veces con el ajuste GEMM

Nscale probó el acelerador de IA insignia Instinct MI300X de AMD utilizando el marco de optimización GEMM, logrando un rendimiento 7 veces más rápido. El último benchmark AMD MI300X de Nscale revela que el ajuste GEMM resultó en aumentos significativos del rendimiento
[Press Release]: En el último análisis técnico profundo de Nscale, exploramos un aspecto crítico de la optimización del modelo de IA: evaluación comparativa del rendimiento, optimización del rendimiento y reducción de la latencia mediante la optimización de la multiplicación general de matrices (GEMM). Maximizar el rendimiento de las tareas aceleradas por GPU implica algo más que velocidad. La optimización GEMM garantiza un procesamiento eficiente, una mayor productividad y la capacidad de manejar modelos y conjuntos de datos complejos de manera efectiva. En este blog, exploraremos la evaluación comparativa del rendimiento de vLLM en múltiples modelos y profundizaremos en el impacto significativo de la optimización GEMM. Bibliotecas potentes como rocBLAS (subprogramas de álgebra lineal básica ROCm) y hipBLASlt (interfaz de computación heterogénea para portabilidad, subprogramas de álgebra lineal básica) son fundamentales en este proceso. Estas bibliotecas proporcionan implementaciones optimizadas de las operaciones GEMM junto con un conjunto de parámetros de ajuste, lo que permite a los desarrolladores optimizar sus aplicaciones y desbloquear todo el potencial del hardware subyacente, maximizando en última instancia el rendimiento de vLLM. ¿Qué es el ajuste GEMM? La optimización GEMM es una técnica poderosa para mejorar el rendimiento de las operaciones de multiplicación de matrices. Este proceso incluye seleccionar el algoritmo más apropiado en función de factores como la memoria, el caché y la capacidad de procesamiento. Al optimizar los parámetros y los algoritmos de selección óptimos, garantizamos que la operación GEMM maximice la eficiencia en el uso de los recursos informáticos disponibles. Esto se traduce en importantes mejoras de velocidad para los modelos de IA y aprendizaje automático en comparación. Nuestro análisis comparó varias métricas clave de rendimiento entre las dos ejecuciones de referencia. Tasa de generación (tokens por segundo): nos permitió medir la eficiencia de la generación de tokens para los procesos de solicitud de entrada y salida: proporcionando una indicación clara de la capacidad del sistema para manejar múltiples solicitudes simultáneas de manera efectiva. Rendimiento general (tokens procesados ​​por segundo): encapsula la eficiencia combinada de la generación de solicitudes y la velocidad de manejo, proporcionando una visión integral del rendimiento del sistema en diferentes configuraciones.‍ Latencia promedio. (segundos): medida del tiempo necesario para generar una respuesta. Configuraciones para ejecuciones de referencia Configuramos cada ejecución de referencia con las siguientes configuraciones: Longitud del mensaje de entrada para cada solicitud: 256 tokens Longitud de salida para cada solicitud: 256 tokens Tamaño del tensor paralelo: 1 (usando una sola GPU, específicamente MI300X) Tamaños de lote: Clave Observaciones 1, 2 y 4: Profundicemos en los notables avances logrados mediante el ajuste GEMM de LLM como Llama, Mistral, Mistral y Falcon. Analizaremos una serie de gráficos y visualizaciones de datos que ilustran el impacto de Tuned GEMM en el rendimiento y la eficiencia de estos modelos. El gráfico muestra un aumento significativo en la velocidad de construcción cuando el ajuste GeMM está habilitado en el acelerador de IA AMD Instinct MI300X. Impacto del ajuste GEMM: habilitar el ajuste GEMM aumenta la productividad hasta 7,2 veces, como se ve con el LLaMA-2-70B. Tamaño del modelo: Los modelos más grandes, como LLaMA-2-70B y LLaMA-3-70B, muestran las mejoras más significativas en productividad, con aumentos de 7,2x y 5,9x respectivamente. Tamaño de lote: los tamaños de lote más altos generalmente conducen a un mayor rendimiento, amplificado por la optimización GEMM. Por ejemplo, el rendimiento del modelo Falcon 7B aumenta de 244,74 tokens/segundo con un tamaño de lote 1 a 952,38 tokens/segundo con un tamaño de lote 4 sin optimización GEMM. Con el ajuste, aumenta aún más hasta 2736,58 tokens/segundo. Comparación de modelos: entre los modelos probados, LLaMA-2-70B y LLaMA-3-70B muestran el mayor rendimiento debido a su complejidad y tamaño. Por el contrario, los modelos más pequeños como el Qwen 1.5 4B y el Falcon 7B muestran un rendimiento relativamente mayor, lo que indica un procesamiento más eficiente para modelos menos complejos. Latencia: el gráfico ilustra la reducción constante de la latencia lograda mediante la optimización GEMM. Impacto del ajuste GEMM: la latencia se reduce significativamente en todos los modelos. Por ejemplo, la latencia del modelo LLaMA-2-7B cae de 1,00 a 0,35 segundos. Durante las pruebas, observamos que con el ajuste GEMM habilitado, la latencia del modelo LLaMA-2-7B con un tamaño de lote de 1 se redujo en un 66,5 % de 1,97 segundos a 0,66 segundos. Este modelo sigue siendo válido hasta un tamaño de lote de 4, lo que destaca la importante mejora del rendimiento que ofrece la optimización GEMM. Tamaño del modelo: los modelos más grandes exhiben inherentemente una latencia más alta. El modelo LLaMA-2-70B, por ejemplo, muestra una latencia de 1,00 segundos sin sintonización GEMM y de 0,14 segundos con la sintonización habilitada. En comparación, modelos más pequeños como el LLaMA-2-7B muestran una latencia mucho menor en condiciones similares. Esta tendencia es constante en todos los tamaños de lote, lo que subraya que el tamaño del modelo afecta directamente los tiempos de procesamiento. Tamaño de lote: si bien los tamaños de lote más grandes suelen aumentar la latencia, la optimización GEMM mitiga este problema al mantener una latencia más baja. En nuestras pruebas del modelo LLaMA-2-7B sin ajuste GEMM, la latencia aumenta de 1,97 segundos con un tamaño de lote 1 a 2,11 segundos con un tamaño de lote 4. Con el ajuste GEMM habilitado, el aumento oscila entre 0,66 segundos y 0,77 segundos. Esto sugiere que, si bien el ajuste de GEMM mitiga el aumento de la latencia hasta cierto punto, el procesamiento de lotes más grandes requiere naturalmente más tiempo y esfuerzo computacional. Comparación de modelos: modelos como Qwen 1.5 4B y Falcon 7B también muestran una latencia reducida, lo que subraya la eficacia de la optimización GEMM en diferentes complejidades. En pocas palabras: nuestro completo estudio comparativo de las GPU AMD MI300X con ajuste GEMM revela mejoras tanto en el rendimiento como en la latencia, con ganancias de hasta 7,2 veces en modelos específicos. Al optimizar las operaciones de GEMM utilizando las bibliotecas rocBLAS y hipBLASlt, hemos mejorado significativamente el rendimiento y la eficiencia de varios modelos de lenguaje grandes, incluidos LLaMA, Mistral, Mixtral y Falcon. Fuente de noticias: Nscale Comparte esta historia Facebook Twitter

About Carlos Carraveo Jimenez

Check Also

B840 sin overclocking de CPU y solo soporte PCIe Gen3

B840 sin overclocking de CPU y solo soporte PCIe Gen3

AMD ha detallado su línea completa de conjuntos de chips de la serie 800, que …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *