Barre todos los puntos de referencia de entrenamiento de MLPerf, logra un escalado casi perfecto en GPT-175B, Hopper ahora es un 30% más rápido

Barre todos los puntos de referencia de entrenamiento de MLPerf, logra un escalado casi perfecto en GPT-175B, Hopper ahora es un 30% más rápido

NVIDIA ha demostrado una vez más su poder en MLPerf, registrando una eficiencia cercana al 100% y enormes mejoras con las GPU Hopper H100 y H200 en modelos enormes como el GPT-3 175B. NVIDIA finaliza la primera mitad de 2024 con un rendimiento de MLPerf v4.0 aún mayor, la supercomputadora EOS ahora es 3 veces más rápida que el año pasado, las GPU de IA H200 y H100 continúan fortaleciéndose en las cargas de trabajo de capacitación. No se puede decir IA sin mencionar a NVIDIA y la compañía lo ha demostrado. esto una vez más con sus últimas propuestas de benchmark MLPerf Training V4.0 en las que dominó en todos los frentes. NVIDIA dice que los requisitos computacionales de IA continúan aumentando a un ritmo explosivo y desde la introducción de Transformers hemos visto un crecimiento de 256 veces en los requisitos en solo 2 años. El otro aspecto es el rendimiento y cuanto mayor sea el rendimiento, más ROI (retorno de la inversión) genera para la empresa. NVIDIA comparte tres segmentos y cómo importa el rendimiento en cada uno. El primero es el Entrenamiento, donde es necesario contar con formas más inteligentes y rápidas de entrenar. El segundo es Inferencia, que incluye experiencias de usuario interactivas que incluyen ChatGPT, donde los usuarios esperan tener una respuesta inmediata a una consulta recién ingresada. NVIDIA mencionó recientemente en su convocatoria de ganancias que existe una oportunidad para que los proveedores de servicios LLM generen $7 en ingresos por cada $1 invertido durante 4 años y eso es bastante grande para las empresas. El excelente desempeño de la inteligencia artificial se traduce en importantes oportunidades de negocio. Por ejemplo, en nuestra reciente convocatoria de resultados, describimos cómo los proveedores de LLM pueden convertir una inversión de un solo dólar en siete dólares en solo cuatro años ejecutando Llama 3 70B en servidores NVIDIA HGX H200. Este rendimiento supone un proveedor de servicios LLM que presta servicios a Llama 3 70B a $0,60/millón de tokens, con un rendimiento del servidor HGX H200 de 24.000 tokens/segundo. La GPU NVIDIA H200 potencia la IA generativa y HPC La GPU NVIDIA H200 Tensor se basa en la solidez de la arquitectura Hopper, con 141 GB de memoria HBM3 y más de un 40 % más de ancho de banda de memoria que la GPU H100. Superando los límites de lo que es posible en el entrenamiento de IA, la GPU NVIDIA H200 Tensor Core amplió el rendimiento del H100 en un 14 % en su debut con MLPerf Training. El software NVIDIA ofrece mejoras de rendimiento incomparables. Además, nuestros envíos que utilizan una configuración de GPU 512 H100 son ahora hasta un 27 % más rápidos que hace apenas un año gracias a numerosas optimizaciones en la pila de software NVIDIA. Esta mejora resalta cómo las mejoras continuas de software pueden aumentar significativamente el rendimiento, incluso con el mismo hardware. El resultado de este trabajo es un aumento de rendimiento de 3,2 veces en sólo un año a mayor escala y mejoras significativas de software. Esta combinación también proporcionó un escalado casi perfecto: a medida que el número de GPU aumentó 3,2 veces, el rendimiento proporcionado también aumentó. Sobresalir en LLM Tuning A medida que las empresas buscan personalizar grandes modelos de lenguaje previamente entrenados, LLM Tuning se está convirtiendo en una carga de trabajo clave de la industria. MLPerf introdujo un nuevo punto de referencia de ajuste LLM en esta ronda, basado en la popular técnica de adaptación de rango bajo (LoRA) aplicada a Meta Llama 2 70B. La plataforma NVIDIA se destacó en esta tarea, escalando fácilmente de ocho a 1024 GPU. Esto significa que la plataforma NVIDIA puede manejar de manera eficiente tareas de IA a pequeña y gran escala, lo que la hace versátil para diversas necesidades comerciales. Aceleración del entrenamiento de Stable Diffusion y GNN NVIDIA también ha acelerado el rendimiento del entrenamiento de Stable Diffusion v2 hasta en un 80% en las mismas escalas de sistema presentadas en la última ronda. Entonces, ¿cómo le está yendo a NVIDIA en términos de las últimas pruebas comparativas de rendimiento de MLPerf Training v4.0? Bueno, rompieron todos los puntos de referencia de rendimiento que ya habían establecido y lograron cinco nuevos récords mundiales en el proceso. Los números son los siguientes: Graph R-GAT Neural Network (512 GPU H100): 1,1 minutos LLM Fine-Tuning Llama 2 70B-LoRA (1024 GPU H100): 1,5 minutos LLM GPT-3 175B (11.616 GPU H100): 3,4 minutos Difusión estable de texto a imagen v2 (1024 GPU H100): 1,4 minutos Detección de objetos RetinaNet (2528 GPU H100): 0,8 minutos Clasificación de imágenes ResNet-50 (3584 GPU H100) 0,2 minutos NLP BERT grande (3472 GPU H100): 0,1 minuto Imágenes médicas 3D U-Net (768 GPU H100) – 0,8 minutos Recomendación 3D U-Net (128 GPU H100) – 1 minuto No solo eso, NVIDIA también obtuvo un rendimiento 3,2 veces mayor que la presentación del año pasado. El superpod EOS-DFW ahora cuenta con 11,616 GPU H100 (frente a 3584 GPU en junio de 2023) que están interconectadas mediante la rápida interconexión NVIDIA 400G Quantum-2 InfiniBand. NVIDIA también dice que la nueva y mejorada pila de software ha ayudado a lograr una escalabilidad casi perfecta a escalas tan grandes en cargas de trabajo de entrenamiento como el GPT-3 175B. Y por qué esta escala es importante porque NVIDIA ahora está construyendo fábricas de IA a gran escala equipadas con entre 100.000 y 300.000 GPU. Una de esas fábricas de GPU Hopper AI estará operativa a finales de año, y se espera que una nueva fábrica de Blackwell entre en funcionamiento para 2025. Pero no es solo la ampliación del rendimiento lo que está mejorando, los GPU Hoppers también están experimentando actualizaciones. Las últimas optimizaciones de pila completa ahora han aumentado el rendimiento de las GPU H100 en otro 27% en los últimos puntos de referencia, lo cual es posible a través de varias integraciones nuevas, como: Kernels FP8 altamente optimizados Optimizador distribuido compatible con FP8 CuDNN FlashAttention optimizado Ejecución superpuesta de matemáticas y comunicaciones Asignación de energía de GPU inteligente mejorada >900 TFLOP/s/GPU sostenida a una escala de 512 GPU. En el rendimiento del entrenamiento de texto a imagen, NVIDIA destaca un aumento de rendimiento del 80 % con las GPU Hopper, logrado en solo siete meses. Las optimizaciones que hicieron posible este aumento incluyen el gráfico CUDA de iteración completa, el optimizador distribuido, las convoluciones optimizadas y los GEMM. Al pasar a la plataforma NVIDIA HGX H200 Hopper, los nuevos chips pudieron ofrecer el rendimiento más rápido al ajustar el Llama 2 70B y superar el punto de referencia MLPerf v4.0. La GPU Hopper H200 fue 3,2 veces más rápida que el Gaudi 2 de Intel en el rendimiento de ajuste fino del Llama 2 70B, mientras que fue 4,7 veces más rápida que el Gaudi 2 en el rendimiento de inferencia del Llama 2 70B. Todas las GPU se probaron con una configuración de 8 aceleradores. Las mejoras en Hopper desde 2023, como un rendimiento 2,5 veces mayor y un rendimiento del lote 1 1,5 veces mayor en cargas de trabajo de inferencia de 70 mil millones, han llevado a NVIDIA a actualizar su eslogan «Cuanto más compras, más ahorras» en «Cuanto más compras, más más ahorras». Lo haces». Mientras cubre estos puntos de referencia, NVIDIA está provocando aumentos de rendimiento aún mayores para las GPU H100 y H200 en la próxima pila de software. Si cree que NVIDIA fabrica hardware loco, entonces su equipo de software y CUDA es una raza completamente diferente que continúa muestre su experiencia en ingeniería y optimización trimestre tras trimestre. Comparta esta historia Facebook Twitter.

About Carlos Carraveo Jimenez

Check Also

Del VHS a los altibajos digitales – Segunda parte

Del VHS a los altibajos digitales – Segunda parte

El viernes finalmente terminé de copiar 37 cintas VHS y tuve en cuenta que cada …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *