NVIDIA descarta los rumores de retraso de Blackwell mientras avanza hacia el intercambio de más información sobre el centro de datos Goliath, ahora operativo en los centros de datos. Blackwell de NVIDIA ya está en funcionamiento y llegará a los centros de datos globales este año y se compartirán más detalles durante Hot Chips la próxima semana. Con Hot Chips a partir de la próxima semana, NVIDIA nos informa sobre qué esperar durante las distintas sesiones que planeado durante el evento. Dado que recientemente ha habido una ola de rumores sobre un retraso en el lanzamiento de Blackwell, la compañía inició una sesión de prensa mostrando Blackwell en funcionamiento en uno de sus centros de datos y, como la compañía ya afirmó en Anteriormente, Blackwell es en camino de aumentar y se enviará a los clientes a finales de este año. Así que poco peso tienen los que dicen que Blackwell tiene algún tipo de defecto o problema y que no llegará a los mercados este año. Pero Blackwell no es sólo un chip, es una plataforma. Al igual que Hopper, Blackwell incluye una amplia gama de diseños para clientes de centros de datos, nube e inteligencia artificial, y cada producto Blackwell se compone de varios chips. Estos incluyen: Blackwell GPU Grace CPU NVLINK Switch Chip Bluefield-3 ConnectX-7 ConnectX-8 Spectrum-4 Quantum-3 NVIDIA también comparte nuevas imágenes de varias bandejas incluidas en la gama Blackwell. Estas son las primeras imágenes compartidas de las bandejas Blackwell y muestran la cantidad de experiencia en ingeniería necesaria para diseñar plataformas de centros de datos de próxima generación. La generación Blackwell está diseñada para abordar las necesidades modernas de IA y ofrecer un gran rendimiento en modelos de lenguaje grandes como el 405B Llama-3.1 de Meta. A medida que los LLM crezcan con tamaños de parámetros más grandes, los centros de datos requerirán más computación y menor latencia. Ahora puede crear una GPU grande con mucha memoria y colocar todo el modelo en ese chip, pero se requieren más GPU para obtener una menor latencia en la generación de tokens. El enfoque de inferencia multi-GPU divide los cálculos entre varias GPU para lograr una baja latencia y un alto rendimiento, pero la ruta multi-GPU tiene sus propias complicaciones. Cada GPU en un entorno de múltiples GPU deberá enviar los resultados de los cálculos a todas las demás GPU de cada nivel, lo que requiere una comunicación GPU-GPU de gran ancho de banda. La solución NVIDIA ya está disponible para instancias multi-GPU en forma de NVSwitch. Los conmutadores NVLINK Hopper ofrecen hasta 1,5 veces el rendimiento de inferencia de un enfoque tradicional de GPU a GPU gracias al ancho de banda de interconexión (tejido) de 900 GB/s. En lugar de tener que realizar varios saltos al cambiar entre GPU, el conmutador NVLINK hace que la GPU solo necesite realizar 1 salto al NVSwitch y el otro salto directamente a la GPU secundaria. Hablando de la GPU en sí, NVIDIA ha compartido algunas velocidades y alimentaciones de la GPU Blackwell, que son las siguientes: Dos GPU Lattice Limited fusionadas en un solo paquete Transistor 208B en TSMC 4NP 20 Peta FLOPS FP4 AI 8 TB/s Ancho de banda de memoria 8-Sitio Memoria HBM3e de 1,8 TB/s Ancho de banda NVLINK bidireccional Enlace NVLINK-C2C de alta velocidad a la CPU Grace Algunos de los beneficios de crear un chip delimitado por celosía incluyen: Mayor densidad de comunicación Menor latencia Eficiencia energética óptima Con Blackwell, NVIDIA está introduciendo una tecnología aún más rápida Conmutador NVLINK que duplica el ancho de banda de la estructura a 1,8 TB/s. El conmutador NVLINK en sí es un troquel de 800 mm2 basado en el nodo 4NP de TSMC y extiende NVLINK a 72 GPU en bastidores GB200 NVL72. El chip proporciona 7,2 TB/s de ancho de banda bidireccional completo en 72 puertos y tiene una capacidad de procesamiento de red de 3,6 TFLOP. La bandeja del conmutador NVLINK viene con dos de estos conmutadores, que ofrecen hasta 14,4 TB/s de ancho de banda total. Uno de los tutoriales planificados por NVIDIA para Hot Chips se titula «La refrigeración líquida aumenta el rendimiento y la eficiencia». Estas nuevas soluciones de refrigeración líquida serán adoptadas por los sistemas GB200, Grace Blackwell GB200 y B200. Uno de los enfoques de refrigeración líquida que se analizarán es el uso de agua caliente directamente en el chip, lo que ofrece una mejor eficiencia de refrigeración, menores costos operativos, una mayor vida útil del servidor de TI y la posibilidad de reutilización del calor. Dado que no se trata de enfriadores tradicionales que requieren energía para enfriar el líquido, el enfoque War Water puede ofrecer una reducción de hasta un 28 % en los costos de energía de las instalaciones del centro de datos. NVIDIA Blackwell reúne múltiples chips, sistemas y software NVIDIA CUDA para impulsar la próxima generación de IA en todos los casos de uso, industrias y países. NVIDIA GB200 NVL72, una solución multinodo, refrigerada por líquido y a escala de rack que conecta 72 GPU Blackwell y 36 CPU Grace, eleva el listón del diseño de sistemas de IA. La tecnología de interconexión NVLink proporciona comunicación GPU entre todos, lo que permite un rendimiento récord e inferencia de baja latencia para la IA generativa. El sistema de cuantificación NVIDIA Quasar supera los límites de la física para acelerar la computación impulsada por IA. Los investigadores de NVIDIA están creando modelos de IA que ayudan a construir procesadores de IA. NVIDIA también comparte la primera imagen de IA generativa del mundo creada utilizando la informática FP4. Se demostró que el modelo cuantificado FP4 produce una imagen de conejo de 4 bits muy similar a los modelos FP16 a velocidades mucho más altas. Esta imagen fue producida por MLPerf usando Blackwell en Stable Diffusion. Ahora el desafío de reducir la precisión (pasando del FP16 al FP4) es que se pierde algo de precisión. Hay algunas variaciones en la orientación del conejo, pero en general se conserva la precisión y la imagen sigue siendo muy buena en términos de calidad. Este uso de la precisión del FP4 es parte del sistema de cuantificación Quasar de NVIDIA y de una investigación que está llevando la informática de IA de baja precisión al siguiente nivel. NVIDIA, como se mencionó anteriormente, está aprovechando la IA para crear chips de IA. La capacidad de la IA generativa se utiliza para generar código Verilog optimizado, que es un lenguaje de descripción de hardware que describe circuitos en forma de código y se utiliza para el diseño y verificación de procesadores como Blackwell. El lenguaje también está ayudando a acelerar las arquitecturas de chips de próxima generación, lo que empuja a NVIDIA a mantener su cadencia anual. Se espera que NVIDIA siga el próximo año con la GPU Blackwell Ultra, que cuenta con 288 GB de memoria HBM3e, mayor densidad de cómputo y más fracasos de IA y sería seguida por las GPU Rubin/Rubin Ultra en 2026 y 2027 respectivamente.
Check Also
Anti-Lag 2 de AMD llega a GPUOpen con más mejoras en la latencia de los juegos
Una nueva tecnología de reducción de latencia está disponible Actualizado: 7 de septiembre de 2024 …