NVIDIA frente a AMD y estaciones de trabajo frente a Consumidor: ¿Quién está a la cabeza en los puntos de referencia de tarjetas gráficas con IA?

Hoy hacemos algo completamente diferente, porque por una vez no se trata de juegos, que ahora se están volviendo aburridos, sino del nuevo becerro de oro: la inteligencia artificial. El resultado récord de NVIDIA de 26.040 millones de dólares en ventas anunciado ayer representa un aumento del 262%, por lo que simplemente era hora de hacer una prueba. Estoy probando un total de 12 tarjetas gráficas, 6 de AMD y 6 de NVIDIA. Lo que es especial es la selección, ya que las tres tarjetas de consumo y estaciones de trabajo más rápidas de cada fabricante compiten entre sí y, en el caso de NVIDIA, con y sin el uso de núcleos Tensor, el UL Procyon AI Computer Vision Benchmark que utiliza hoy en día ofrece exactamente lo mismo. información detallada sobre el rendimiento de los motores de inferencia de IA en este hardware en un entorno Windows que necesitamos. Este punto de referencia incluye múltiples motores de inferencia de IA de diferentes proveedores y evalúa el rendimiento de las operaciones de inferencia en el dispositivo. Cargas de trabajo y tareas de IA Las cargas de trabajo de IA incluyen tareas comunes de visión por computadora, como clasificación de imágenes, segmentación de imágenes, detección de objetos y superresolución. Estas tareas se realizan utilizando una serie de redes neuronales de última generación que se ejecutan en la CPU, la GPU o un acelerador de IA dedicado para evaluar el rendimiento del hardware. Se utilizan varios SDK para medir el rendimiento de la inferencia de IA, incluidos: Microsoft® Windows ML Qualcomm® SNPE Intel® OpenVINO™ NVIDIA® TensorRT™ Apple® Core ML™ El punto de referencia utiliza varios modelos de redes neuronales, incluido MobileNet V3: optimizado para el reconocimiento visual en dispositivos móviles dispositivos. Inception V4: un modelo preciso para tareas de clasificación de imágenes. YOLO V 3: Para reconocimiento y localización de objetos en imágenes. DeepLab V3: para segmentación semántica de imágenes. Real-ESRGAN: para superresolución y escalado de imágenes a una resolución más alta. ResNet 50: proporciona un nuevo método para agregar múltiples capas en redes neuronales. El punto de referencia incluye versiones flotantes (FP32, FP16) y optimizadas para enteros de cada modelo, ejecutadas secuencialmente en todos los componentes de hardware compatibles del dispositivo. Pero tengo una explicación detallada de todos estos puntos de referencia individuales en la página respectiva, porque no puedo asumir que todos sepan exactamente lo que estoy probando. Pero estoy seguro de que el tema es (a) interesante y (b) también orientado al futuro, por lo que los lectores (c) también estarán interesados. Los resultados proporcionan información detallada sobre el rendimiento de la inferencia de IA, incluida la comparación de modelos optimizados para números enteros y flotantes, así como la medición del rendimiento en la GPU y aceleradores de IA especializados. El punto de referencia está diseñado principalmente para equipos de ingeniería y usuarios profesionales que necesitan herramientas estandarizadas e independientes para evaluar el rendimiento general de la IA de las implementaciones de motores de inferencia y el hardware dedicado. Es ideal para que los fabricantes de hardware, las empresas y la prensa tomen decisiones informadas y verifiquen la calidad de la inferencia de la IA. Y simplemente me sentí dirigido a la prensa. En el mundo de la inteligencia artificial y el aprendizaje automático, los tipos de datos FP32, FP16 e Integer desempeñan un papel crucial en el rendimiento y la eficiencia de los cálculos en las GPU. Cada uno de estos tipos de datos tiene ventajas y desventajas específicas que pueden variar según el caso de uso y la arquitectura del hardware. Esta es una de las razones por las que muestro todos los resultados por separado y también ejecuté todos los mapas para cada tipo de datos individualmente. Con resultados bastante interesantes, por cierto. FP32 (coma flotante de 32 bits) Ventajas: Precisión: FP32 ofrece alta precisión y, por lo tanto, es ideal para aplicaciones que requieren alta precisión numérica, como cálculos científicos y modelos complejos. Compatibilidad: muchas redes neuronales y marcos existentes están optimizados para FP32 y brindan los mejores resultados aquí. Desventajas: Consumo de energía: los cálculos de FP32 requieren más procesamiento y requieren más energía y memoria, lo que resulta en un mayor consumo de energía y una menor eficiencia. Velocidad: los cálculos de FP32 son más lentos que los de FP16 e Integer, lo que reduce la velocidad de procesamiento. Ventajas de FP16 (punto flotante de 16 bits): Rendimiento: los cálculos de FP16 son más rápidos y requieren menos energía que FP32, lo que aumenta la eficiencia y la velocidad de rendimiento. Requisitos de memoria: los requisitos de memoria son menores, lo que significa que se pueden procesar y almacenar más datos al mismo tiempo. Contras: Precisión: la menor precisión de FP16 puede provocar errores de redondeo, lo que puede resultar problemático en algunas aplicaciones. Esfuerzo de adaptación: Es posible que sea necesario un esfuerzo adicional para optimizar y adaptar los modelos y algoritmos existentes al FP16. Ventajas de los números enteros (INT8 e INT16): Eficiencia: los cálculos de números enteros son extremadamente eficientes y consumen mucha menos energía que FP32 y FP16, lo que los hace ideales para sistemas móviles e integrados. Velocidad: son más rápidos que los cálculos de FP, lo que aumenta la velocidad de inferencia y reduce la latencia. Desventajas: Precisión: los formatos de números enteros ofrecen la precisión más baja, lo que puede generar mayores errores e imprecisiones, especialmente con modelos complejos. Complejidad: Cuantificar modelos para hacerlos adecuados para cálculos de números enteros puede resultar complejo y llevar mucho tiempo. Arquitecturas y su optimización Las diferentes arquitecturas de GPU se optimizan de manera diferente para este tipo de datos: GPU NVIDIA: ofrecen núcleos tensoriales especiales optimizados para cálculos FP16 e INT8, lo que los hace particularmente eficientes en el cálculo de IA. GPU AMD: AMD también se está centrando en mejorar el soporte para FP16 y está trabajando para mejorar la eficiencia con menor precisión. GPU Intel: con la arquitectura OpenVINO, Intel está optimizando un amplio soporte de diferentes tipos de datos, incluido INT8, para permitir un alto rendimiento con un menor consumo de energía. La conclusión es que la elección del tipo de datos y la arquitectura depende de los requisitos específicos de la aplicación. Para alta precisión y compatibilidad, FP32 es adecuado, mientras que FP16 y los números enteros se prefieren por su eficiencia y velocidad en aplicaciones de inferencia. Sistema de prueba

About Carlos Carraveo Jimenez

Check Also

Próximamente se lanzará la placa base ASUS Z790-AYW OC WIFI, diseño Dual-DIMM, capacidades de overclocking excepcionales a un precio asequible

ASUS planea lanzar su nueva placa base Z790-AYW OC WIFI, que ofrece capacidades de overclocking …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *