COMPUTING

Microsoft implementa la ‘supercomputación’ de IA a través de la nueva GPU Ampere A100 de Nvidia

Microsoft está implementando las nuevas GPU A100 Ampere de Nvidia en sus centros de datos y brinda a los clientes un impulso masivo de procesamiento de IA en el proceso. ¿Consíguelo? En el- (entra un bastón afilado en forma de gancho, etapa derecha)

Ejem. Como estaba diciendo. La familia de VM ND A100 v4 comienza con una sola VM y ocho GPU A100, pero puede escalar hasta miles de GPU con 1.6Tb / s de ancho de banda por VM. Las GPU están conectadas con un enlace InfiniBand de 200 GB / s, y Microsoft afirma ofrecer un ancho de banda de GPU dedicado 16 veces mayor que el próximo competidor en la nube. La razón del énfasis en el ancho de banda es que el ancho de banda total disponible a menudo limita el tamaño y la complejidad del modelo de IA.

Nvidia no es la única empresa con una nueva pluma en su sombrero. Microsoft también notas que construyó su nueva plataforma en AMD Epyc (Roma), con soporte PCIe 4.0 y NVLink de tercera generación. Según Microsoft, estos avances deberían ofrecer una mejora inmediata de 2x – 3x en el rendimiento de la IA sin trabajos de ingeniería ni ajustes de modelo. Los clientes que eligen aprovechar las nuevas funciones de Ampere, como la aceleración de dispersión y la GPU de instancias múltiples (MIG), pueden mejorar el rendimiento hasta 20 veces. Según el documento técnico Ampere de Nvidia, MIG es una función que mejora la utilización de la GPU en un entorno de VM y puede permitir hasta 7 veces más instancias de GPU sin costo adicional.

Del documento técnico A100 Ampere de Nvidia

Esta función está dirigida principalmente a proveedores de servicios en la nube, por lo que no está claro cómo se beneficiarían los clientes de Microsoft. Pero Nvidia escribe que su característica Sparsity “puede acelerar los datos de entrada / salida FP32 en marcos DL en HPC, corriendo 10 veces más rápido que V100 [Volta] Operaciones FP32 FMA o 20 veces más rápido con escasez “. Hay una serie de operaciones específicas en las que Nvidia afirma que el rendimiento sobre Volta ha mejorado de 2 a 5 veces en ciertas condiciones, y la compañía ha dicho que el A100 es el mayor salto generacional en su historia.

Microsoft afirma que esta serie de servidores ND A100 v4 se encuentra ahora en versión preliminar, pero que se espera que se conviertan en una oferta estándar en la cartera de Azure.

Las mejoras generacionales de Ampere sobre Volta son importantes para el esfuerzo general por ampliar las redes de IA. El procesamiento de IA no es barato y la tremenda escala de la que habla Microsoft también requiere una enorme cantidad de energía. La cuestión de cómo mejorar la eficiencia energética de la IA es un… tema candente.

(esquiva la caña)

A finales de este año, AMD lanzará la primera GPU de su familia CDNA. CDNA es la versión computarizada de RDNA y si AMD va a intentar desafiar a Ampere en cualquier mercado de IA, aprendizaje automático o HPC, esperaríamos que la próxima arquitectura lidere el esfuerzo. Por ahora, Ampere de Nvidia sigue siendo propietaria de la gran mayoría de las implementaciones de GPU en el espacio AI / ML.

Publicaciones relacionadas

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba
Cerrar
Cerrar