COMPUTING

Intel detalla sus tarjetas de inteligencia artificial de entrenamiento e inferencia Nervana

Hot Chips 31 está en marcha esta semana, con presentaciones de varias empresas. Intel ha decidido utilizar la conferencia altamente técnica para discutir una variedad de productos, incluidas sesiones importantes centradas en la división de inteligencia artificial de la compañía. La inteligencia artificial y el aprendizaje automático se consideran áreas críticas para el futuro de la informática, y aunque Intel ha abordado estos campos con funciones como DL Boost en Xeon, también está creando aceleradores dedicados para el mercado.

El NNP-I 1000 (Spring Hill) y el NNP-T (Spring Crest) están destinados a dos mercados diferentes, inferencia y formación. El “entrenamiento” es el trabajo de crear y enseñar a una red neuronal cómo procesar datos en primer lugar. La inferencia se refiere a la tarea de ejecutar realmente el modelo de red neuronal ahora entrenado. Se requiere mucha más potencia computacional para entrenar una red neuronal que para aplicar los resultados de ese entrenamiento a tareas de categorización o clasificación del mundo real.

Spring Crest NNP-T de Intel está diseñado para escalar horizontalmente a un grado sin precedentes, con un equilibrio entre la capacidad de procesamiento de tensor, HBM en el paquete, capacidad de red y SRAM en la matriz para mejorar el rendimiento del procesamiento. El chip subyacente está construido por TSMC – sí, TSMC – en 16nm, con 680 mm2 tamaño de troquel y 1200 mm2 interponedor. El conjunto completo consta de 27 mil millones de transistores con 4 pilas de 8 GB de memoria HBM2-2400, 24 clústeres de procesamiento de tensores (TPC) con una frecuencia central de hasta 1,1 GHz. Sesenta y cuatro carriles de SerDes HSIO proporcionan 3,58 Tbps de ancho de banda agregado y la tarjeta admite una conexión x16 PCIe 4.0. Se espera que el consumo de energía esté entre 150-250W. El chip se construyó utilizando el paquete CoWoS avanzado de TSMC (Chip-on-Wafer-on-Substrate) y lleva 60 MB de caché distribuidos en sus diversos núcleos. CoWoS compite con EMIB de Intel, pero Intel ha decidido construir este hardware en TSMC en lugar de utilizar sus propias fundiciones. El rendimiento se estima en hasta 119 TOPS.

«No queremos desperdiciar el área de la matriz en cosas que no necesitamos», dijo el vicepresidente de hardware de Intel, Carey Kloss. Siguiente plataforma. “Nuestro conjunto de instrucciones es simple; multiplicación de matrices, álgebra lineal, convoluciones. No tenemos registros per se, todo es un tensor (2D, 3D o 4D) «. Hay mucho que se define en el software, incluida la capacidad de programar lo mismo cuando se rompe un modelo para que se ejecute dentro o fuera de la matriz. «Piense en ello como una jerarquía», dijo Kloss en la entrevista. “Puede utilizar el mismo conjunto de instrucciones para mover datos entre dos clústeres en un grupo junto a un HBM o entre grupos o incluso morir en una red. Queremos que sea sencillo para el software gestionar la comunicación «.

La siguiente presentación de diapositivas muestra la arquitectura NNP-T. Todos los datos son cortesía de Intel, y las cifras de rendimiento compartidas en los microbenchmarks de la compañía obviamente no han sido validadas por ExtremeTech.

El NNP-T está diseñado para escalar hacia afuera de manera efectiva sin requerir un chasis. Se pueden conectar varios aceleradores NNP-T juntos en el mismo chasis, y las tarjetas admiten la conexión sin pegamento de chasis a chasis e incluso de rack a rack sin necesidad de un conmutador. Hay cuatro puertos de red QFSP (Quad Small Form Factor Pluggable) en la parte posterior de cada tarjeta intermedia.

Todavía no tenemos datos de rendimiento, pero esta es la tarjeta de entrenamiento de alta gama con la que Intel llegará al mercado para competir con empresas como Nvidia. Todavía no está claro cómo soluciones eventuales como Xe, que no se enviarán a los centros de datos hasta 2021, encajarán en la futura cartera de productos de la compañía una vez que tenga núcleos de procesamiento de tensores y GPU en el mercado de centros de datos.

Spring Hill / NNP-I: Icelake a bordo

Spring Hill, el nuevo acelerador de inferencia de Intel, es una bestia completamente diferente. Donde el NNP-T está diseñado para envolventes de potencia de 150-250W, el NNP-I es una pieza de 10-50W destinada a conectarse a una ranura M.2. Cuenta con dos núcleos de CPU Icelake emparejados con 12 motores de cálculo de inferencia (ICE).

Los 12 motores ICE y los núcleos de CPU duales están respaldados por 24 MB de L3 coherente y admiten instrucciones AVX-512 y VNNI. Hay dos controladores de memoria LPDDR4X en matriz conectados a un grupo de memoria LPDDR4 en matriz (aún no hay información sobre la capacidad). El ancho de banda de la DRAM es de hasta 68 GB / s, pero se desconoce la cantidad total de DRAM en la tarjeta. Spring Hill se puede agregar a cualquier servidor moderno que admita ranuras M.2; según Intel, el dispositivo se comunica a través del elevador M.2 como un producto PCIe en lugar de a través de NVMe.

El objetivo, con NNP-I, es ejecutar operaciones en el procesador AI con menos sobrecarga requerida de la CPU principal en el sistema. El dispositivo se conecta a través de PCIe (se admiten tanto PCIe 3.0 como 4.0) y maneja la carga de trabajo de IA, utilizando los núcleos Icelake integrados para cualquier procesamiento necesario. Las SRAM y DRAM integradas proporcionan ancho de banda de memoria local.

Inference Compute Engine admite varios formatos de instrucción, que van desde FP16 a INT1, con un procesador vectorial programable y una SRAM de 4 MB para cada ICE individual.

También hay un motor tensorial, denominado Deep Learning Compute Grid, y un DSP Tensilica Vision P6 (utilizado para procesar cargas de trabajo que no están ajustadas para ejecutarse en la DL Compute Grid de función fija).

El subsistema de memoria general del NNP-I también está optimizado, con la caché L3 dividida en ocho porciones de 3 MB, compartidas entre los núcleos ICE y CPU. El objetivo es mantener los datos lo más cerca posible de los elementos de procesamiento que los necesitan. Intel afirma que el NNP-I puede ofrecer un rendimiento ResNet50 de 3600 inferencias por segundo cuando se ejecuta a un TDP de 10W. Eso equivale a 4.8 TOPS / vatio, lo que cumple con los objetivos de eficiencia general de Intel (la compañía afirma que NNP-I es más eficiente con vatajes más bajos).

Intel no espera que el NNP-I llegue al mercado minorista, pero las soluciones de inferencia están haciendo un buen negocio en comparación con las soluciones de capacitación centradas en centros de datos de alta gama. El NNP-I podría enviarse a una amplia gama de clientes en un futuro no muy lejano, dependiendo de la aceptación general.

Ambas soluciones están destinadas a desafiar a Nvidia en el centro de datos. Si bien ambos son bastante diferentes de Xeon Phi, se podría argumentar que se dirigen colectivamente a algunos de los espacios en los que Intel quería vender Xeon Phi, aunque de maneras muy diferentes. Sin embargo, eso no es necesariamente algo malo: cuando se construyó el Larrabee original, la idea de usar GPU para la inteligencia artificial y el trabajo en el centro de datos era un concepto lejano. Revisar el tema con una nueva arquitectura especializada tanto para la inferencia como para la capacitación es un movimiento inteligente para Intel, si la empresa puede quitarle volumen a Nvidia.

Publicaciones relacionadas

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba
Cerrar
Cerrar