COMPUTING

Cerebras presenta un motor de escala de obleas de segunda generación: 850.000 núcleos, 2,6 billones de transistores

Cerebras está de regreso con la segunda generación de su Wafer Scale Engine. WSE 2.0, lamentablemente, el nombre “Son of Wafer-Scale” parece haber muerto en el comité, es un encogimiento de 7 nm del original, con muchos más núcleos, más RAM y 2,6 billones de transistores, con una “T”. Hace que los 54 mil millones en su Nvidia A100 promedio parezcan un poco peatones, por un cierto valor de “peatón”.

El concepto de un motor a escala de obleas es simple: en lugar de grabar docenas o cientos de chips en una oblea y luego empaquetar esas CPU o GPU para la reventa individual, ¿por qué no usar una oblea completa (o la mayor parte de una oblea, en este caso)? por un procesador enorme?

La gente ha probado este truco antes, sin éxito, pero eso fue antes de que los rendimientos modernos mejoraran hasta el punto en que construir 850.000 núcleos en una pieza de silicio del tamaño de una tabla de cortar era una idea razonable. El año pasado, Cerebras WSE-1 sorprendió al ofrecer 400.000 núcleos, 18 GB de memoria en chip y 9PB / s de ancho de banda de memoria, con 100Pb / s de ancho de banda de tejido en toda la oblea. En la actualidad, el WSE-2 ofrece 850.000 núcleos, 40 GB de memoria SRAM en chip y 20 PB / s de ancho de banda de memoria en oblea. El ancho de banda total de la tela ha aumentado a 220Pb / s.

Si bien el nuevo WSE-2 es ciertamente más grande, no hay muchas señales de que sea diferente. Las mejoras de las estadísticas de primera línea son todas impresionantes, pero las ganancias son proporcionales en todos los ámbitos, es decir: un aumento de 2.12x en el recuento de núcleos se corresponde con un aumento de 2.2x en RAM, un aumento de 2.2x en el ancho de banda de memoria y un aumento de 2,2 veces en el ancho de banda de la tela. La cantidad real de RAM, ancho de banda de RAM o ancho de banda de estructura, evaluados por núcleo, es prácticamente idéntica entre los dos WSE.

Normalmente, con un diseño de segunda generación como este, esperaríamos que la empresa realice algunos cambios en la asignación de recursos o escale algún aspecto específico del diseño, como ajustar las relaciones entre recuentos de núcleos, ancho de banda de memoria y RAM total. El hecho de que Cerebras eligiera escalar el WSE-1 hacia arriba en el WSE-2 sin ajustar ningún otro aspecto del diseño implica que la empresa apuntó bien su hardware inicial y pudo escalarlo hacia arriba para satisfacer los deseos de su base de clientes sin comprometer o cambiar otros aspectos de la arquitectura WSE.

Uno de los argumentos de Cerebras a favor de sus propios diseños es la simplicidad de escalar una carga de trabajo en un solo WSE, en lugar de intentar escalar entre las docenas o cientos de GPU que podrían ser necesarias para igualar su rendimiento. No está claro qué tan fácil es adaptar las cargas de trabajo al WSE-1 o WSE-2, y no parece haber muchos puntos de referencia independientes disponibles todavía para comparar la escala entre WSE-1 o WSE-2 y tarjetas Nvidia equivalentes. Esperaríamos que el WSE-2 tuviera la ventaja de escalar, asumiendo que la carga de trabajo relevante se ajusta a las características de ambos sistemas por igual, debido a la dificultad intrínseca de dividir una carga de trabajo de manera eficiente en un número cada vez mayor de tarjetas aceleradoras.

Cerebras no parece haber publicado públicamente ningún punto de referencia del WSE-1 o WSE-2 comparándolo con otros sistemas, por lo que todavía estamos en un patrón de espera en cuanto a ese tipo de datos. Pasar del WSE-1 al WSE-2 tan rápido, sin embargo, implica cierto interés del cliente en el chip.

Publicaciones relacionadas

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba
Cerrar
Cerrar