COMPUTING

Tachyum recauda $ 25 millones para un procesador universal ‘más rápido que Xeon, más pequeño que ARM’

La empresa emergente Tachyum ha recaudado 25 millones de dólares en una ronda de financiación de la Serie A para un nuevo diseño de procesador al que llama Prodigy Universal Processor. Prodigy es supuestamente más rápido en código de un solo subproceso que Xeon, con núcleos de CPU más pequeños que ARM. Se puede utilizar para simular redes neuronales del tamaño de un cerebro humano en tiempo real. Supera a las CPU, GPU y TPU de Google. Puede ejecutar 64 núcleos a una frecuencia de todos los núcleos de 4GHz, cabe en solo 290 mm2 de espacio de troquel (la mitad del tamaño del diseño Epyc de 7 nm de AMD en el mismo nodo), admite ocho canales de DDR5, 72 carriles PCIe 5.0, 2 conexiones Ethernet 400G y admite HBM3.

Tachyum-Slide-3

Decir que Tachyum no ha probado estas afirmaciones sería quedarse corto. Afirmando poder vencer a Intel o AMD en rendimiento de un solo subproceso o ARM en el tamaño de la matriz y la eficiencia energética sería sorprendente en las mejores circunstancias. Afirmar hacer ambas cosas simultáneamente con un chip que aún no ha construido requiere mejor evidencia de la que hemos visto para tomar el argumento en serio. La empresa es reclamando eventualmente colocará una CPU con 128 núcleos a 4GHz en un solo zócalo con 12 controladores DDR5.

Afirmar haber resuelto el problema de los ‘cables lentos’ (presumiblemente esta es una referencia al retraso RC) con cables muy cortos en realidad no responde nada en absoluto. Específicamente, no explica nada acerca de cómo el Prodigy se las arregla para usar estos cables muy cortos en la ruta crítica, por qué es capaz de implementarlos cuando otra CPU de la competenciaSEEAMAZON_ET_135 Ver comercio de Amazon ET los diseños no pueden, o lo que Tachyum ha intercambiado a cambio de longitudes de cable cortas. Una frecuencia de todos los núcleos de 4GHz en un TDP de 180 W plantea preguntas sobre cuánto trabajo pueden realizar estos chips por ciclo de reloj, especialmente dado que parecen tomar prestadas algunas páginas del enfoque de Itanium para mejorar el rendimiento del hardware, es decir, la idea de que el complejo La ejecución de orden se puede introducir en el compilador y dejar putrefacción optimización eficiente.

La empresa dio una presentación en Hot Chips el año pasado que es ahora público; hemos reproducido algunas de sus diapositivas en la siguiente presentación.

Tachyum’s Copia de PR afirma que Prodigy reduce 4 veces el TCO del centro de datos “a través de una arquitectura de hardware disruptiva y un compilador inteligente que ha hecho que muchas partes del hardware que se encuentran en un procesador típico sean redundantes. Menos cables y cables más cortos, debido a un núcleo más pequeño y simple, se traduce en una velocidad y eficiencia energética mucho mayores para el procesador “.

Según la sesión de preguntas y respuestas después de Hot Chips, estas CPU pierden el 40 por ciento de rendimiento cuando ejecutan código x86 nativo, lo que parece ser un problema importante para todo el argumento de “Más rápido que Xeon”. La compañía afirma que “la emulación binaria de 4.0 GHz todavía supera al Xeon de 2.5 GHz”, lo que sería más un problema para Intel (o AMD) si un Xeon de 2.5GHz representara algún tipo de umbral de desempeño objetivamente difícil. Frases como “Ejecución fuera de orden en software” es una forma elegante de decir: “Introdujimos todo el trabajo para lograr un alto rendimiento en el compilador, y realmente esperamos que nuestro compilador pueda extraer suficiente rendimiento para que esto funcione”. Intel intentó exactamente esta estrategia con Itanium. No funcionó.

Dicho esto, hay muchas cosas sobre la arquitectura de Prodigy que no están claras en este momento. Hay discusiones en varios foros sobre el grado en que se parece o no a Itanium o si su arquitectura debería entenderse más adecuadamente como VLIW, VLIW modificado, EDGE o algo más.

Tachyum’s Prodigy, basado en lo que hemos visto hasta la fecha, es muy largo. Se supone que es el mejor procesador paralelo y el mejor procesador en serie, a pesar de que las CPU y GPU ejecutan tipos de código muy diferentes. Puede igualar o superar los chips de gama alta de Intel, pero se ejecuta dentro de sobres de potencia y tamaños de troquel mejor que cualquier cosa que ARM o AMD puedan ofrecer.

Los reclamos extraordinarios requieren evidencia extraordinaria. Todavía no tenemos mucho de eso.

Publicaciones relacionadas

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba
Cerrar
Cerrar