GAMING

La beta del nuevo mundo de Amazon no mató directamente a los EVGA RTX 3090

A principios de este verano, Amazon lanzó su MMO, New World, para pruebas beta. No pasó mucho tiempo para que los informes de GPU RTX 3090 fallidos comenzaran a aparecer en línea. Las fallas se concentraron específicamente en las GPU EVGA RTX 3090. Cuando se lanzó Ampere, algunos se preguntaban si los diferentes condensadores utilizados en algunos modelos eran una fuente potencial de inestabilidad.

La parte extraña de la historia fue el hecho de que el software casi Nunca mata el hardware. Hay dos excepciones a esta política: actualizaciones de firmware (que amplían la definición de “software”) y aplicaciones que pueden imitar de alguna manera virus térmicos como Furmark y Prime95. Incluso entonces, los componentes bien refrigerados con una refrigeración VRM adecuada normalmente no fallan. Y las pocas aplicaciones que pueden causar fallas en los componentes casi nunca lo hacen sin factores que contribuyan, como la antigüedad del equipo y su temperatura de funcionamiento.

EVGA se comprometió a reemplazar las tarjetas afectadas y analizó 24 de los modelos y compartió los resultados con Mundo PC. Según Gordon Mah Ung: “Bajo un análisis de rayos X, [the affected RTX 3090s] parecen tener “mala mano de obra” al soldar alrededor de los circuitos MOSFET de la tarjeta que alimentan las tarjetas impactadas “. Las fallas se limitaron a la familia RTX 3090 y EVGA envió nuevas tarjetas a los jugadores de inmediato, dice, en lugar de esperar a que se devuelvan las unidades.

Los MOSFET (transistores de efecto de campo de semiconductores de óxido metálico) son un componente crítico en los circuitos de potencia. Una soldadura deficiente alrededor de los MOSFET podría causar fallas al aumentar las temperaturas y la resistencia hasta el punto de que el hardware fallara.

¿Por qué fallaron los RTX 3090 al ejecutar New World, específicamente?

Aquí es donde tenemos que partir un cabello. Las tarjetas EVGA murieron porque sufrieron defectos de fabricación, no por algo malo con New World. Pero New World expuso el punto de falla debido a las decisiones de diseño que tomó Amazon.

Las GPU son enormes máquinas de cálculo en paralelo, pero no tienen una comprensión subjetiva de “suficiente”. Para una GPU, “suficiente” es “la velocidad de fotogramas que se me ordenó entregar” o “lo más rápido que pueda sin violar una de mis restricciones preprogramadas de temperatura, voltaje y corriente”. No hay nada en el medio.

Es posible que la razón por la que murieron los RTX 3090s sea que las opciones del menú no suelen requerir mucha RAM para almacenar los datos. Si la carga de trabajo de renderizado se puede mantener dentro de la L2 en el dado o requiere un acceso mínimo a la memoria, significa que se puede alimentar a las unidades de ejecución tan rápido como esas unidades de ejecución pueden recuperarla. Es más probable que se amplíe una carga de trabajo simple sin cuellos de botella. En un escenario de prueba más complicado (es decir, el juego real), la eficiencia de ejecución de la GPU cae y las velocidades de fotogramas disminuyen en consecuencia. Esto limita la acumulación de calor en el chip.

El hecho de que la inmensa mayoría de las tarjetas RTX 3090 no murieran es una prueba de que la velocidad de fotogramas sin límite de Amazon no fue un problema suficiente para dañar la mayoría de las tarjetas. Sin embargo, mató a un puñado de GPU que tenían defectos de fabricación preexistentes, porque no hacer casi nada lo más rápido posible probablemente generaba más calor que hacer muchas cosas complejas a una velocidad de fotogramas mucho más baja.

Tengo la teoría de que este es un problema mayor para las GPU que para las CPU debido a diferencias fundamentales en su diseño. Una GPU está diseñada para realizar una operación en una amplia gama de núcleos simultáneamente. Una CPU está diseñada para ejecutar código complejo y ramificado lo más rápido posible. Si escribe una aplicación simplista en la CPU, lo que obtendrá es un programa de un solo núcleo y un solo hilo con optimización SSE2, o x87, si realmente quiere ser histórico. Si desea ejecutar ese código al máximo rendimiento, debe optimizarlo para AVX2 o AVX-512. Debe admitir varios núcleos. La implementación ingenua en x86 no se presta a una alta eficiencia de ejecución en un chip moderno de múltiples núcleos. Almacenar el código en L1 o L2 hará que se ejecute más rápidamente, pero sin el soporte de múltiples núcleos, solo estará enfatizando un solo núcleo.

Esto no quiere decir que no se pueda escribir un virus de energía x86 o cometer errores de codificación que aumenten el consumo de energía, pero las GPU parecen ofrecer un camino más rápido hacia el mismo resultado. “Realice esta operación con un mínimo de cuello de botella en todo el chip lo más rápido que pueda” es una forma más fácil de estresar una GPU porque, para empezar, las GPU están diseñadas para ejecutar ese tipo de operación.

Es puramente una teoría de mi parte, pero también explicaría por qué las pruebas de funciones específicas y, a veces, los títulos más antiguos son una buena manera de probar el consumo máximo de energía en las GPU. Pedirle a la tarjeta que haga menos a veces la anima a funcionar más que pedirle que haga más.

Publicaciones relacionadas

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba
Cerrar
Cerrar