Características de la arquitectura Radeon HD 4870

Si en el caso de la RV670 (Radeon HD 38x0) se pudiera cuestionar la legitimidad de asignar el siguiente número que denota la generación, ya que esto GPU Aunque difería poco del núcleo de la generación anterior, la R600 (Radeon HD 2900), con la RV770 no surgen dudas: es un producto verdaderamente nuevo, aunque heredó la mayoría de las características de sus predecesoras. La nueva familia se denominó ATI Radeon HD 4800, y se conserva el esquema de nombres de los diferentes modelos de tarjetas gráficas, utilizado por primera vez por ATI en la familia ATI Radeon HD 3800: el primer dígito indica la generación de la arquitectura gráfica, el segundo, la familia, y los dos últimos, el modelo de la tarjeta gráfica específica.
El núcleo RV770 consta de 956 millones de transistores, lo cual es bastante impresionante a primera vista, sin embargo, no es un récord absoluto en la industria; La palma en este ámbito pertenece a Nvidia con su chip GT200, que tiene 1.4 millones de transistores. La primacía puede considerarse dudosa, ya que el competidor de ATI utiliza una tecnología de proceso de 65 nm menos avanzada, lo que, dada la enorme área y la complejidad de dicho núcleo, automáticamente significa una menor cantidad de núcleos en el sustrato y un menor rendimiento, y, en consecuencia, un coste de producción significativamente mayor; sin embargo, este enfoque ha sido una táctica típica de Nvidia en los últimos años. Es poco probable que las tarjetas basadas en GT200 se vuelvan baratas con el tiempo, a diferencia de las nuevas soluciones basadas en RV770 de ATI. Así, la estrategia elegida por ATI Technologies, a primera vista, se justifica plenamente.
Cabe señalar que las frecuencias GPU se redujeron significativamente en comparación con las tarjetas basadas en GPU La generación anterior, RV670, es comprensible dada la complejidad significativamente mayor del nuevo núcleo. Dada la mayor potencia de procesamiento y texturas, esto no debería ser un problema. Otro detalle interesante: el uso de la rápida memoria GDDR4800 en el antiguo modelo ATI Radeon HD 5 permitió alcanzar un alto rendimiento sin ampliar el bus de acceso externo, como hizo ATI el año pasado y Nvidia ahora. Aumentar el ancho del bus de memoria más allá de los 256 bits tradicionales implica una complejidad significativa de la placa de circuito impreso y, en consecuencia, un aumento de precio. Claro que la memoria GDDR5 es más cara que la ampliamente utilizada GDDR3, pero aparentemente esta diferencia se compensa con creces con el diseño más simple de la PCB.
Se ve claramente que la topología del subsistema de acceso a la memoria en su conjunto se ha conservado, aunque ahora no se le puede llamar anillo: casi todos los controladores de memoria están conectados mediante una interfaz bidireccional a otro, sin embargo, el "anillo" en sí no es Ya no está cerrado. La interfaz de acceso a la memoria todavía se encuentra alrededor del perímetro del chip, y junto a ella se encuentran los bloques funcionales más críticos para el ancho de banda:

Al mismo tiempo, apareció un interruptor en el núcleo que conecta unidades que exigen menos ancho de banda: interfaz de bus PCI Express, interfaz CrossFireX, procesador de video UVD2, controladores de pantalla, etc. La eficiencia del uso de los recursos del subsistema de memoria en generaciones anteriores de ATI Radeon HD ya alcanzó el 85% según ATI, y la optimización de la topología RV770 hizo posible llevarla casi al máximo. Junto con la capacidad de utilizar una memoria GDDR5 rápida, esto eliminó la necesidad de que los desarrolladores utilizaran un bus externo con un ancho de más de 256 bits, lo que tuvo un efecto positivo en la simplicidad del diseño de las placas de circuito impreso ATI Radeon HD 4800.
Una parte clave de cualquier núcleo gráfico de arquitectura moderna es el bloque del administrador de tareas, que se encarga de distribuir los recursos disponibles del procesador de tal forma que todas sus partes estén cargadas al máximo y, por tanto, el rendimiento tienda a ser lo más alto posible. .
El bloque del administrador de tareas apareció por primera vez como parte de la familia ATI Radeon X1000, donde podía administrar 512 ramas de código de 16 píxeles cada una. La segunda versión del procesador de distribución de tareas se introdujo como parte de ATI Radeon HD 2000. El nuevo procesador no solo podía procesar más ramas de código, sino también hacerlo de manera más precisa y eficiente: el tamaño mínimo de rama se redujo de 16 a 5 píxeles .

La parte informática del R600 y RV670 constaba de 64 módulos universales, cada uno de los cuales incluía cinco ALU, una unidad de control de flujo y una serie de registros de uso general. Cuatro de las cinco ALU eran dispositivos bastante simples capaces de ejecutar una instrucción FP MAD por reloj, y el cuarto era complejo, capaz de trabajar con instrucciones complejas SIN, COS, LOG, EXP, etc. En esencia, cada módulo informático era un procesador con un proceso de cinco etapas.
En teoría, tal organización permitía hablar de la presencia de 320 actuadores, pero en realidad esto solo era cierto en el caso de una carga completa de los 64 transportadores, lo que en la práctica no siempre estaba garantizado: en tridimensional En aplicaciones, muchas operaciones dependen de los resultados de operaciones anteriores, por lo tanto, no es fácil lograr una operación consistente de la tubería. Esto requiere optimizaciones significativas para una aplicación específica a nivel del controlador Catalyst, pero no siempre es posible acceder al "relleno" de software del juego, al menos antes de su lanzamiento oficial.
Como resultado, en la práctica a menudo resultaba que solo una ALU en cada módulo informático estaba ocupada realizando un trabajo útil, lo que reducía significativamente el potencial de la arquitectura ATI Radeon HD y provocaba un retraso en los juegos en comparación con las soluciones basadas en Nvidia G80/. G92. Estos últimos no sólo tenían unidades de computación más independientes, sino que estas unidades también operaban a frecuencias de reloj más altas. Al crear el RV770, el equipo de desarrollo de ATI resolvió el problema de la posible ineficiencia de la arquitectura superescalar, como dicen, de forma directa, es decir, aumentando el número de módulos informáticos de 64 a 160. Por supuesto, esto aumentó la número de transistores en el núcleo, sin embargo, el uso de una tecnología de proceso de 55 nm permitió mantener su área dentro de límites razonables.
La arquitectura de los módulos en sí no ha sufrido cambios notables y todavía constan de 5 ALU, una unidad de control de flujo y un conjunto de registros de uso general:

Si cree en las declaraciones de ATI, la eficiencia de los módulos informáticos se ha incrementado en un 40%, pero incluso simplemente aumentar su número de 64 a 160 puede hacer de la Radeon HD 4800 una solución competitiva incluso en condiciones que no son muy favorables para esta arquitectura. Y eso no es todo; Como se mencionó anteriormente, los cambios también están presentes a un nivel más global: el nivel de topología central. Manteniendo parcialmente la topología en anillo, se ha optimizado la disposición de los bloques funcionales. Los módulos informáticos RV770 se combinan en 10 núcleos SIMD (anteriormente había 4 de estos núcleos), 16 módulos (80 ALU) cada uno.
El principal cuello de botella de los núcleos gráficos ATI R600 y RV670 fue el subsistema del procesador de texturas.
En primer lugar, solo había 16 (4 bloques grandes), lo que claramente no era suficiente, incluso a pesar de la tendencia a que los efectos especiales matemáticos prevalezcan sobre el uso de texturas complejas de alta resolución, debido al enfoque de los desarrolladores de juegos en múltiples plataforma. En segundo lugar, por cada dos unidades de direccionamiento de texturas solo había una unidad de filtrado, lo que redujo significativamente la efectividad de las unidades de textura al realizar el filtrado de texturas, especialmente el filtrado anisotrópico, que se usa en todas partes hoy en día, y no hay razón para suponer que su uso será abandonado en el futuro.
Al desarrollar el RV770, se tuvieron en cuenta estas deficiencias y el nuevo núcleo recibió nuevos procesadores de textura:

Su diseño se ha rediseñado por completo, y ahora cada TMU contiene 16 unidades de muestreo de texturas FP32, 4 unidades de direccionamiento y 4 unidades de filtrado. Parecería que la eficiencia de muestreo debería disminuir, pero esto se compensa con el doble de ancho de banda del bus que conecta la TMU y las cachés de texturas. ATI logró aumentar la velocidad de filtrado en 2.5 veces para las texturas de 32 bits y en 1.5 veces para las de 64 bits, lo que, en teoría, parece muy positivo y sin duda tendrá un efecto muy positivo en el rendimiento de la nueva. GPU En condiciones reales.
Los procesadores de texturas todavía se combinan en módulos grandes de 4 TMU, y cada uno de estos módulos sirve a uno de los 10 núcleos SIMD. La optimización, expresada en el rechazo de bloques innecesarios, permitió reducir el número de transistores que componen la TMU y, en consecuencia, colocar más de ellos en el chip con un costo relativamente bajo, manteniendo la complejidad y el área del núcleo dentro de límites razonables.
El subsistema de caché es una parte importante del subsistema de textura de GPU y en el RV770 también ha sufrido importantes actualizaciones:

En primer lugar, debemos tener en cuenta el aumento del rendimiento: ahora la velocidad de recuperación de texturas de las cachés de primer nivel es de unos impresionantes 480 GB/s, y las cachés de primer y segundo nivel pueden comunicarse a una velocidad de 384 GB/s. En segundo lugar, cada núcleo SIMD ahora tiene su propia caché de primer nivel, lo que tiene un efecto beneficioso en la eficiencia del almacenamiento de datos. En tercer lugar, los cachés de segundo nivel están coordinados con los controladores de memoria y, finalmente, en cuarto lugar, el RV770 ahora incluye un caché separado para almacenar datos de vértices. Las mejoras no son tan obvias como en el caso de la arquitectura del procesador de texturas, sin embargo, sin duda contribuirán significativamente al aumento del rendimiento de la ATI Radeon HD 4800 en juegos. Es seguro decir que la nueva GPU ATI está completamente libre del principal cuello de botella de la arquitectura ATI Radeon HD y ahora puede competir en igualdad de condiciones con las soluciones de Nvidia donde estas últimas tradicionalmente han sido fuertes, es decir, en operaciones de texturas. Aquí es donde el enfoque de ATI en el diseño de GPU es más evidente: optimización en lugar de expansión directa de la capacidad.
Los procesadores rasterizados, llamados back-ends de renderizado en la terminología de ATI, nunca han sido un cuello de botella dramático en la arquitectura ATI Radeon HD, sin embargo, en el RV770 también se les han realizado mejoras, aunque el número total de estos módulos no ha cambiado: todavía quedan cuatro en el núcleo, lo que nos permite hablar del equivalente a 16 ROP clásicos.
Además de otras innovaciones incluidas en el ATI RV770, cabe destacar las nuevas capacidades del motor de vídeo, en particular, un nuevo controlador de sonido y algunas mejoras de software.
La principal mejora en términos de trabajo con contenido HD es el controlador de sonido Realtek de ocho canales, que admite transmisiones de audio con velocidades de bits de hasta 6.144 Mbps y velocidades de muestreo de hasta 192 KHz en formatos AC3, DTS, Dolby True-HD y DTS-HD. . Las capacidades avanzadas del nuevo núcleo de audio son de gran importancia para quienes planean utilizar la ATI Radeon HD 4000 como parte de un centro multimedia doméstico. Además, por el momento, la ATI Radeon HD 4800 es la única tarjeta gráfica del mundo que tiene soporte nativo para audio HD de ocho canales, con la capacidad de emitirlo a través de HDMI, una ventaja significativa sobre las soluciones de Nvidia de la competencia.

Para conectar la alimentación a la tarjeta de video Radeon HD4870, hay dos conectores de 6 pines en la parte posterior de la tarjeta de video, a diferencia de la Radeon HD4850 más joven, que tiene un solo conector. Se requería un sistema de suministro de energía mejorado para el funcionamiento estable de la tarjeta de video a frecuencias más altas. Por lo tanto, en comparación con la tarjeta de video Radeon HD4850, la Radeon HD4870 tiene una frecuencia de GPU más alta de 125 MHz y es igual a 750 MHz, y la frecuencia efectiva de la memoria de video GDDR5 es de 3600 MHz, que es significativamente mayor que los 1986 MHz en que opera la memoria de video de la tarjeta de video Radeon HD4850. Es cierto que vale la pena hacer una reserva aquí: la frecuencia real de la nueva memoria GDDR5 es de 900 MHz, solo que en un ciclo de reloj transmite no el doble, sino cuatro veces más información en comparación con la memoria "normal" que no es DDR.

Características de ATI Radeon HD 4870
| Nombre | Radeon HD 4870 |
| núcleo | RV770XT |
| Tecnología de proceso (µm) | 55 |
| Transistores (millones) | 956 |
| Frecuencia central | 750 |
| Frecuencia de funcionamiento de la memoria (DDR) | 900 (3600 QDR) |
| Bus y tipo de memoria | GDDR5 de 256 bits |
| Ancho de banda (Gb/s) | 115,2 |
| Unidades de sombreado unificadas | 800 |
| Frecuencia de unidad de sombreado unificada | 750 |
| TMU en transportador | 40 |
| ROP | 16 |
| Modelo sombreado | 4.1 |
| Tasa de llenado (Mtex/s) | 30000 |
| DirectX | 10.1 |
| Capacidad de memoria | 512/1024 |
| Interfaz | PCIe 2.0 |
La tarjeta de video Radeon HD4870 resultó ser, no en palabras, sino de hecho, el competidor más real de la tarjeta de video GeForce GTX 260 de NVIDIA. No hemos visto esto desde hace mucho tiempo, porque los representantes "superiores" de las dos familias anteriores de tarjetas de video de AMD podían competir con los productos NVIDIA solo en palabras, pero en realidad eran demasiado lentos. Obviamente, la nueva unidad de sombreado con un mayor número de procesadores de flujo y una arquitectura modificada resultó ser más potente que la unidad de sombreado de la tarjeta de video GeForce GTX 260. Es cierto que el nuevo producto no llega a la GeForce GTX 280, pero sí. Al mismo tiempo, proporciona una "jugabilidad" cómoda en casi todos los juegos modernos.
Mass Effect





