En Google Cloud Next, Google presentó sus aceleradores de IA de octava generación: el TPU v8t “Sunfish” para entrenamiento y el TPU v8i “Zebrafish” para inferencia, junto con el nuevo tejido del centro de datos Virgo. Diseñados para la era de la IA agente, estos chips están optimizados para el entrenamiento de modelos con una gran combinación de expertos (MoE) y el servicio de tokens de baja latencia con precios rentables. Si bien comparten la misma plataforma de host y tejido de interconexión, v8t y v8i difieren en memoria, SRAM, topología y especialización de hardware.
Un superpod v8t admite 9600 chips con 2 PB HBM y ofrece 121 EFLOPS de cómputo FP4, casi el triple del rendimiento de la generación anterior de Ironwood. El v8i escala a 1152 chips con 288 GB HBM y 384 MB de SRAM en el chip, lo que ofrece una rentabilidad de inferencia un 80 % mejor que Ironwood. La estructura Virgo interconecta más de 134 000 chips v8t, lo que proporciona un ancho de banda sin bloqueo de 47 Pb/s con un rendimiento por acelerador 4 veces mayor y una latencia un 40 % menor.
Arquitectura fundamental de TPU frente a GPU
Los TPU son ASIC personalizados que se caracterizan por grandes unidades matriciales multiplicadas (MXU), SRAM administrada por software y compilación anticipada. A diferencia de la programación dinámica de núcleos pequeños de la GPU, las TPU presentan un flujo de datos determinista con matrices sistólicas, lo que elimina la fluctuación de la caché y la sobrecarga de programación de deformación para una mayor utilización de FLOPS en cargas de trabajo de matrices densas. Sin embargo, las TPU luchan con formas dinámicas, escasez irregular y redes de gráficos complejas, al tiempo que ofrecen un soporte de ecosistema de software más limitado dominado por JAX y XLA.
La diferencia estructural en el soporte de escasez distingue claramente las TPU y las GPU. NVIDIA Tensor Cores admite de forma nativa la escasez estructurada 2:4 mediante compresión a nivel de instrucción. Por el contrario, las matrices sistólicas de TPU funcionan de forma rígida, lo que hace que el salto cero sea ineficiente sin paradas de tuberías o hardware de descompresión adicional. AWS Trainium2 adopta un término medio con descompresores dispersos dedicados para conservar el rendimiento de la matriz.
Las TPU integran SparseCores para manejar tareas irregulares de recopilación y dispersión para incrustar tablas y enrutamiento MoE. Estos núcleos especializados se destacan en la clasificación, permutación y reorganización de datos, cubriendo cargas de trabajo de recomendación y envío de tokens expertos que los MXU estándar no pueden procesar de manera eficiente.
TPU v8t “Sunfish”: Acelerador de entrenamiento
El chip de entrenamiento v8t equipa 216 GB de memoria HBM3e y 128 MB de SRAM. La precisión nativa del FP4 duplica el rendimiento por ciclo, lo que lleva la computación de un solo chip a 12,6 PFLOPS. Conserva una interconexión toroidal 3D y un ancho de banda ICI mejorado de 19,2 Tb/s, ideal para comunicaciones colectivas basadas en anillo en capacitación a gran escala.
Los SparseCores heredados optimizan la transmisión de datos irregular de todos a todos de MoE. Dos actualizaciones críticas rompen los cuellos de botella a gran escala: TPUDirect RDMA y TPUDirect Storage omiten la CPU del host para permitir el acceso directo a la memoria de la TPU, lo que ofrece un rendimiento de E/S 10 veces más rápido. Además, v8t adopta las CPU Axion basadas en Arm de Google como procesadores host, aislando la fluctuación del host y mejorando la estabilidad del preprocesamiento para el entrenamiento sincronizado de múltiples chips.
TPU v8i “Pez Cebra”: Acelerador de Inferencia
Creado para cargas de trabajo de inferencia limitadas por ancho de banda de memoria, v8i prioriza la generación de tokens de baja latencia. Cuenta con 384 MB de SRAM (el triple que Ironwood) para almacenar en caché el caché KV en el chip y reducir la lectura repetida de HBM. Con dos TensorCores y 288 GB HBM3e, logra un cálculo 10.1 PFLOPS FP4, superponiendo tareas de inferencia de lotes cortos para una mayor utilización sostenida.
Al reemplazar a SparseCores, el motor de aceleración de colectivos (CAE) dedicado reduce la latencia de sincronización en el chip hasta 5 veces, optimizando las frecuentes operaciones colectivas de lotes pequeños. El v8i abandona el toro 3D por la topología Boardfly basada en Dragonfly, lo que reduce los saltos máximos de chip a chip de 16 a 7 y reduce la latencia total de MoE en un 50 %.
Jerarquía de tejidos de Virgo y Júpiter
Virgo sirve como estructura de escalamiento horizontal dentro del centro de datos, adoptando una arquitectura sin bloqueo de dos capas para eliminar la sobresuscripción para el tráfico de IA de este a oeste. Alimentado por interruptores ópticos MEMS, permite el redireccionamiento de fallas a nivel de milisegundos y mantiene un buen rendimiento del 97 % para los superpods v8t. Combinado con Júpiter, la estructura de centros de datos cruzados de larga distancia de Google, el sistema de interconexión en capas admite más de un millón de chips TPU en un único clúster lógico con un total de 1,7 ZFLOPS de cómputo FP4.
Rendimiento, TCO y posición en el mercado
La utilización estable y de alto rendimiento de los modelos FLOP (MFU) otorga a los TPU ventajas de costos convincentes. Con un 40 % de MFU, los costos de capacitación de TPU son un 62 % más bajos que los de NVIDIA GB300. En comparación de hardware, el rendimiento FP4 denso de v8t se sitúa entre GB200 y GB300, mientras que Google domina en clustering a gran escala con un módulo único de 9.600 chips, superando con creces el dominio NVLink de 72 GPU de NVIDIA.
De cara al futuro, Vera Rubin, Rubin Ultra y Kyber de NVIDIA reducirán la brecha de rendimiento de TPU de 2026 a 2027. Las debilidades de TPU incluyen HBM más pequeño por chip, ausencia de escasez de hardware y compatibilidad limitada del ecosistema. No obstante, Google mantiene sus puntos fuertes en la agrupación masiva, la latencia determinista y la rentabilidad para las cargas de trabajo de MoE.
Google está ampliando la infraestructura de GPU de TPU y NVIDIA. Meta planea un acuerdo de adopción de TPU multimillonario a partir de 2027. Como generación de doble chip optimizada para la era agente, TPU v8 asegura la competitividad de Google frente a NVIDIA Grace-Blackwell para la implementación de IA a gran escala.
Beijing Qianxing Jietong Tecnología Co., Ltd.
Sandy Yang/Director de Estrategia Global
WhatsApp/WeChat: +86 13426366826
Correo electrónico: yangyd@qianxingdata.com
Sitio web: www.qianxingdata.com/www.storagesserver.com
Enfoque empresarial:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con marcas líderes a nivel mundial para ofrecer productos confiables y servicios profesionales.
“Uso de la tecnología para construir un mundo inteligente” ¡Su proveedor de servicios de productos TIC de confianza!
Sandy Yang/Director de Estrategia Global
WhatsApp/WeChat: +86 13426366826
Correo electrónico: yangyd@qianxingdata.com
Sitio web: www.qianxingdata.com/www.storagesserver.com
Enfoque empresarial:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con marcas líderes a nivel mundial para ofrecer productos confiables y servicios profesionales.
“Uso de la tecnología para construir un mundo inteligente” ¡Su proveedor de servicios de productos TIC de confianza!



