En Cloud Next 2026, Google levantó el velo sobre la octava generación de sus Unidades de procesamiento tensorial (TPU). Característica especial: ahora viene en dos chips especializados, uno para controlar los modelos y el otro para ejecutarlos. Una estrategia que dice mucho sobre la madurez del hiperescalador en el desarrollo de aceleradores de IA internos.
Google lleva 10 años construyendo su propio procesador acelerador de IA. En 2016, durante Google I/O, Sundar Pichai reveló la existencia de TPU, chips diseñados internamente para acelerar TensorFlow. Ya llevan funcionando desde 2015 en los centros de datos del gigante para impulsar la Búsqueda, el Traductor, las Fotos e incluso Street View.
Desde entonces se han sucedido siete generaciones, cada una más ambiciosa que la anterior. Es en estos TPU donde Google se entrenó y hoy implementa Gemini, su arsenal de modelos internos. La séptima generación, Ironwood, tiene sólo un año. Pero el 8 ya está llegando, prueba de que Google ahora considera estratégica la carrera del silicio con IA al igual que sus modelos.
Hyperscalers, todos los fabricantes de chips.
Por supuesto, Google ya no está solo en este ámbito. AWS ha industrializado Trainium (formación) e Inferentia (inferencia) y ha añadido sus CPU ARM Graviton. Microsoft está impulsando su Maia (AI) y Cobalt (CPU). Meta desarrolla sus MTIA. Alibaba asume su Hanguang. Todos estos actores comparten un enemigo común, o más bien un proveedor esencial, Nvidia, cuya capitalización roza ya los 5 billones de dólares.
Entonces, ¿por qué invertir miles de millones en investigación y desarrollo interno de silicio cuando se puede comprar Nvidia? Porque la ecuación económica cambia radicalmente a hiperescala. En primer lugar, los gigantescos volúmenes internos amortizan en gran medida los costes de desarrollo. Luego, codiseñar el chip con la red, la refrigeración e incluso el modelo permite obtener mejoras espectaculares en la eficiencia energética. Sin embargo, en los centros de datos ahora limitados no por el suministro de chips sino por la corriente disponible, cada vatio cuenta. Finalmente, liberarse parcialmente del impuesto a Nvidia mejora los márgenes. Sin embargo, tenga cuidado: ningún hiperescalador reemplaza completamente a las GPU de Nvidia. El propio Google ofrecerá el futuro Vera Rubin en su nube e incluso está colaborando con Nvidia en torno a la tecnología de red Falcon. Los chips caseros complementan la oferta, no la reemplazan.
Una octava generación… en dos chips
Hasta ahora, cada generación de TPU desempeñaba el papel de una navaja suiza: entrenaba a los modelos gigantes por la noche y los servía a los usuarios durante el día. Pero las necesidades han divergido. Por un lado, entrenar un modelo de frontera requiere una enorme potencia informática bruta. Por otro lado, servir a agentes de IA que dialogan, razonan y llaman continuamente entre sí requiere, sobre todo, una latencia mínima y mucha memoria rápida. Por tanto, Google decidió cortar la pera en dos.
Amin Vahdat, vicepresidente senior y tecnólogo jefe de IA e infraestructura de Google, explica que estos chips llevan dos años en desarrollo, en un momento en el que los agentes ni siquiera estaban en el centro de las conversaciones.
Como se recordará, AWS parece haber tomado el camino opuesto. Durante el último AWS Re:Invent 2025, el hiperescalador optó por poner su chip Trainium3 en todas las salsas y mencionó en gran medida a su sucesor, el Trainium4, sin mencionar nunca un posible sucesor de su chip Inferentia2.
Pequeña pausa léxica: ¿qué es un “pod” en Google?
Antes de entrar en la parte difícil, aclaremos esta palabra que surgirá con frecuencia. En Google Cloud, un vaina denota una supercomputadora unificada compuesta por miles de TPU interconectados por una red interna ultrarrápida (a menudo basada en conmutadores de circuitos ópticos). El truco: desde fuera, esta cápsula se comporta como una sola máquina, con un gigantesco estanque de memoria compartida en el que un modelo gigante puede nadar cómodamente. Cuanto más grande sea el pod, más modelos desproporcionados se podrán entrenar sin tener que dividir artificialmente sus parámetros entre varios servidores independientes. Esta es la firma arquitectónica de Google.
TPU 8t: el bruto para entrenar
El primero de los dos chips, el TPU 8t (la “t” de capacitación); está diseñado para realizar ciclos de entrenamiento colosales. Cada chip tiene 216 GB de HBM a 6,5 TB/s, 128 MB de SRAM y ofrece hasta 12,6 petaFLOPS en FP4. Hasta entonces, las GPU
Los chips Nvidia Rubin funcionan mejor individualmente. Pero Google juega en otro terreno: el del montaje. Una cápsula de TPU de 8t reúne 9.600 fichas para 2 PB de memoria compartida y 121 ExaFLOPS de cómputo. Y gracias al nuevo tejido de red Virgo (anunciado en Google Cloud Next), combinado con los marcos internos JAX y Pathways, Google afirma poder conectarse hasta un millón de 8t TPU en un único clúster lógico distribuido en varios centros de datos.


Otra cifra para recordar: Google apunta a un «buen rendimiento» del 97%, o el porcentaje de tiempo realmente dedicado a capacitación útil una vez que se eliminan las interrupciones, los reinicios de los puntos de control y las ralentizaciones de la red. En la escala de frontera, cada punto cuenta: esto representa literalmente días de informática recuperada. En total, una cápsula de TPU de 8t ofrecería casi 2,8 veces el rendimiento de una cápsula de Ironwood.
TPU 8i: el velocista para la inferencia
La segunda bala, la TPU 8i (derramar inferencia) responde a otra lógica. La inferencia, especialmente cuando se atiende a enjambres de agentes que se llaman entre sí en un bucle, depende menos de la potencia bruta y más del ancho de banda de la memoria y la latencia entre chips. Por lo tanto, Google cambió un poco de computación (10,1 petaFLOPS FP4) por 288 GB de HBM a 8,6 TB/s y 384 MB de SRAM integrada, tres veces más que la generación anterior. Objetivo: mantener la caché KV (la memoria de trabajo del modelo) directamente en el chip para evitar que los núcleos funcionen en el vacío mientras esperan datos.


Google también rediseñó la forma en que los chips se comunican entre sí. Hasta ahora, estaban organizados en un “toro 3D”, una especie de cuadrícula donde la información en ocasiones tenía que dar hasta 16 pasos para pasar de un chip a otro. Con la nueva topología llamada mosca tabladaeste camino máximo se reduce a 7 pasos: casi la mitad de la distancia que recorrer, por lo tanto, respuestas más rápidas. Una gran ventaja de los modelos llamados “Mezcla de Expertos” (MoE), que funcionan como un equipo de especialistas: cada pregunta se envía a unos pocos expertos repartidos en diferentes chips, que deben coordinarse constantemente. Google añade a esto un acelerador dedicado, el Collectives Acceleration Engine (CAE), que divide por cinco los retrasos en los que los chips deben sincronizar sus resultados. Resumen: 80% de rendimiento por dólar ganado en comparación con Ironwood, o casi el doble de usuarios atendidos al mismo costo.


Axion por todos lados, x86 en la puerta
Detalle interesante: por primera vez, los dos TPU están asociados exclusivamente con las CPU host Axion de Google, procesadores ARM internos. No más Xeon o EPYC en servidores TPU. Una elección que se hace eco de la estrategia de AWS, que unió su Trainium 3 con su Graviton a principios de este año. Una vez más, el interés es cooptimizar todo el sistema, desde el acelerador hasta la gestión de la memoria NUMA.
En términos de sobriedad, Google afirma tener hasta el doble de rendimiento por vatio en comparación con Ironwood, gracias en particular a su cuarta generación de refrigeración líquida y a su gestión dinámica de la energía a escala de pod. Un argumento oportuno dado que Microsoft pronostica 1.300 millones de agentes de IA en producción para 2028, lo que equivale a la misma cantidad de necesidades de inferencia continua.
Disponible antes de fin de año.
Los TPU 8t y 8i estarán disponibles a finales de este año, ya sea como instancias de Google Cloud o a través de Hipercomputadora de IALa plataforma integrada de Google que combina computación, redes, almacenamiento y software. Todos los marcos nativos (JAX, MaxText, PyTorch, SGLang, vLLM) son compatibles, con acceso completo posible para los clientes más exigentes.
Al distinguir así entre entrenamiento e inferencia, Google confirma lo que el mercado anticipaba: la era del procesador universal de IA está llegando a su fin. Abran paso a la especialización con la convicción subyacente que comparten todos los hiperescaladores: quien controla el silicio controla la economía de la IA.


____________________________
Lea también:
[
