Google TPU 8ª gen: dos chips para la era agentica

Google acaba de separar entrenamiento e inferencia en dos chips distintos — y eso cambia todo

Google ha lanzado la octava generación de sus Tensor Processing Units (TPUs) con una decisión que ningún fabricante de chips había tomado antes a esta escala: dos chips completamente distintos para dos tareas completamente distintas. El TPU 8t está diseñado exclusivamente para entrenar modelos de IA a escala masiva; el TPU 8i, para servir inferencias a baja latencia en sistemas agenticos. Para un founder que usa o planea usar Google Cloud para construir productos con IA, esta decisión tiene implicaciones directas en costo, velocidad y acceso a infraestructura de clase mundial.

¿Qué son el TPU 8t y el TPU 8i, y por qué Google los separó?

Durante años, la industria asumió que el mismo chip podía hacer todo: entrenar un modelo durante semanas y luego servirlo en producción en milisegundos. La octava generación de TPUs rompe esa premisa con una lógica clara: las necesidades de ambas tareas son tan distintas que un solo diseño siempre implica compromisos.

El TPU 8t está optimizado para entrenamiento a gran escala. Maximiza el rendimiento en operaciones de coma flotante sostenidas durante horas o días, necesarias para preentrenar modelos densos o de mezcla de expertos (MoE). El TPU 8i, en cambio, está diseñado para inferencia de alta velocidad con baja latencia — el tipo de operación que ocurre decenas de miles de veces por segundo cuando un agente de IA procesa peticiones de usuarios reales.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

Ambos chips son alojados por primera vez en servidores con procesadores Axion, la propia arquitectura ARM de Google, lo que elimina dependencias externas y permite co-diseño total entre CPU, TPU y red interna.

¿Qué es la 'era agentica' y por qué requiere hardware nuevo?

El término agentic era que usa Google no es marketing vacío — describe un cambio real en cómo se despliega la IA. Hasta hace dos años, la mayoría de los sistemas de IA en producción respondían preguntas puntuales: una consulta entra, una respuesta sale. Los sistemas agenticos son distintos: múltiples modelos colaboran, se llaman entre sí, razonan en pasos iterativos y toman decisiones autónomas.

Ese modelo de trabajo crea un problema de infraestructura nuevo. La latencia acumulada entre pasos destruye la experiencia del usuario. Un agente que tarda 800 ms en cada paso, con 10 pasos por tarea, entrega resultados en 8 segundos — demasiado lento para uso comercial. El TPU 8i está diseñado específicamente para comprimir esa latencia por paso hasta niveles que hagan viable la orquestación de agentes a escala.

La magnitud de la apuesta de Google queda clara en los números: la empresa proyecta desplegar aproximadamente 36.000 racks TPU de séptima generación en 2026, con más de 10.000 conmutadores de circuitos ópticos para sostener el tejido de red. La octava generación escala sobre esa base.

Contexto competitivo: ¿cómo se posiciona Google frente a NVIDIA y AWS?

La carrera por la infraestructura de IA está más reñida que nunca. NVIDIA domina el mercado de GPUs con la arquitectura Blackwell (H200, B200) y sigue siendo la opción predeterminada para la mayoría de startups que entrenan modelos propios. AWS compite con sus chips Trainium (entrenamiento) e Inferentia (inferencia) — curiosamente, también con arquitecturas separadas. Microsoft avanza con su chip Maia para Azure.

Lo que diferencia a Google en este momento es la escala de adopción de sus TPUs por parte de terceros. Anthropic, uno de los laboratorios de IA más influyentes, acaba de firmar un acuerdo para obtener varios gigavatios de capacidad TPU de Google a partir de 2027 — un movimiento que valida la infraestructura de Google ante el mercado y que demuestra que los TPUs ya no son solo para uso interno de Gemini.

El contexto generacional también importa: el TPU v7 (Ironwood), lanzado a finales de 2025, ofrece hasta 4.614 teraFLOPS en FP8 por chip y 192 GiB de HBM, superando ligeramente al NVIDIA B200 en ese benchmark. La octava generación construye sobre esa base.

¿Qué significa esto para tu startup?

Seamos directos: si tu startup no está entrenando sus propios modelos desde cero, el impacto inmediato del TPU 8t es indirecto — lo sentirás cuando los modelos de Gemini y de terceros entrenados sobre estos chips lleguen a las APIs que ya usas. Pero si estás construyendo sobre Google Cloud o evaluando infraestructura para escalar un producto con IA, hay tres implicaciones concretas:

Inferencia más barata para productos agenticos: El TPU 8i reduce el costo por token en escenarios de alta frecuencia. Si tu producto llama a un LLM decenas de miles de veces al día, la eficiencia del hardware de inferencia impacta directamente en tu margen.
Ecosistema de frameworks abiertos: Ambos chips soportan JAX, PyTorch y otros frameworks populares. Si ya tienes código en PyTorch, la migración a TPUs tiene menos fricción que en generaciones anteriores.
Acceso anticipado como ventaja competitiva: Google Cloud abrió una lista de interés para acceso al hardware de octava generación (cloud.google.com/resources/tpu-interest). Estar entre los primeros en acceder a nueva infraestructura durante beta privada puede suponer meses de ventaja frente a competidores que esperen al lanzamiento general.

Acciones concretas para founders tech

No tienes que ser DeepMind para sacar partido de este movimiento. Aquí tienes pasos accionables según el momento de tu startup:

Si estás en fase de producto: Audita qué porcentaje de tu costo de infraestructura viene de llamadas a APIs de LLM. Si supera el 20% de tu COGS, tienes un caso de negocio para explorar el acceso directo a TPUs vía Google Cloud Vertex AI en lugar de APIs intermediadas.
Si estás evaluando infraestructura cloud: La combinación Axion + TPU 8i es la propuesta más coherente de Google para cargas de inferencia agentica. Compara benchmark de latencia en tu caso de uso específico — no el marketing de los fabricantes.
Si estás construyendo un agente multi-paso: La latencia por paso es tu enemigo principal. Diseña tu arquitectura de agentes desde el inicio considerando cuántas llamadas de modelo necesitas por tarea. El hardware ayuda, pero la arquitectura del sistema multiplica o destruye ese ahorro.
Apúntate a la lista de interés: El acceso anticipado a infraestructura de última generación suele ser gratuito o a precio de investigación durante beta. Es una de las pocas ventanas donde una startup compite en igualdad con grandes empresas.

El acuerdo Broadcom y lo que revela sobre el futuro del hardware de IA

Un dato que pasa desapercibido pero que importa: Broadcom ha asegurado un contrato con Google hasta 2031 para diseñar y fabricar las próximas generaciones de TPUs. La octava generación se fabricará en el proceso de 3 nanómetros de TSMC. Esto tiene dos lecturas para el ecosistema startup:

Primero, la hoja de ruta de los TPUs es ahora más predecible. Un contrato a 5 años con Broadcom y TSMC significa que Google no va a pivotar de hardware en el corto plazo — si construyes sobre TPUs hoy, la plataforma tendrá continuidad. Segundo, la concentración de fabricación avanzada en TSMC sigue siendo el cuello de botella real de toda la industria de IA. Cuando la escasez de wafers golpee — y lo hará — afectará a Google, NVIDIA y AWS por igual.

Disponibilidad y próximos pasos

La octava generación de TPUs estará disponible para usuarios en Google Cloud a finales de 2026. Mientras tanto, Google ha habilitado una página oficial de registro de interés para acceso anticipado. Los chips de séptima generación (Ironwood / TPU v7) ya están disponibles en Google Cloud con configuraciones de hasta 9.216 chips por pod.

Para startups en España y LATAM, el acceso a TPUs de Google Cloud está disponible en múltiples regiones. La documentación técnica de Google Cloud especifica que las instancias TPU v7 incluyen 224 vCPUs y 960 GB de RAM por cada 4 chips — suficiente para cargas de trabajo de inferencia en producción sin necesidad de clusters masivos.