Gemini 3.5 Flash llega en Google I/O: 76% en Terminal-Bench, $1.50/M

Lo que Google realmente lanzó en I/O 2026 y por qué el tier Flash está haciendo el trabajo portante

El titular en Google I/O 2026 el 19 de mayo no fue que Google lanzó un nuevo modelo de tier Pro — fue que el tier Flash de la próxima generación de Gemini superó al modelo insignia de tier Pro del ciclo anterior en los benchmarks de agentes de programación contra los que el equipo realmente califica. Gemini 3.5 Flash es un modelo de programación agéntica de 1 millón de tokens que registró 76.2% en Terminal-Bench 2.1, 83.6% en MCP Atlas y un Elo de 1656 en GDPval-AA — cada número anunciado por Google que la comunidad de evaluación independiente ha vuelto a ejecutar en los primeros cinco días coincide hasta el decimal. El modelo corre a 289 tokens por segundo, aproximadamente cuatro veces el throughput del tier flash de frontera anterior, y se lanza a $1.50 por millón de tokens de entrada y $9.00 por millón de tokens de salida — aproximadamente 25% más barato que Gemini 3.1 Pro, el modelo al que supera en los benchmarks de programación y agentes.

Las piezas operativamente importantes:

El tier Flash ahora es el tier de frontera de programación, no el tier barato-y-rápido de costo. La lectura histórica de la clase Flash era el modelo pequeño para cargas de trabajo de alto throughput no-frontera. Gemini 3.5 Flash invierte la lectura: la clase Flash es el sustrato de frontera de programación agéntica, el perfil de throughput-por-segundo es la propiedad operativa portante contra la que corre el bucle de programación de larga duración, y el costo por token es la entrada secundaria de adquisición — no la primaria. El equipo que conecta el tier Flash en la ruta del agente de programación asumiendo que es el respaldo barato-y-rápido malinterpreta el sustrato; el equipo que lo conecta como la superficie de ejecución de programación agéntica por defecto con una envolvente de throughput 4x lo lee correctamente.
Terminal-Bench 2.1 al 76.2% es la señal de grado-sustrato para cargas de trabajo de programación de línea-de-comandos. Terminal-Bench es el benchmark publicado más cercano al bucle de ingeniería real contra el que corre el agente de programación — un shell, un sistema de archivos, una tarea multi-paso, un verificador determinista. Una tasa-de-aprobación de 76.2% al tier Flash — históricamente un tier por debajo del insignia Pro por ciclo — significa que la curva-de-costo-por-carga-de-trabajo para la forma del agente de programación acaba de bajar un tier. La lectura de grado-de-adquisición es la carga de trabajo que el equipo ha estado enrutando a un modelo de tier Pro ahora es enrutable a un modelo de tier Flash al 25% menos de costo por token y 4x throughput, no la carga de trabajo todavía enruta al modelo de tier Pro porque la política de enrutamiento por-prompt del equipo se escribió contra el mapa de tiers del ciclo anterior.
El throughput de 289 tokens-por-segundo es la propiedad del sustrato contra la que corre el patrón de worktree-por-agente. El patrón de ocho-worktree-agentes-en-paralelo en el que tanto Cursor 3 como Devin Local se estandarizaron está acotado por throughput a la tasa de generación por agente, no por el costo por token. Una envolvente de throughput 4x a la misma banda de precisión colapsa la cola de latencia por-worktree contra la que corre el patrón de ocho-agentes-paralelos; el equipo que califica la decisión de despacho por-agente contra la superficie de latencia por-agente reformula la matriz de enrutamiento contra la envolvente de throughput, no contra el costo por token.
La señal de evaluación-independiente-al-quinto-día cerró la ventana de diligencia más rápido que cualquier lanzamiento de frontera anterior. La primera ejecución independiente de los benchmarks anunciados por Google aterrizó dentro de cinco días del keynote y coincidió hasta el decimal en cada número re-probado — Terminal-Bench 2.1, MCP Atlas, CharXiv. La ventana de diligencia que históricamente le tomaba a la función de adquisiciones seis semanas cerrar (evaluación independiente, auditoría de tasa de alucinación, re-clasificación de índice de inteligencia) se comprimió a menos de una semana. El reloj del contrato permanente de FY27 arranca más rápido que la cadencia habitual; la función de adquisiciones que pospone la actualización de la matriz de enrutamiento un trimestre contra una asunción de ventana-de-diligencia de seis semanas está dos trimestres tarde en el cambio-de-sustrato que el equipo ya puede sentir dentro del bucle del agente de programación.

La lectura estructural no es Google lanzó un modelo más rápido y más barato. Es que la compresión del sustrato de frontera-de-programación-agéntica de tier-Pro-a-tier-Flash colapsó dos ciclos en uno, la envolvente de throughput 4x reformula la decisión de despacho por-agente del patrón de worktree-por-agente, y la política de enrutamiento de modelo por-prompt contra la que se escribió el plan de FY27 hace seis meses necesita el re-enrutamiento por-clase-de-carga-de-trabajo que el nuevo sustrato de tier Flash hace operativamente barato aterrizar dentro del próximo sprint, no del próximo trimestre.

Lo que la frontera de programación de tier Flash reestructura sobre la matriz de enrutamiento de modelos de FY27

Cuatro cambios concretos que se siguen cuando el tier Flash se convierte en el sustrato de frontera de programación agéntica y la función de adquisiciones tiene la matriz de enrutamiento por-prompt ya redactada contra el mapa de tiers anterior.

La política de enrutamiento de modelo por-prompt bifurca la superficie del agente-de-programación en un espacio Flash-de-throughput y un espacio Pro-de-precisión, con el default volteado contra el ciclo anterior. Hace doce meses, la política de enrutamiento por-prompt para el bucle del agente de programación tenía el tier Pro como default y el tier Flash como escotilla-de-escape del tier de costo. La compresión tier-Flash-como-frontera-de-programación voltea el default: el tier Flash es la superficie de ejecución de programación agéntica por defecto, y el tier Pro es el camino de escalación por-tarea para la clase de carga de trabajo cuya brecha de cobertura del verificador medida contra el tier Flash el equipo no puede respaldar. El artefacto de política-de-enrutamiento en el repo del equipo es el artefacto que necesita la actualización por-ciclo; el equipo que lanza el sustrato sin actualizar la política de enrutamiento lanza el sobrecosto del tier-Pro que el presupuesto de FY27 no aprovisionó.

La decisión de despacho de worktree-por-agente se vuelve acotada-por-throughput, no acotada-por-costo. El patrón de ocho-worktree-agentes-en-paralelo en el que Cursor 3 y Devin Local se estandarizaron es el sustrato contra el que corre la calificación de throughput-de-programación del equipo. La envolvente de throughput 4x al tier Flash colapsa la cola de latencia por-worktree que el patrón de ocho-agentes-paralelos pagaba previamente. La decisión de despacho por-agente se reformula de enrutar al modelo más-barato-por-token cuya brecha de cobertura del verificador sobrevive a enrutar al modelo más-rápido-por-segundo cuya brecha de cobertura del verificador sobrevive — y el modelo más-rápido-por-segundo en los benchmarks de programación agéntica para los próximos dos trimestres es el tier Flash, no el tier Pro. La superficie de throughput del agente-de-programación del equipo califica contra el nuevo tier-default, no contra el anterior.

La envolvente de portabilidad por-proveedor sobre la matriz de enrutamiento de modelos es el ancla del contrato permanente de FY27, no el bloqueo por-proveedor. El mapa de frontera de programación agéntica de cuatro proveedores ahora se lee — Claude Opus 4.8 y Fable 5 / Mythos 5 de Anthropic, GPT-5.6 Sol preview-de-socio de OpenAI, Gemini 3.5 Flash y Gemini 3 Deep Think de Google, y la pista de frontera de pesos-abiertos que DeepSeek V4 ancla a 1/20 del costo por-token. El sustrato es portable entre las cuatro superficies permanentes si la política de enrutamiento por-prompt del equipo se escribe contra la clase de carga de trabajo, no contra el nombre del proveedor. El equipo que ancla el contrato permanente de FY27 con un solo proveedor contra cualquiera de los cuatro paga el riesgo de retraso-de-cadencia por-proveedor que los dos ciclos anteriores expusieron; el equipo que ancla con doble proveedor con la política de enrutamiento por-carga-de-trabajo respalda la opcionalidad que el plan de FY27 necesita contra la cadencia por-proveedor dentro de la que el sustrato está lanzando.

La compresión de la ventana de diligencia de evaluación-independiente-al-quinto-día se convierte en la cadencia-por-defecto de la función de adquisiciones de FY27. La función de adquisiciones que califica el lanzamiento de modelo por-ciclo contra una asunción de ventana-de-diligencia de seis semanas es la función que lanza la matriz de enrutamiento de FY27 dos trimestres tarde contra el cambio-de-sustrato que el equipo de ingeniería ya puede sentir. La nueva cadencia de ventana-de-diligencia contra la que la función de adquisiciones tiene que correr es la ventana de evaluación-independiente de cinco días — la cadencia contra la que corre la revisión-de-código de la política de enrutamiento por-prompt del equipo de ingeniería. El playbook de adquisiciones de FY27 tiene que codificar la cadencia comprimida explícitamente; los equipos que dejan la cadencia implícita pagan el sobrecosto del cambio-de-sustrato por-ciclo que el playbook no aprovisionó.

Dónde el sustrato del tier Flash es señal y dónde es ruido

Cuatro lecturas honestas sobre lo que Gemini 3.5 Flash realmente le dice al comprador en la revisión de diligencia de enrutamiento de modelos de FY27.

Señal: la envolvente de throughput por-carga-de-trabajo es la propiedad operativa portante del sustrato, no el costo por-token. La envolvente de throughput 4x al tier Flash es la propiedad contra la que califica la superficie de latencia por-segundo del patrón de worktree-por-agente; el costo por-token es la señal de la hoja-de-cálculo-de-adquisiciones, no la operativa. El equipo que conecta el sustrato contra la envolvente de throughput lanza la compresión de la cola-de-latencia por-segundo del bucle del agente de programación; el equipo que lo conecta solo contra el costo por-token lanza solo los ahorros del tier de costo sin la compresión de la cola-de-latencia y lee la pérdida del cambio-de-sustrato por-ciclo dentro de un trimestre.

Señal: la evaluación-independiente-al-quinto-día coincidiendo con los números anunciados hasta el decimal es la señal-de-confianza contra la que la función de adquisiciones puede respaldar. La brecha histórica de la función de adquisiciones en los lanzamientos de modelos por-ciclo era la brecha entre el benchmark anunciado y la re-ejecución de evaluación independiente — la brecha contra la que la ventana de diligencia cerraba. La coincidencia-de-evaluación-de-cinco-días-hasta-el-decimal es la señal de confianza contra la que la función de adquisiciones puede comprimir la ventana de diligencia; el equipo que corre contra la nueva cadencia-por-defecto lanza la actualización de la matriz de enrutamiento por-ciclo dentro del ciclo del sustrato, no después de él.

Ruido: la tasa de alucinación de 61% que midió la comunidad de evaluación independiente no es un descalificador por-carga-de-trabajo. La evaluación independiente también midió una tasa de alucinación del 61% en generación de forma-libre — un número alto contra la superficie de generación de forma-libre por-carga-de-trabajo. La lectura honesta es el sustrato no es el objetivo de enrutamiento correcto para el espacio de generación de forma-libre por-carga-de-trabajo, no el sustrato no es el objetivo de enrutamiento correcto para ningún espacio. La superficie de programación agéntica contra la que el sustrato sobresale corre contra verificadores deterministas (tasa de aprobación de pruebas, conformidad de esquema, coincidencia de salida de comando) — la superficie contra la que la cobertura del verificador cierra la cola de alucinación. El equipo que lee el número de alucinación como un descalificador a-nivel-de-sustrato malinterpreta la pregunta de enrutamiento por-carga-de-trabajo; el equipo que lo lee como una entrada de enrutamiento por-carga-de-trabajo lanza la política de enrutamiento por-prompt contra las clases de carga de trabajo de fortaleza-de-programación del sustrato.

Ruido: el rango #8 de Intelligence-Index que Google no reveló no es la entrada de decisión de adquisición. La comunidad de evaluación independiente clasificó a Gemini 3.5 Flash en el #8 en Intelligence Index, detrás de GPT-5.5 y Claude Opus 4.7. El Intelligence Index es un agregado entre-cargas-de-trabajo; la decisión de adquisición contra la que corre el plan de FY27 es la decisión de enrutamiento por-clase-de-carga-de-trabajo, no el rango agregado entre-cargas-de-trabajo. El sustrato es #1 en Terminal-Bench 2.1 al tier Flash; la decisión de enrutamiento por-carga-de-trabajo contra la superficie del agente-de-programación califica contra Terminal-Bench, no contra Intelligence Index. El equipo que adquiere contra el índice agregado lanza la decisión de enrutamiento incorrecta contra la superficie por-carga-de-trabajo; el equipo que adquiere contra el benchmark por-carga-de-trabajo lanza la decisión de enrutamiento contra la clase de carga de trabajo de fortaleza-de-programación del sustrato.

Lo que el equipo de ingeniería debería hacer en el próximo sprint

Cuatro acciones concretas que cierran la brecha entre el sustrato de frontera-de-programación de tier Flash y la matriz de enrutamiento de modelos de FY27 que el sustrato requiere.

Actualizar la política de enrutamiento por-prompt en el bucle del agente-de-programación contra el flip de tier-Flash-como-default dentro del próximo sprint. El artefacto de política-de-enrutamiento en el repo del equipo es el artefacto portante dentro del cual aterriza el cambio-de-sustrato por-ciclo. Actualizar la ruta-por-defecto contra la clase de carga de trabajo de programación agéntica del tier Pro al tier Flash, escribir el camino de escalación por-clase-de-carga-de-trabajo contra el tier Pro para las cargas de trabajo de brecha-de-cobertura-del-verificador, y lanzar la política con la cadencia de revisión por-ciclo contra la que el siguiente ciclo-de-sustrato re-valida. El equipo que lanza la actualización de política dentro del próximo sprint toma la traducción de costo-y-throughput por-ciclo contra el sustrato; el equipo que pospone lanza la brecha por-ciclo a la revisión de adquisiciones de FY28.

Re-calificar la decisión de despacho por-agente del patrón de ocho-worktree-agentes-en-paralelo contra la nueva envolvente de throughput. La decisión de despacho por-agente contra la que corre el patrón de worktree-por-agente es el artefacto que la envolvente de throughput por-ciclo reformula. Re-calificar la superficie de latencia por-agente contra la envolvente de throughput 4x del tier Flash, reformular el límite-de-concurrencia por-worktree contra la tasa de generación por-agente que el nuevo sustrato proporciona, y lanzar el artefacto de decisión-de-despacho contra el que corre la calificación de throughput-de-programación del equipo. El equipo que re-califica el patrón este sprint traduce la envolvente de throughput a la compresión de cola-de-latencia del ciclo-por-pipeline-de-agente; el equipo que pospone lanza el sobrecosto de latencia por-ciclo que el mapa de tiers anterior no absorbió.

Ejecutar un shootout por-clase-de-carga-de-trabajo en el tier Flash contra el tier Pro a través de las tres clases de carga de trabajo de programación principales del equipo dentro de dos semanas. El artefacto de grado-de-decisión-de-adquisición que el plan de FY27 necesita es el shootout por-clase-de-carga-de-trabajo — para cada una de las tres clases de carga de trabajo de programación principales del equipo (refactorización multi-archivo con contratos de prueba explícitos, actualización de dependencias contra el mapa de pin-de-versión-explícito, extracción estructurada contra el verificador determinista), la tasa-de-aprobación por-clase-de-carga-de-trabajo, el tiempo-hasta-finalización por-clase-de-carga-de-trabajo, el costo-por-token por-clase-de-carga-de-trabajo, y la brecha-de-cobertura-del-verificador por-clase-de-carga-de-trabajo contra el tier Flash comparado con el tier Pro. El shootout es el artefacto contra el que califica la actualización de política de enrutamiento por-prompt; el equipo que ejecuta el shootout este sprint lanza la actualización de la matriz-de-enrutamiento contra la señal por-clase-de-carga-de-trabajo, no contra el rango agregado entre-cargas-de-trabajo.

Escribir la envolvente de portabilidad por-proveedor sobre la política de enrutamiento contra el mapa de frontera de cuatro proveedores dentro de la negociación del contrato permanente de FY27. El ancla del contrato permanente contra la que califica la superficie del cambio-de-sustrato por-ciclo es la envolvente de portabilidad por-proveedor — el presupuesto de retraso-de-cadencia por-proveedor que el equipo tolerará para mantener la política de enrutamiento por-carga-de-trabajo portable entre las cuatro superficies de proveedor. Escribir la envolvente contra el mapa de frontera de cuatro proveedores (Anthropic, OpenAI, Google, la pista de pesos-abiertos), el límite-de-ciclo-de-cadencia por-proveedor contra el cambio-de-sustrato por-ciclo que el equipo ya ha medido contra dos ciclos anteriores, y el presupuesto de cambio-de-sustrato por trimestre que el contrato permanente respalda contra el riesgo de retraso-de-cadencia por-proveedor. El equipo que escribe la envolvente explícitamente en la negociación de FY27 compra la portabilidad por-proveedor que el cambio-de-sustrato por-ciclo hace operativamente barato; el equipo que no escribe la envolvente explícitamente paga el costo de cambio-de-sustrato por-ciclo la primera vez que uno de los cuatro proveedores se retrasa un trimestre de cadencia.

El trabajo de juicio-senior que el cambio-de-sustrato por-ciclo hace operativamente barato pero no reemplaza

El sustrato de frontera-de-programación de tier Flash comprime el costo de correr la política de enrutamiento por-prompt contra el mapa de tiers del ciclo anterior, pagar la cola de latencia por-segundo que la envolvente de throughput anterior no absorbió, y calificar el cambio-de-sustrato por-ciclo en la cadencia de ventana-de-diligencia de seis semanas contra la que se escribió el playbook de adquisiciones. No comprime el juicio-senior de decidir qué clases de carga de trabajo tienen forma-de-tier-Flash y cuáles tienen forma-de-tier-Pro, escribir el verificador por-clase-de-carga-de-trabajo contra el que califica la política de enrutamiento por-prompt, ser dueño de la envolvente de portabilidad por-proveedor que el contrato permanente de FY27 respalda, y ejecutar la revisión-de-código del cambio-de-sustrato por-ciclo contra la política de enrutamiento por-prompt del equipo. Los equipos que confunden el costo por-token abaratado con el juicio abaratado son los equipos que enrutan la superficie de generación de forma-libre por-carga-de-trabajo contra el sustrato cuya tasa de alucinación la brecha-de-cobertura del verificador no cierra, y leen el post-mortem de fiabilidad-de-producción por-ciclo sobre la brecha de la política-de-enrutamiento que el shootout por-clase-de-carga-de-trabajo habría expuesto. Los equipos que mantienen el juicio-senior en el centro de la decisión de política-de-enrutamiento por-prompt son los equipos que traducen el cambio-de-sustrato por-ciclo a la superficie de throughput por-semana que el mapa de tiers anterior no podía producir. El sustrato es el apalancamiento; el juicio-senior es el muro portante.

La pregunta de enrutamiento de modelo ya no es cuál modelo es el insignia del ciclo; es para qué clases de carga de trabajo el sustrato del tier Flash es la ruta-por-defecto, para qué clases de carga de trabajo el sustrato del tier Pro es el camino-de-escalación, qué envolvente de portabilidad por-proveedor respalda el contrato permanente de FY27 contra el mapa de frontera de cuatro proveedores, y contra qué cadencia de cambio-de-sustrato por-ciclo califica la política de enrutamiento por-prompt. Los equipos que hacen la pregunta correcta este sprint traducen el cambio-de-sustrato por-ciclo a la superficie de throughput por-semana; los equipos que hacen la incorrecta lanzan la brecha por-ciclo a la revisión de adquisiciones de FY28.

En SONNET CODE ejecutamos la práctica de Desarrollo de IA contra el artefacto de política de enrutamiento de modelo por-prompt — shootouts por-clase-de-carga-de-trabajo contra el mapa de frontera de cuatro proveedores, envolventes de portabilidad por-proveedor sobre el contrato permanente de FY27, y revisiones-de-código de cambio-de-sustrato por-ciclo contra el bucle del agente-de-programación del equipo. Si la política de enrutamiento por-prompt de tu equipo todavía está escrita contra el mapa de tiers del ciclo anterior, agenda una llamada — te llevaremos a través de la actualización de matriz-de-enrutamiento por-clase-de-carga-de-trabajo que lanzamos dentro de un sprint.