Microsoft lanza 7 modelos MAI: máquina de escalada hacia la frontera

Lo que Microsoft realmente lanzó el 8 de junio y por qué el marco importa más que los modelos

El 8 de junio de 2026 Microsoft AI anunció una familia de siete modelos propios — MAI-Thinking-1, MAI-Code-1-Flash, MAI-Image-2.5, MAI-Image-2.5-Flash, MAI-Transcribe-1.5, MAI-Voice-2 y MAI-Voice-2-Flash — bajo un marco estratégico que Mustafa Suleyman llamó construir una máquina de escalada: una organización que mejora ciclo tras ciclo mientras aplica más cómputo, mejores datos y evaluación más aguda. La lectura pública del lanzamiento es Microsoft tiene una línea de productos de IA; la lectura operativamente importante es que tras más de trece mil millones de dólares invertidos en OpenAI desde 2019, Microsoft le está diciendo al mercado que planea construir inteligencia de frontera sobre su propio silicio, sus propios datos y su propio bucle de evaluación — con la relación con OpenAI convirtiéndose en uno de varios sustratos que enrutan la carga, no el sustrato que la determina.

Las piezas operativamente importantes:

MAI-Thinking-1 fue preferido sobre Claude Sonnet 4.6 en evaluaciones ciegas. El modelo de razonamiento insignia de Microsoft — de tamaño medio, entrenado desde cero con datos limpios sin destilación de terceros — iguala a los modelos líderes en benchmarks de ingeniería de software y se lee como grado-de-adquisición contra el espacio de razonamiento de tier medio. El equipo cuya matriz de enrutamiento de FY27 tiene un espacio de razonamiento de tier medio ocupado por Claude Sonnet 4.6 tiene un nuevo candidato que el shootout tiene que calificar.
MAI-Code-1-Flash es un modelo de programación de 5 mil millones de parámetros activos con precio comparable a Haiku pero más barato. Se lanza integrado en GitHub Copilot, VS Code y el stack más amplio de Microsoft. La superficie de throughput-de-agente-de-programación en el tier de costo acaba de sumar un sustrato de primera-parte contra el que puede enrutar el bucle de agente-de-programación integrado con Microsoft sin cambiar la cadena de herramientas.
MAI-Transcribe-1.5 reclama precisión SOTA a 5x la velocidad de los modelos de transcripción competidores, en 43 idiomas. MAI-Voice-2 cubre generación de voz natural en 15 idiomas con adaptación de voz desde muestras cortas. La superficie voz-de-entrada / voz-de-salida en el agente de soporte-al-cliente-y-ventas del equipo acaba de sumar un sustrato contra el que el plan de adquisiciones de FY27 tiene que calificar contra Deepgram, ElevenLabs y la pista derivada de Whisper.
El marco de máquina de escalada es la señal portante, no el conteo de siete modelos. Microsoft le está diciendo al mercado que su organización de IA ahora está estructurada como un ciclo de mejora continua contra cómputo, datos y evaluación, no como una cadencia de un-solo-lanzamiento-insignia. La función de adquisiciones de FY27 que califica contra cadencia de lanzamiento-por-ciclo está calificando contra el artefacto incorrecto; el artefacto a calificar es el delta trimestral de escalada sobre los benchmarks por-clase-de-carga-de-trabajo que le importan al equipo.

La lectura estructural no es Microsoft lanzó siete modelos. Es que el sustrato del lado de Microsoft para las superficies de agente-de-programación, agente-de-razonamiento, transcripción y generación-de-voz acaba de convertirse en primera-parte en el punto de integración de Copilot y Azure, la dependencia del sustrato OpenAI en el stack de FY27 se diluye de el sustrato que determina el stack a uno de varios sustratos contra los que la política de enrutamiento califica, y el marco de cadencia de escalada le dice a la función de adquisiciones que califique contra tasa de mejora por-trimestre, no rango de insignia por-ciclo.

Lo que el lanzamiento MAI reestructura para la matriz de enrutamiento de FY27

La superficie del agente-de-programación integrado con Copilot ahora tiene un default de primera-parte de Microsoft. Hace doce meses la superficie del agente-de-programación dentro de GitHub Copilot y VS Code enrutaba contra sustratos OpenAI clase-GPT-4 y de la serie OpenAI-o por defecto. MAI-Code-1-Flash voltea el default en el tier de costo: la clase de carga de trabajo barata-y-rápida del agente-de-programación ahora tiene un sustrato de primera-parte de Microsoft contra el que el bucle de Copilot puede enrutar sin un salto entre proveedores, con precio por debajo de Haiku. El equipo cuya política de enrutamiento por-carga-de-trabajo tiene Haiku para el espacio de programación del tier de costo es candidato para shootout contra MAI-Code-1-Flash en el mismo espacio.

El espacio de razonamiento de tier medio en la matriz de enrutamiento suma un cuarto candidato serio. El espacio de razonamiento de frontera ha sido una carrera a tres bandas entre Claude Opus/Sonnet, OpenAI GPT-5.5/5.6 Sol y Google Gemini 3 Deep Think. La preferencia de MAI-Thinking-1 sobre Sonnet 4.6 en evaluación-ciega lo pone en el shootout en el espacio de razonamiento de tier medio, particularmente para cargas de trabajo que necesitan permanecer dentro del límite de confianza de Microsoft (datos empresariales en Azure, identidad con alcance de Copilot, retención dentro del tenant). La matriz de enrutamiento de FY27 que tiene Sonnet 4.6 para razonamiento de tier medio tiene que agregar MAI-Thinking-1 para razonamiento de tier medio dentro del límite de confianza de Microsoft como alternativa por-espacio.

La superficie de transcripción-y-voz entra en la conversación de enrutamiento por-carga-de-trabajo por primera vez. Históricamente los sustratos de voz-de-entrada / voz-de-salida se adquirían por separado del stack LLM — Deepgram o Whisper del lado de entrada, ElevenLabs o Cartesia del lado de salida. MAI-Transcribe-1.5 y MAI-Voice-2 colapsan la superficie de adquisición si el equipo ejecuta la mayoría de sus cargas de voz dentro del límite de confianza de Microsoft. La matriz de adquisiciones de FY27 que tiene voz como línea fuera-de-banda obtiene un candidato serio de sustrato de voz integrado de primera-parte contra el que el equipo anclado en Azure-y-Copilot tiene que calificar.

La relación Microsoft-OpenAI se reformula de default de un-solo-proveedor a entrada de enrutamiento por-carga-de-trabajo. La lectura del anuncio no es Microsoft está dejando a OpenAI; es Microsoft está diversificando el stack de sustratos bajo la superficie de integración de Copilot y Azure, y el sustrato OpenAI es una entrada de la política de enrutamiento, no el sustrato contra el que se escribe la política de enrutamiento. La negociación del contrato permanente de FY27 que ancla el gasto en IA del lado de Microsoft en OpenAI-como-el-default está negociando contra un Microsoft que enrutará la carga al sustrato más-barato-por-tarea-exitosa dentro de su límite de confianza — a menudo MAI de primera-parte ahora, a veces OpenAI, a veces Anthropic-vía-Azure.

Dónde el lanzamiento MAI es señal y dónde es ruido

Señal: MAI-Code-1-Flash dentro de Copilot es el default del lado de Microsoft contra el que la función de adquisiciones puede respaldar. El sustrato se lanza integrado. La política de enrutamiento no tiene que re-conectar la cadena de herramientas — el shootout es costo-y-precisión por-carga-de-trabajo, y la migración es una actualización de política de enrutamiento, no un levantamiento de infraestructura.

Señal: el marco de escalada es una entrada de cadencia de adquisiciones, no un eslogan de marketing. Microsoft le está diciendo al comprador de FY27 que el sustrato contra el que respalda el contrato permanente mejorará en una cadencia trimestral de escalada, no en una cadencia de una-vez-por-ciclo de lanzamiento-insignia. El contrato de FY27 que ancla en el benchmark de hoy califica contra el artefacto incorrecto; el artefacto a calificar es el compromiso trimestral-de-delta que el proveedor escribe en el SLA del contrato permanente.

Ruido: siete modelos no son siete decisiones de adquisición. Dos — MAI-Code-1-Flash y MAI-Thinking-1 — importan para la matriz de enrutamiento de agente-de-programación-y-agente-de-razonamiento. Dos — MAI-Transcribe-1.5 y MAI-Voice-2 — importan para la superficie de voz-de-entrada / voz-de-salida si el equipo ejecuta una carga anclada-en-voz. El par de generación-de-imagen es una superficie de adquisición más pequeña para la mayoría de los compradores de servicios de ingeniería, y las variantes Flash son alternativas de tier de costo a los modelos base. La función de adquisiciones que califica siete modelos está calificando contra la unidad incorrecta; la unidad es el espacio por-carga-de-trabajo al que el sustrato mapea.

Ruido: Microsoft está dejando a OpenAI no es el marco correcto. El sustrato OpenAI permanece en la matriz de enrutamiento en las clases de carga de trabajo donde GPT-5.5, GPT-5.6 Sol y Codex Cloud son los líderes en costo-por-tarea-exitosa. El marco correcto es Microsoft está ejecutando una política de enrutamiento por-carga-de-trabajo bajo la superficie de integración de Copilot y Azure, con MAI como la opción de primera-parte para las clases de carga de trabajo donde gana el shootout de costo-y-precisión por-carga-de-trabajo, y OpenAI como el sustrato enrutado para las clases de carga de trabajo donde gana.

Lo que el equipo de ingeniería debería hacer en el próximo sprint

Ejecutar el shootout por-carga-de-trabajo con MAI-Code-1-Flash contra el sustrato actual de agente-de-programación del tier de costo. Para la clase de carga barata-y-rápida del agente-de-programación del equipo (refactorización estructurada contra contratos de prueba explícitos, actualización de dependencias contra pins de versión explícitos, limpieza de docstrings-y-comentarios), medir tasa-de-aprobación por-clase, tiempo-hasta-finalización por-clase, costo-por-token por-clase y brecha-de-cobertura-del-verificador por-clase contra MAI-Code-1-Flash dentro de la integración de Copilot. La actualización de política-de-enrutamiento aterriza contra la salida del shootout, no contra el benchmark de marketing.

Calificar MAI-Thinking-1 contra Sonnet 4.6 en la clase de carga de razonamiento dentro del límite de confianza de Microsoft. Si el equipo ejecuta una carga que necesita permanecer dentro del límite de confianza de Azure (datos regulados, alcance de identidad dentro del tenant, retención por-tenant), ejecutar el shootout en el espacio de razonamiento de tier medio y calificar contra la envolvente de cumplimiento del límite de confianza, no solo contra el delta de precisión. El artefacto de política-de-enrutamiento para la clase de carga anclada en Microsoft suma MAI-Thinking-1 como alternativa por-espacio.

Escribir el SLA de delta trimestral de escalada en el contrato permanente del lado de Microsoft de FY27. El marco de escalada es el apalancamiento de adquisiciones — el SLA del contrato permanente debería codificar un compromiso de mejora por-trimestre sobre los benchmarks por-clase-de-carga-de-trabajo contra los que realmente califica el equipo, no un compromiso por-lanzamiento-insignia sobre el índice agregado. El comprador que escribe el delta en el SLA obtiene la mejora del sustrato en la cadencia del equipo; el comprador que acepta el contrato estándar la obtiene en la cadencia del proveedor.

Actualizar la política de enrutamiento del lado de Microsoft para calificar por-carga-de-trabajo contra MAI, no por-proveedor contra Copilot. El artefacto de política-de-enrutamiento en el repo del equipo es el artefacto donde aterriza el cambio de sustrato. Actualizar la decisión de enrutamiento por-carga-de-trabajo para calificar MAI contra OpenAI en cada espacio que cubrió el shootout, y lanzar la envolvente de portabilidad por-proveedor sobre las cargas ancladas en Copilot-y-Azure dentro del sprint. La superficie de throughput-de-programación del lado de Microsoft del equipo mejora contra el mismo sustrato de integración — el cambio está en la política de enrutamiento, no en la cadena de herramientas.

Lo que MAI abarata pero no reemplaza

MAI comprime el costo por-token del tier de costo de la superficie del agente-de-programación integrado con Copilot, el espacio de razonamiento de tier medio bajo el límite de confianza de Microsoft, y la superficie de voz-de-entrada / voz-de-salida si el equipo ejecuta una carga anclada-en-voz. No comprime el juicio-senior de decidir qué clases de carga de trabajo tienen forma-de-tier-MAI, escribir el verificador contra el que califica la política de enrutamiento por-carga-de-trabajo, ser dueño de la envolvente de límite-de-confianza sobre las cargas ancladas en Microsoft, y ejecutar la revisión de delta-de-escalada trimestral contra la política de enrutamiento del equipo. Los equipos que confunden el costo por-token abaratado con el juicio abaratado migran las clases de carga incorrectas al sustrato MAI cuya brecha de cobertura del verificador por-carga-de-trabajo no han ejecutado, y leen el post-mortem de fiabilidad-de-producción por-ciclo sobre la brecha de la política-de-enrutamiento que el shootout habría expuesto. Los equipos que mantienen el juicio-senior en el centro de la decisión de enrutamiento por-carga-de-trabajo traducen la diversificación de sustrato del lado de Microsoft a mejoras trimestrales de costo-y-throughput que el tier de un-solo-proveedor OpenAI no podía producir.

La pregunta del lado de adquisiciones ya no es Microsoft está dejando a OpenAI; es para qué clases de carga de trabajo el sustrato MAI es la ruta-por-defecto bajo la superficie de integración de Copilot y Azure, para qué clases de carga de trabajo el sustrato OpenAI permanece como la ruta-por-defecto, y contra qué SLA de delta-de-escalada trimestral respalda el contrato permanente del lado de Microsoft de FY27.

En SONNET CODE ejecutamos la práctica de Desarrollo de IA contra el artefacto de política de enrutamiento de modelo por-prompt — shootouts por-clase-de-carga-de-trabajo contra el mapa de frontera multi-proveedor, envolventes de límite-de-confianza sobre las cargas ancladas en Microsoft-y-Azure, y SLAs de delta-de-escalada trimestral sobre el contrato permanente. Si la política de enrutamiento de Copilot-y-Azure de tu equipo todavía está escrita contra OpenAI-como-el-default sin un shootout por-carga-de-trabajo contra MAI, agenda una llamada — te llevaremos a través de la actualización de matriz-de-enrutamiento que lanzamos dentro de un sprint.