El mercado de etiquetado de datos para IA supera los $2.3B mientras Surge AI rebasa los $1B de ARR

Qué dicen las cifras del mercado de junio de 2026 y la inversión en la combinación de cargas de trabajo que llega con ellas

El mercado de etiquetado de datos para IA y de anotación RLHF superó discretamente los $2.3 mil millones en 2026, con un crecimiento anual de aproximadamente 23%, y la conversación del lado de la adquisición no se ha puesto al día con lo que ese gasto está comprando en realidad. Surge AI, una plataforma de RLHF gestionado bootstrapped, rebasó los $1B de ARR operando aproximadamente 50,000 contratistas expertos 'Surger' como socio de referencia nombrado de RLHF de Anthropic para Claude, con OpenAI y Meta también en la lista de clientes. Scale AI se erige como la referencia empresarial en anotación multimodal —imagen, video, LiDAR 3D, texto, audio—, recolección de datos RLHF y generación de datos sintéticos. El crecimiento del tamaño del mercado es la cifra titular; por debajo de ella hay una inversión en la combinación de cargas de trabajo que el plan de alineación de modelos para FY27 tiene que leer directamente.

Las piezas operativamente importantes:

La combinación de cargas de trabajo de anotación se invirtió en dieciocho meses desde recuadros-delimitadores-y-etiquetas-de-entidad hacia calificación-de-calidad-de-respuesta, comparación-pareada-de-completaciones, marcado-de-alucinaciones y calibración-de-LLM-juez. El presupuesto de anotación de FY24 era anotadores generalistas etiquetando imágenes y marcando entidades a escala; el presupuesto de anotación de FY26 es revisores expertos de dominio calificando completaciones de LLM, comparando salidas pareadas, marcando alucinaciones contra la verdad de referencia del dominio y calibrando el pipeline de evaluación con LLM-juez contra la referencia humana. Las dos cargas de trabajo comparten la palabra anotación y casi nada más: tienen economías unitarias diferentes, perfiles de fuerza laboral diferentes, listones de calidad diferentes y ciclos de diligencia de adquisición diferentes.
La prima por experiencia por anotador se calcula de manera diferente frente al costo por token del modelo de lo que asumía el presupuesto de FY25. Un anotador generalista etiquetando imágenes a escala era una fuerza laboral de menos de $10/hora que la línea de anotación de FY25 trataba como costo variable contra el rendimiento por imagen. Un revisor experto de dominio calificando completaciones de LLM sobre cumplimiento en servicios financieros, soporte a la decisión clínica, revisión de contratos legales o síntesis de literatura científica es una fuerza laboral de $75-$250/hora cuyo rendimiento por tarea es una calificación por varios minutos, no un recuadro delimitador por varios segundos. La economía unitaria de la fuerza laboral se invirtió junto con la combinación de cargas de trabajo; la fórmula del presupuesto de anotación de FY25 no se transfiere.
La referencia del mercado ya no es 'tenemos un flujo de trabajo en Mechanical Turk'. La pila de referencia de RLHF contra la que construyen los laboratorios de frontera es una fuerza laboral experta gestionada, verificada y segmentada por dominio, con corridas de calibración, calificación de calidad por evaluador, instrumentación de acuerdo entre evaluadores, versionado de rúbricas por dominio y adjudicación de conjuntos de oro por tarea. La ruta del lado de la construcción que despliega un script de Mechanical Turk contra la misma clase de carga de trabajo es una ruta cuya calidad de datos RLHF no pasa el umbral de referencia del laboratorio de frontera; el rendimiento por tarea es más rápido, el costo por tarea es más bajo y la salida por pase de alineación de modelo es estructuralmente más débil.
La carga de trabajo de anotación ahora está corriente arriba de la confiabilidad en producción del modelo, no es una entrada de ajuste fino de una sola vez. El modelo mental de FY25 era ajustamos finamente sobre el conjunto etiquetado una vez, luego desplegamos el modelo. El modelo mental de FY27 es ejecutamos un bucle continuo de RLHF + LLM-juez + evaluación, con la fuerza laboral de anotación calificada dentro del bucle en cada ciclo, y el costo de anotación por ciclo es una línea permanente contra la superficie de confiabilidad del modelo en producción. La carga de trabajo de anotación ya no es un proyecto; es un costo operativo permanente contra el cual se califica la cifra de confiabilidad en producción del modelo, y el plan de FY27 tiene que codificarlo como tal.

La lectura estructural no es el mercado de etiquetado de datos está creciendo. Es que la carga de trabajo de anotación que respalda las funciones de LLM de grado de producción se convirtió en una fuerza laboral experta de dominio ejecutando un bucle continuo contra la superficie de confiabilidad del modelo, y la pregunta de adquisición para el equipo que ajusta finamente un modelo de frontera, levanta un flujo de trabajo de evaluación de LLM o ejecuta un bucle interno de RLHF sobre un caso de uso específico de dominio ya no es si usar un socio human-in-the-loop, sino cuál fuerza laboral especialista califica el trabajo de alineación del modelo de frontera del equipo, cómo la prima por experto de dominio se compone frente al costo por token del modelo, y si el plan de alineación de modelos para FY27 del equipo tiene una línea presupuestaria para la carga de trabajo de anotación que el plan de FY25 no supo respaldar.

Qué reestructura la inversión en la combinación de cargas de trabajo sobre la planificación de alineación de modelos para FY27

Cuatro cambios concretos que se siguen cuando la calificación-de-calidad-de-respuesta por experto de dominio se convierte en la carga de trabajo de anotación dominante que respalda las funciones de LLM de grado de producción.

La fuerza laboral de anotación se adquiere contra filtros de experiencia de dominio, no contra rendimiento por número de personas. La decisión de adquisición de anotación de FY25 era cuántos anotadores a qué rendimiento por imagen contra qué costo por imagen —una decisión de abastecimiento de personal-y-rendimiento. La decisión de FY27 es cuál experiencia de dominio (cumplimiento en servicios financieros, soporte a la decisión clínica, revisión de contratos legales, juicio de ingeniería de software, síntesis de literatura científica, localización multilingüe, seguridad-y-red-teaming) a qué listón de calidad por tarea contra qué prima de experiencia por tarea —una decisión de abastecimiento de experiencia-y-calidad. Las dos decisiones seleccionan fuerzas laborales diferentes, proveedores diferentes, SLAs por tarea diferentes y una sobrecarga de gestión por evaluador diferente. El equipo que ejecuta la adquisición de FY27 contra la rúbrica de abastecimiento de FY25 termina con una fuerza laboral de anotación cuyo rendimiento es rápido y cuya salida de alineación de modelo es estructuralmente más débil que la referencia de frontera.

El presupuesto de anotación pasa de una línea de proyecto de una sola vez a un costo operativo permanente contra la superficie de confiabilidad del modelo en producción. El presupuesto de anotación de FY25 era una línea de una sola vez contra el evento de ajuste fino del modelo. El presupuesto de anotación de FY27 es una línea permanente por ciclo contra el bucle de RLHF-y-evaluación en producción: la confiabilidad en producción del modelo se califica en cada ciclo contra la salida de anotación por ciclo, y el costo de anotación por ciclo es un gasto operativo recurrente que la economía unitaria del modelo en producción tiene que absorber. El equipo que no mueve la línea de anotación de presupuesto-de-proyecto a presupuesto-operativo es el equipo cuya confiabilidad del modelo en producción se degrada silenciosamente contra la deriva de carga de trabajo que el bucle de anotación permanente habría detectado.

La calibración por evaluador, la calificación de calidad por evaluador y la instrumentación de acuerdo entre evaluadores se convierten en artefactos de ingeniería de primera clase que el equipo tiene que operar. La pila de referencia de RLHF del laboratorio de frontera corre contra un conjunto de referencia de calibración por evaluador, calificación de calidad por evaluador contra tareas de oro, instrumentación de acuerdo entre evaluadores contra rúbricas por tarea, versionado de rúbricas por dominio y adjudicación de conjuntos de oro por tarea. El equipo que ejecuta una carga de trabajo de RLHF experta de dominio sin la instrumentación de calibración-y-calificación es el equipo cuya salida de anotación parece de grado de producción y se convierte en un conjunto de datos de alineación de modelo cuya varianza por tarea es el doble de lo que la calibración por evaluador habría detectado —y cuyo pase de alineación de modelo produce un modelo que falla la evaluación por dominio que la instrumentación de calibración-y-calificación habría producido honestamente.

La decisión de construir-vs-comprar sobre la fuerza laboral de RLHF refleja la decisión de construir-vs-comprar sobre el agente que la fuerza laboral está entrenando. El mismo patrón de proveedor-vs-construcción-interna que MIT NANDA midió contra la tasa de despliegue en producción de agentes de IA (67% / 33% —una brecha de supervivencia medida de 2x) aplica a la decisión de la fuerza laboral de RLHF. El equipo que construye la fuerza laboral de RLHF desde cero —contratar anotadores generalistas, escribir las corridas de calibración, gestionar la calificación de calidad por evaluador, ejecutar el versionado de rúbricas por dominio, operar la adjudicación de conjuntos de oro por tarea— paga el costo completo de la curva de aprendizaje compuesta que el socio especialista ya pagó contra otras veinte colaboraciones. El equipo que ejecuta la carga de trabajo de RLHF contra el socio especialista hereda la disciplina de calibración por evaluador, la biblioteca de rúbricas por dominio y el manual de adjudicación de conjuntos de oro por tarea en la llamada de arranque.

Dónde los datos son señal y dónde son ruido

Cuatro lecturas honestas sobre lo que el mercado de $2.3B y la inversión en la combinación de cargas de trabajo realmente le dicen al comprador.

Señal: Surge AI rebasando los $1B de ARR como socio de referencia de RLHF de Anthropic es la señal de negocio estructuralmente interesante, no el tamaño absoluto del mercado. Una plataforma de RLHF gestionado bootstrapped alcanzando $1B de ARR con una lista de clientes nombrados que incluye a los tres principales laboratorios de frontera es la señal de grado de decisión de adquisición: la categoría de fuerza laboral de RLHF experta de dominio gestionada ya no es experimental, y los compradores de laboratorios de frontera han convergido en ella como la superficie de referencia de ejecución de carga de trabajo. La implicación para el equipo de ingeniería que ejecuta un bucle interno de RLHF es que la referencia del socio especialista está establecida y la ruta del lado de la construcción es ahora la excepción.

Señal: la inversión en la combinación de cargas de trabajo de anotación-generalista a calificación-experta-de-dominio es la señal portante de la decisión de adquisición. El crecimiento del tamaño del mercado califica la dirección del gasto; la inversión en la combinación de cargas de trabajo califica la asignación del gasto. El plan de alineación de modelos para FY27 que no codifica la inversión en la combinación de cargas de trabajo es el plan que asigna contra la economía unitaria de anotación-generalista de FY25 y termina sub-aprovisionando frente al revisor experto de dominio que la carga de trabajo realmente requiere.

Ruido: el agregado de $2.3B no es el presupuesto de anotación por equipo del equipo del comprador. El agregado del mercado es la señal de dirección del gasto; el presupuesto de anotación por equipo del comprador se dimensiona contra la combinación específica de clases de carga de trabajo del equipo, las necesidades específicas de experiencia de dominio del equipo, el rendimiento específico de anotación por ciclo del equipo y la cadencia específica de alineación de modelo del equipo. El agregado es la señal de validación-de-categoría, no la cifra de presupuesto-por-equipo.

Ruido: las colaboraciones nombradas con laboratorios de frontera no eligen cuál socio especialista debería contratar el comprador. Surge AI es el socio de referencia de RLHF de Anthropic; eso no convierte a Surge AI en el socio correcto para la clase de carga de trabajo de cada comprador. La diligencia de adquisición del comprador todavía tiene que calificar al socio específico contra la carga de trabajo específica —cuál es la cobertura de experiencia de dominio del socio frente a mi dominio, cuál es la disciplina de calibración por evaluador del socio frente a mi listón de calidad, cuál es el SLA por tarea del socio frente a mi cadencia de alineación de modelo, cuál es la estructura de costo por ciclo del socio frente a mi presupuesto de anotación de FY27. Las referencias de laboratorios de frontera son la señal de validación-de-categoría; el ciclo de verificación de socio por comprador es la diligencia portante.

Qué debería hacer el planificador de alineación de modelos este trimestre

Cuatro acciones concretas que cierran la brecha entre la inversión en la combinación de cargas de trabajo y el plan de alineación de modelos para FY27.

Auditar la combinación actual de cargas de trabajo de anotación del equipo contra la taxonomía de ocho clases de carga de trabajo de la pila de referencia de FY27. Para cada clase de carga de trabajo que el presupuesto de anotación del equipo financia actualmente —recuadro-delimitador-y-etiqueta-de-entidad, calificación-de-calidad-de-respuesta, comparación-pareada-de-completaciones, marcado-de-alucinaciones, calibración-de-LLM-juez, versionado-de-rúbricas-por-dominio, adjudicación-de-conjuntos-de-oro-por-tarea, localización-multilingüe-y-red-teaming-de-seguridad— mida la participación del gasto por clase, el rendimiento por clase, el listón de calidad por clase y el perfil de fuerza laboral por clase. La salida de la auditoría es el mapa de combinación de cargas de trabajo contra el cual se califica la asignación presupuestaria de FY27; el equipo que ejecuta el plan de FY27 sin la auditoría termina asignando contra la combinación de FY25 y sub-financiando la carga de trabajo experta de dominio que la confiabilidad del modelo en producción realmente requiere.

Levantar la calibración por evaluador, la calificación de calidad por evaluador y la instrumentación de acuerdo entre evaluadores como artefactos de ingeniería de primera clase, internamente o vía el socio especialista. La instrumentación de calibración-y-calificación es el activo operativo portante detrás del RLHF de grado de producción; el equipo que la tiene despliega un pase de alineación de modelo cuya varianza por tarea está calificada; el equipo que no la tiene despliega un pase de alineación cuya varianza por tarea no está medida y cuya confiabilidad del modelo en producción es estructuralmente más débil. La decisión es interno-vs-socio; la decisión de si-levantarla ya no es opcional.

Mover el presupuesto de anotación de una línea de proyecto a una línea operativa permanente contra la superficie de confiabilidad del modelo en producción. El plan de alineación de modelos para FY27 debería codificar la carga de trabajo de anotación como un gasto operativo por trimestre contra el bucle de RLHF-y-evaluación en producción, no como un presupuesto de proyecto de una sola vez contra el próximo evento de ajuste fino. El encuadre de presupuesto-permanente es lo que convierte a la fuerza laboral de anotación en una superficie operativa continua contra la cual se califica la cifra de confiabilidad del modelo; el encuadre de presupuesto-de-proyecto es lo que convierte a la fuerza laboral de anotación en una superficie operativa intermitente cuyas discontinuidades aparecen como deriva de confiabilidad del modelo en producción.

Verificar al socio especialista contra la combinación específica de clases de carga de trabajo del equipo y las necesidades de experiencia por dominio, no contra la lista de clientes titular del socio. El entregable del ciclo de verificación de socio es una lista corta de socios emparejada con la combinación de clases de carga de trabajo del equipo, cada socio con una colaboración de referencia que el equipo ha recorrido de principio a fin en el dominio del equipo, cada uno con un acuerdo de prueba por clase que el equipo puede calificar, y cada uno con un mapa de cobertura de experiencia por dominio frente al dominio específico del equipo. El ciclo de verificación es la diligencia portante; el equipo que elige al socio contra la lista de clientes titular es el equipo que contrata una excelente fuerza laboral de RLHF de grado Anthropic contra una carga de trabajo para la cual la fuerza laboral no tiene la cobertura de dominio para calificar bien.

El trabajo de juicio senior que el socio especialista human-in-the-loop abarata operativamente pero no reemplaza

La ruta del socio especialista de RLHF comprime el costo de la disciplina de calibración por evaluador, la biblioteca de rúbricas por dominio, el manual de adjudicación de conjuntos de oro por tarea y la instrumentación de calificación de calidad por ciclo —el equipo que corre contra el socio hereda estos como activos operativos portantes en la llamada de arranque en lugar de construirlos desde cero contra el calendario del comprador. No comprime el trabajo de juicio senior de elegir cuáles clases de carga de trabajo califica la alineación del modelo de frontera del equipo, escribir los criterios de éxito por dominio contra los cuales se califica la alineación, poseer la integración de la salida de alineación en el modelo de producción que el equipo opera, y decidir cuáles cargas de trabajo pertenecen al bucle-de-RLHF-permanente y cuáles pertenecen al bucle-de-solo-evaluación-por-ciclo.

Los equipos que confunden la calibración por evaluador abaratada con el juicio abaratado estarán, dentro de seis meses, leyendo autopsias sobre la confiabilidad del modelo en producción cuya causa raíz es ejecutamos el bucle de RLHF contra la clase de carga de trabajo equivocada, contra los criterios de éxito equivocados, con la rúbrica por dominio equivocada —y la disciplina de calibración por evaluador del socio ejecutó fielmente la carga de trabajo equivocada. Los equipos que mantienen el juicio senior en el centro de la decisión de selección-de-carga-de-trabajo y criterios-de-éxito tendrán, dentro de seis meses, un modelo en producción cuya cifra de confiabilidad se compone contra el bucle de RLHF permanente y cuya cadencia de alineación coincide con la cadencia de despliegue del modelo en producción. El socio es la palanca; el juicio senior es el muro de carga.

La pregunta de adquisición ya no es si usar un socio human-in-the-loop; es cuál fuerza laboral especialista experta de dominio califica la alineación del modelo de frontera del equipo, cómo se calcula la prima por experiencia por anotador frente al costo por token del modelo, y si el plan de alineación de modelos para FY27 del equipo tiene una línea presupuestaria para la carga de trabajo de anotación que el plan de puntaje-de-evaluación-acotado de FY25 no supo respaldar. Los equipos que hacen la pregunta correcta este trimestre se compran un modelo cuya confiabilidad en producción se compone; los equipos que hacen la equivocada se compran un script de Mechanical Turk y una autopsia de confiabilidad en producción en Q4 para la cual el plan de FY27 no tiene presupuesto.