SONNET CODE
← Volver a todos los artículos
Entrenamiento de IA4 de julio de 2026·8 min de lectura

Rapidata comprime los ciclos de RLHF humano: de meses a horas

Lo que la emergencia de Rapidata señala sobre a dónde va la frontera de RLHF

Rapidata salió del sigilo con €7.2 millones en financiamiento seed para construir lo que llama la red global de retroalimentación humana — infraestructura que mueve el juicio humano fuera del backlog de etiquetado-por-lotes y directamente al bucle de entrenamiento. El framing de la compañía es explícito: los ciclos de retroalimentación que anteriormente tomaban semanas o meses se reducen a horas o incluso minutos, y la próxima gran escasez en IA no será el cómputo; será la señal humana de alta-calidad. El cambio técnico en el que la plataforma se ancla — RLHF online — mueve la recolección de señal-humana de un artefacto pre-entrenamiento offline a una integración de API por-paso-de-entrenamiento, permitiendo que la red lea el juicio humano a la misma cadencia a la que las GPUs leen actualizaciones de pesos.

Las lecturas operativamente importantes:

  • RLHF online colapsa el ciclo de iteración-de-alineación a la misma tasa a la que el cómputo colapsó el ciclo de pre-entrenamiento. La asunción anterior del ciclo-de-alineación era recolección por-lotes offline de respuestas rankeadas, movilización trimestral de cuadrillas de etiquetadores, re-entrenamiento RLHF por-ciclo-de-liberación. RLHF online voltea el eje: integración por-paso-de-entrenamiento de señal humana, iteración de alineación por-semana, re-scoring en vivo de la población por-candidato-de-liberación. El plan de alineación de FY27 redactado contra la asunción de ciclo-por-lotes está corriendo contra una cadencia de iteración que deja de mantenerse en Q4.
  • El eje portante de escasez en la alineación de frontera se desplaza del cómputo a la señal humana. El cómputo es una commodity bien-cotizada en la ventana de adquisiciones de FY27 — el contrato permanente sobre él se ha renegociado por tres ciclos consecutivos. La señal humana de alta-calidad a la cadencia de RLHF-online es un recurso restringido-por-oferta cuyo precio lo fija la profundidad y calidad de la red de población-de-etiquetadores, no el rate-card de la API. El contrato de señal-humana de FY27 necesita una cláusula por-calidad-de-población de la manera que el contrato de cómputo tiene una cláusula por-disponibilidad-de-tier.
  • Los modelos entrenados con RLHF producen 40% menos salidas tóxicas que los modelos entrenados solo-con-datos-sintéticos. La lectura operativa no es la tasa de salida-tóxica es una métrica-de-seguridad lindo-de-tener; es que las clases de carga de trabajo donde la envolvente-regulatoria-de-cumplimiento, la envolvente de brand-safety, o la envolvente de user-trust califica contra la tasa de salida-tóxica son clases de carga de trabajo cuya puerta de lanzamiento de FY27 cierra alrededor del sustrato nativo-de-envolvente-RLHF. El sustrato entrenado solo-con-datos-sintéticos no cierra la puerta de lanzamiento en esas clases de carga de trabajo.
  • 96% de las compañías dicen que humano-en-el-bucle es esencial o lindo-de-tener; 86% dice estrictamente esencial. El eje de adopción-de-mercado se ha movido más allá del debate ¿necesitamos HITL?; el eje es ¿a qué cadencia, en qué clases de carga de trabajo, contra qué envolvente por-calidad-de-población?. El plan de alineación de FY27 cuyo ítem de línea de HITL se encuadró contra movilización trimestral de cuadrillas de etiquetadores está corriendo contra un requisito de envolvente por-calidad-de-población cuya cadencia aterriza en RLHF-online, no RLHF-por-lotes.

La lectura estructural no es una startup recaudó dinero seed para una plataforma RLHF. Es que el eje de cadencia de RLHF acaba de moverse de por-lotes-trimestrales a online-por-paso, la señal humana de alta-calidad reemplaza al cómputo como la escasez portante en la alineación de frontera, y el plan de alineación de FY27 redactado contra la asunción de ciclo-por-lotes necesita un re-shootout por-clase-de-carga-de-trabajo contra el sustrato RLHF-online.

Lo que RLHF online reestructura para el plan de alineación de FY27

La cadencia de iteración de alineación desbloquea el patrón re-scoring por-candidato-de-liberación que la cadencia por-lotes bloqueaba. La cadencia del plan de alineación anterior tenía un re-entrenamiento RLHF por lanzamiento importante, con drift de alineación acumulándose a lo largo del ciclo de lanzamiento. RLHF online permite que el plan corra re-scoring en vivo de la población por-candidato-de-liberación — la envolvente de alineación se re-cierra en cada candidato de lanzamiento, no una vez por trimestre. El plan del ciclo de lanzamiento de FY27 redactado contra la asunción de cadencia-por-lotes está corriendo contra una cadencia que el sustrato ahora soporta y el artefacto del plan de lanzamiento todavía no.

La cuadrilla de etiquetadores expertos-de-dominio y la cuadrilla de etiquetadores crowdsourced dejan de ser entradas intercambiables. A la cadencia de RLHF-online, la envolvente por-calidad-de-población aparece directamente como la calidad de la señal-de-alineación por-paso. La clase de carga de trabajo de industria-regulada (médica / legal / financiera / agente-de-altas-consecuencias) califica contra un sustrato de etiquetador-experto-de-dominio; la clase de carga de trabajo de consumidor-general califica contra un sustrato crowdsourced bien-auditado. El contrato de cuadrilla-de-etiquetadores de FY27 que trata ambas poblaciones como el mismo ítem de línea de adquisiciones está corriendo contra un requisito por-calidad-de-población por-clase-de-carga-de-trabajo que el sustrato ahora hace cumplir.

La puerta de evaluación-de-seguridad por-ciclo se comprime de auditoría-por-lotes pre-lanzamiento a auditoría en vivo por-paso-de-entrenamiento. La cadencia operativa de la función de seguridad-de-IA se desplaza de lotes de seguridad pre-lanzamiento trimestrales a auditoría en vivo por-paso-de-entrenamiento contra el flujo de señal online. El plan de headcount de FY27 de la función de oficial-de-cumplimiento califica contra la cadencia desplazada — la carga de trabajo de evaluación-de-seguridad ya no es un ítem de línea por-lote-de-lanzamiento, es un artefacto en vivo por-paso-de-entrenamiento. El organigrama absorbe el cambio.

La envolvente regulatoria de cumplimiento sobre la alineación de frontera obtiene un requisito de población-de-etiquetadores por-jurisdicción. El calendario regulatorio de FY27 rastrea requisitos de artefacto-de-alineación por-jurisdicción — la traza de auditoría de la Ley de IA de la UE en clases de carga de trabajo de alto-riesgo, la aprobación del regulador-sectorial en clases de carga de trabajo reguladas, la calificación por-industria-de-estándar-de-seguridad en clases de carga de trabajo específicas-de-dominio. El sustrato RLHF-online permite que la población de etiquetadores por-jurisdicción aparezca en la traza del artefacto-de-alineación como un atributo de primera-clase. La envolvente-de-cumplimiento cierra alrededor de atributos de población por-jurisdicción que el sustrato por-lotes no podía producir como artefacto.

Dónde la señal de RLHF-online es real y dónde es hype

Real: el delta de cadencia horas-no-meses es el cambio operativo portante. La asunción de cadencia-por-lotes bloqueó los planes de alineación de FY27 en iteración trimestral; la cadencia-online desbloquea iteración de alineación por-semana (y eventualmente por-día). Cada clase de carga de trabajo de alineación cuyo plan de FY27 califica contra la asunción de cadencia-por-lotes es candidata para re-shootout contra el sustrato de cadencia-online.

Real: el framing la señal humana es la nueva escasez rastrea el eje de adquisiciones de FY27. El cómputo está bien-cotizado; la señal humana de alta-calidad a cadencia de RLHF-online está restringida-por-oferta. El contrato permanente de FY27 sobre señal-humana necesita una cláusula por-calidad-de-población, una cláusula por-disponibilidad-por-jurisdicción, y una cláusula por-tiempo-de-respuesta por-clase-de-carga-de-trabajo. El contrato de etiquetador-por-lotes contra el que el equipo ha estado negociando no lleva la forma.

Hype: RLHF online reemplaza a RLHF por-lotes. No lo hace. RLHF por-lotes permanece en el ciclo-de-alineación para corridas de re-entrenamiento fundacional cuyo costo de recolección-de-señal el sustrato de cadencia-online no puede amortizar. RLHF online es el sustrato de re-scoring por-candidato-de-liberación; RLHF por-lotes es el sustrato de alineación por-corrida-fundacional. El plan de alineación de FY27 sostiene ambas cadencias en el mapa de sustratos, no una reemplazando a la otra.

Hype: la población de etiquetadores crowdsourced cierra la envolvente de alineación para cada clase de carga de trabajo. No lo hace. La clase de carga de trabajo de industria-regulada califica contra un sustrato de etiquetador-experto-de-dominio que la población crowdsourced no produce. El contrato de cuadrilla-de-etiquetadores de FY27 se divide por requisito por-calidad-de-población por-clase-de-carga-de-trabajo; la métrica agregada de headcount-de-etiquetadores no codifica la división.

Lo que el equipo de alineación debería hacer en las próximas dos semanas

Ejecutar el shootout por-clase-de-carga-de-trabajo sobre RLHF-online contra RLHF-por-lotes para las clases de carga de trabajo críticas-de-alineación del equipo dentro de dos semanas. Para las tres clases principales de carga de trabajo críticas-de-alineación del equipo (superficie de agente de industria-regulada, superficie de consumidor de envolvente de brand-safety, superficie de agente de decisión-de-altas-consecuencias), medir cadencia de iteración-de-alineación por-clase, envolvente de drift-de-alineación por-ciclo por-clase, cierre de envolvente por-calidad-de-población por-clase, y disponibilidad de población-de-etiquetadores por-jurisdicción por-clase. La salida es el artefacto de actualización del sustrato-de-alineación contra el que corre el plan de FY27.

Dividir el contrato de cuadrilla-de-etiquetadores por requisito por-calidad-de-población por-clase-de-carga-de-trabajo. El contrato de adquisiciones de cuadrilla-de-etiquetadores de un-solo-ítem-de-línea contra el que el equipo ha estado corriendo no codifica el requisito por-calidad-de-población por-clase-de-carga-de-trabajo que el sustrato de RLHF-online ahora hace cumplir. Dividir el contrato entre sustrato de etiquetador-experto-de-dominio para clases de carga de trabajo de industria-regulada y sustrato de etiquetador-crowdsourced para clases de carga de trabajo de consumidor-general; el ítem de línea de headcount-de-etiquetadores agregado deja de ser la entrada de negociación.

Desplazar la cadencia de evaluación-de-seguridad de auditoría-por-lotes por-lanzamiento a auditoría en vivo por-paso-de-entrenamiento en clases de carga de trabajo críticas-de-alineación. La cadencia operativa de la función de seguridad-de-IA necesita desplazarse con el sustrato. Actualizar el runbook de evaluación-de-seguridad por-ciclo contra la entrada de flujo-de-señal-online, y re-encuadrar el plan de headcount de FY27 contra la clase de carga de trabajo de auditoría en vivo por-paso-de-entrenamiento.

Agregar una cláusula de población-de-etiquetadores por-jurisdicción al contrato permanente de señal-humana de FY27. Los requisitos de traza-de-artefacto de la Ley de IA de la UE y del regulador-sectorial califican contra atributos de población-de-etiquetadores por-jurisdicción en clases de carga de trabajo críticas-de-alineación. El contrato de señal-humana de FY27 necesita la cláusula por-jurisdicción como atributo de primera-clase; la cláusula agregada de headcount-global-de-etiquetadores no cierra la envolvente de cumplimiento.

Lo que RLHF online abarata pero no reemplaza

RLHF online comprime la cadencia de iteración-de-alineación en el tier de enrutamiento-por-defecto del sustrato-RLHF, no el juicio-senior de decidir qué clases de carga de trabajo tienen forma-de-RLHF-online, escribir el verificador de envolvente-de-alineación por-clase-de-carga-de-trabajo contra el que califica el bucle-de-entrenamiento, ser dueño de la envolvente de población-de-etiquetadores por-jurisdicción sobre el contrato permanente de señal-humana de FY27, y ejecutar la revisión-de-código de drift-de-alineación por-ciclo contra el sustrato-RLHF del equipo. Los equipos que confunden la cadencia de iteración-de-alineación comprimida con el juicio comprimido enrutan la clase de carga de trabajo de industria-regulada contra un sustrato de etiquetador-crowdsourced que no cierra la envolvente, y leen el post-mortem por-ciclo sobre la brecha de calidad-de-población-desalineada que el shootout habría expuesto. Los equipos que mantienen el juicio-senior en el centro de la decisión de sustrato traducen la compresión de cadencia a mejoras de alineación por-semana que el sustrato por-lotes no podía producir.

La pregunta del sustrato-de-alineación ya no es cuál proveedor de RLHF es el más barato; es qué envolvente por-calidad-de-población por-clase-de-carga-de-trabajo respalda el contrato permanente de señal-humana de FY27 contra el mapa de cadencia RLHF-online y RLHF-por-lotes, qué envolvente de población-de-etiquetadores por-jurisdicción retiene el contrato para las clases de carga de trabajo de industria-regulada, y qué revisión-de-código de drift-de-alineación por-ciclo compromete la función de seguridad-de-IA contra el sustrato de flujo-de-señal-online.


En SONNET CODE ejecutamos la práctica de Entrenamiento de IA contra el artefacto de enrutamiento de sustrato-de-alineación por-clase-de-carga-de-trabajo — shootouts por-clase-de-carga-de-trabajo contra el mapa de cadencia RLHF-online y RLHF-por-lotes, envolventes por-calidad-de-población sobre el contrato permanente de señal-humana de FY27, y revisiones-de-código de drift-de-alineación por-ciclo contra el sustrato-RLHF del equipo. Si el plan de alineación de tu equipo todavía está redactado contra la asunción de cadencia-por-lotes, agenda una llamada — te llevaremos a través del re-shootout de sustrato de RLHF-online que lanzamos dentro de un sprint, con cuadrillas de etiquetadores expertos-de-dominio en las clases de carga de trabajo cuya envolvente por-calidad-de-población el sustrato necesita cerrar.