Los sistemas de inteligencia artificial (IA) son tan buenos como los datos que los alimentan. Cada modelo de lenguaje grande (LLM), desde chatbots hasta herramientas médicas, depende de conjuntos de datos de calidad, a menudo etiquetados por humanos, para mantenerse precisos, robustos y libres de sesgos. Sin ellos, se aplica la regla más conocida en el campo: “basura entra, basura sale”.
Este debate estuvo en el centro de la tercera conferencia anual de IA y Generative AI de Wharton Human-AI Research (WhIR), celebrada en San Francisco. Allí, Luyang Zhang (PhD, Carnegie Mellon University) presentó el artículo “Fair Participation Data Pricing: Valuation of Data for Large Language Models”, coescrito junto con Beibei Li, profesora de TI y management en Carnegie Mellon.
En una conversación con Lynn Wu (Wharton School), los investigadores expusieron un tema crítico: el mercado actual de datos no es sostenible ni ético, y compromete tanto la calidad de los modelos como la equidad de los trabajadores que los producen.
Los datos humanos siguen siendo insustituibles
La IA generativa puede producir datos sintéticos, pero no sustituye la experiencia y el criterio humano. Sin datos reales, los modelos fallan en tareas especializadas como diagnóstico médico o asesoría legal.
Como advierte Li:
“Si sigues alimentando un modelo solo con datos sintéticos, puede entrar en una burbuja”.
Las empresas deben planificar que los datos etiquetados por humanos seguirán siendo esenciales y costosos, sobre todo en dominios críticos.
Un mercado injusto y poco sostenible
Hoy, muchos etiquetadores de datos trabajan por menos de 2 dólares la hora, incluso en tareas complejas. Este esquema de gig economy ahorra costes a corto plazo, pero genera efectos negativos:
Aleja a los trabajadores calificados.
Reduce la calidad de los datos.
Debilita los modelos de IA.
En palabras de Li:
“Incluso si tienes buen financiamiento, no puedes encontrar datos de alta calidad fácilmente”.
Pagar por el valor real de los datos
El equipo de investigación propuso un modelo de valoración diferencial: medir cuánto mejora un conjunto de datos el rendimiento de un modelo y asignarle precio en consecuencia.
Si un dataset aumenta significativamente la precisión, debería pagarse mejor.
Si su aporte es marginal, debería costar menos.
En sus simulaciones, este esquema permitió:
✔ Mejorar el pago a los trabajadores.
✔ Ofrecer a las empresas compradores datos de mayor calidad a largo plazo.
Transparencia y democratización
Las grandes tecnológicas pueden comprar enormes volúmenes de datos —incluso de baja calidad—. Las startups no. La fijación de precios transparentes ayudaría a las compañías pequeñas a priorizar datos de alto valor, democratizando el acceso y evitando que la innovación se concentre solo en los gigantes del sector.
Equidad y sostenibilidad: más que un tema ético
Detrás del debate hay una dimensión global. Gran parte del etiquetado se realiza en países de bajos ingresos, donde los trabajadores rara vez ven reflejado el valor de su contribución.
Los precios justos hacen visible ese trabajo y combaten lo que Li denomina “colonialismo de datos”: cuando las naciones ricas se benefician de mano de obra barata en países pobres sin retorno justo.
Para los reguladores, no se trata solo de ética, sino de asegurar un flujo sostenible de datos de calidad que mantenga el progreso de la IA.
El rol de gobiernos y empresas
Gobiernos: podrían implementar esquemas de precios justos en proyectos públicos sensibles (salud, educación).
Empresas: pueden explorar modelos tipo regalías, donde los etiquetadores reciban beneficios futuros proporcionales al valor que generan.
En conjunto, estos pasos construirían un mercado de datos más saludable y sostenible.
Conclusión: innovación, no solo equidad
El etiquetado de datos no es un costo operativo menor. Es la base sobre la cual se construye la próxima generación de IA.
Tratarlo como un gig job barato no solo es injusto, también es contraproducente. Modelos entrenados con datos pobres serán más frágiles, menos útiles y menos competitivos.
Pagar de forma justa y transparente fortalece tanto la calidad técnica como la sostenibilidad ética del ecosistema. Como concluye Li:
“Esto no es solo un problema de equidad. Es un problema de innovación”.