Una mañana del año pasado, Jacobus Louw salió a su paseo habitual por el vecindario para alimentar a las gaviotas que encuentra en el camino. Sin embargo, esta vez, grabó varios videos de sus pies y el paisaje mientras caminaba por la acera. El video le generó 14 dólares, aproximadamente 10 veces el salario mínimo del país, o la mitad de la compra semanal de alimentos para Louw, un joven de 27 años residente en Ciudad del Cabo, Sudáfrica.
El video fue para una tarea de “Navegación Urbana” que Louw encontró en Kled AI, una aplicación que paga a los usuarios por subir sus datos, como videos y fotos, para entrenar modelos de inteligencia artificial. En un par de semanas, Louw ganó 50 dólares subiendo imágenes y videos de su vida cotidiana.
A miles de kilómetros de distancia, en Ranchi, India, Sahil Tigga, un estudiante de 22 años, gana dinero regularmente permitiendo que Silencio, que recopila datos de audio para el entrenamiento de la IA, acceda al micrófono de su teléfono para capturar el ruido ambiental de la ciudad, como el que se escucha dentro de un restaurante o en una intersección con mucho tráfico. También sube grabaciones de su voz. Sahil viaja para capturar entornos únicos, como los vestíbulos de hoteles que aún no están documentados en el mapa de Silencio. Gana más de 100 dólares al mes con esto, suficiente para cubrir todos sus gastos de alimentación.
Y en Chicago, Ramelio Hill, un aprendiz de soldador de 18 años, ganó un par de cientos de dólares vendiendo sus conversaciones privadas por teléfono con amigos y familiares a Neon Mobile, una plataforma de entrenamiento de IA conversacional que paga 0,50 dólares por minuto. Para Hill, el cálculo fue simple: pensó que las empresas tecnológicas ya capturan gran parte de sus datos privados, por lo que podría obtener una parte de las ganancias.
Estos entrenadores de IA –que suben desde escenas de su entorno hasta fotos, videos y audio de sí mismos– se encuentran en la vanguardia de una nueva fiebre del oro de datos a nivel mundial. A medida que la sed de Silicon Valley por datos humanos de alta calidad supera lo que se puede extraer de la internet abierta, ha surgido una próspera industria de mercados de datos para cerrar la brecha. Desde Ciudad del Cabo hasta Chicago, miles de personas ahora están otorgando microlicencias de sus identidades biométricas y datos íntimos para entrenar a la próxima generación de IA.
Pero esta nueva economía colaborativa tiene sus desventajas. A cambio de unos pocos dólares, sus entrenadores están impulsando una industria que eventualmente podría volver obsoletas sus habilidades, al tiempo que los deja vulnerables a un futuro de deepfakes, robo de identidad y explotación digital que apenas comienzan a comprender.
Manteniendo la rueda de la IA en movimiento
Los modelos de lenguaje de la IA, como ChatGPT y Gemini, demandan grandes cantidades de material de aprendizaje para mejorar, pero se enfrentan a una sequía de datos. Las fuentes de entrenamiento más utilizadas, como C4, RefinedWeb y Dolma, que representan una cuarta parte de los conjuntos de datos de mayor calidad en la web, ahora están restringiendo a las empresas de IA generativa el entrenamiento de modelos con sus datos. Los investigadores estiman que a las empresas de IA se les agotará el texto nuevo y de alta calidad para entrenar ya en 2026. Si bien algunos laboratorios han recurrido a alimentar con datos sintéticos generados por su propia IA, dicho proceso recursivo puede llevar a los modelos a producir errores que causen su colapso.
Aquí es donde entran en juego aplicaciones como Kled AI y Silencio. En estos tipos de mercados de datos, millones de personas están monetizando sus identidades para alimentar y entrenar la IA. Además de Kled AI, Silencio y Neon Mobile, existen muchas opciones para los entrenadores de IA: Luel AI, respaldada por la famosa incubadora de startups Y-Combinator, obtiene conversaciones multilingües por alrededor de 0,15 dólares por minuto. ElevenLabs permite clonar digitalmente su voz y dejar que cualquiera la use por una tarifa base de 0,02 dólares por minuto.
El entrenamiento de IA colaborativo es una nueva categoría de trabajo emergente y crecerá sustancialmente, dijo Bouke Klein Teeselink, profesor de economía en King’s College London.
Las empresas de IA saben que pagar a las personas para que licencien sus datos ayuda a evitar el riesgo de disputas de derechos de autor que podrían enfrentar si dependieran únicamente del contenido extraído de la web, dijo Tesselink. Estas empresas también necesitan datos de alta calidad para modelar nuevos comportamientos mejorados en sus sistemas, dijo Veniamin Veselovsky, un investigador de IA. “Los datos humanos, por ahora, son el estándar de oro para muestrear fuera de la distribución del modelo”, agregó Veselovsky.
Las personas que alimentan las máquinas, especialmente aquellas en países en desarrollo, a menudo necesitan el dinero y tienen pocas opciones para ganarlo. Para muchos entrenadores de IA, hacer este trabajo es una respuesta pragmática a la disparidad económica. En países con alto desempleo y monedas devaluadas, ganar moneda estadounidense a menudo es más estable y gratificante que los trabajos locales. Algunos de ellos tienen dificultades para conseguir empleos de nivel inicial y se dedican al entrenamiento de IA por necesidad. Incluso en las naciones más ricas, el aumento del costo de vida ha convertido la venta de uno mismo en un punto de inflexión financiero lógico.
Sin embargo, las desventajas del entrenamiento de IA colaborativo pueden ser invisibles. En algunos mercados de IA, los entrenadores de datos otorgan licencias irrevocables y libres de regalías que permiten a las empresas crear “obras derivadas”, lo que significa que una grabación de voz de 20 minutos hoy podría alimentar un chatbot de atención al cliente de IA durante los próximos años, sin que el entrenador vea otro centavo. Además, debido a la falta de transparencia en estos mercados, el rostro de un usuario podría terminar en una base de datos de reconocimiento facial o en un anuncio depredador al otro lado del mundo, con prácticamente ningún recurso legal.
Louw, el entrenador de IA en Ciudad del Cabo, es consciente de las contrapartidas de la privacidad. Y aunque los ingresos son irregulares y no son suficientes para cubrir todos sus gastos mensuales, está dispuesto a aceptar estas condiciones para ganar dinero. Luchó contra un trastorno nervioso durante años y no pudo conseguir un trabajo, pero el dinero ganado en los mercados de IA, incluido Kled AI, le permitió ahorrar para un curso de entrenamiento de spa de 500 dólares para convertirse en masajista.
“Como sudafricano, que le paguen en dólares estadounidenses vale más de lo que la gente piensa”, dijo Louw.
Mark Graham, profesor de geografía de internet en la Universidad de Oxford y autor de Alimentando la máquina, reconoció que para las personas en los países en desarrollo, el dinero puede ser significativo a corto plazo, pero advirtió que “estructuralmente este trabajo es precario, no progresivo y, efectivamente, un callejón sin salida”.
Los mercados de IA se basan en una “carrera hacia el fondo en los salarios”, agregó Graham, y una “demanda temporal de datos humanos”. Una vez que esta demanda cambie, “los trabajadores se quedan sin protección, sin habilidades transferibles y sin una red de seguridad”.
El único ganador que emerge, dijo Graham, son “las plataformas del norte global [que] capturan todo el valor duradero”.
Permisos ilimitados
Hill, el entrenador de IA con sede en Chicago, tenía sentimientos encontrados sobre la venta de sus llamadas telefónicas privadas a Neon Mobile. Por alrededor de 11 horas de llamadas, ganó 200 dólares, pero dijo que la aplicación se desconectaba con frecuencia y no pagaba los pagos atrasados. “Neon siempre me pareció sospechoso, pero seguí usándolo para obtener algo de dinero extra y fácil para facturas y otros gastos varios”, dijo Hill.
Ahora está reconsiderando lo fácil que fue ese dinero. En septiembre, solo unas semanas después de su lanzamiento, Neon Mobile se desconectó después de que TechCrunch descubriera una falla de seguridad que permitía a cualquiera acceder a los números de teléfono, las grabaciones de llamadas y las transcripciones de los usuarios. Hill dijo que Neon Mobile nunca le informó sobre esto y ahora le preocupa cómo su voz podría ser mal utilizada en internet.
Lo que preocupa a Jennifer King, investigadora de privacidad de datos en el Instituto Stanford para la Inteligencia Artificial Centrada en el Ser Humano, es que los mercados de IA no estén claros sobre cómo y dónde se utilizarán los datos de los usuarios. Sin negociar o conocer sus derechos, agregó, “los consumidores corren el riesgo de que sus datos se reutilicen de formas que no les gusten o que no entiendan o anticipen, y tendrán pocos recursos si es así”.
Cuando los entrenadores de IA comparten sus datos en Neon Mobile y Kled AI, otorgan una licencia carte blanche (mundial, exclusiva, irrevocable, transferible y libre de regalías) para vender, usar, exhibir públicamente y almacenar su imagen, e incluso crear obras derivadas de ellos.
Avi Patel, fundador de Kled AI, dijo que los acuerdos de datos de su empresa limitan el uso al entrenamiento de la IA y a fines de investigación. “Todo el negocio depende de la confianza del usuario. Si los colaboradores creen que sus datos podrían ser mal utilizados, la plataforma deja de funcionar”. Dijo que su empresa evalúa a las empresas antes de vender conjuntos de datos, para evitar trabajar con aquellas con “intenciones cuestionables”, como la pornografía y “organismos gubernamentales” que creen que podrían usar los datos de manera que entren en conflicto con esa confianza.
Neon Mobile no respondió a una solicitud de comentarios.
Según Enrico Bonadio, profesor de derecho en City St George’s, University of London, los términos de estos acuerdos permiten a las plataformas, así como a sus clientes, hacer “casi cualquier cosa con ese material, para siempre, sin pago adicional y sin una forma realista para que el colaborador retire el consentimiento o renegocie significativamente”.
Los riesgos más preocupantes incluyen el uso de los datos de los entrenadores para deepfakes y la suplantación de identidad. Aunque los mercados de datos afirman eliminar cualquier identificación de los datos, como el nombre y la ubicación, antes de venderlos, los patrones biométricos son, por naturaleza, difíciles de anonimizar de forma sólida, agregó Bonadio.
Arrepentimiento del vendedor
Incluso cuando los entrenadores de IA pueden negociar protecciones más matizadas sobre cómo se utilizarán sus datos, aún pueden sentir arrepentimiento. Cuando Adam Coy, un actor de Nueva York, vendió su imagen en 2024 por 1.000 dólares a Captions, un editor de video impulsado por IA que ahora se llama Mirage, su acuerdo aseguró que su identidad no se utilizaría para fines políticos o para vender alcohol, tabaco o pornografía, y que la licencia expiraría en un año.
Captions no respondió a una solicitud de comentarios.
Poco después, los amigos de Adam comenzaron a enviarle videos que encontraron en línea con su rostro y su voz, obteniendo millones de visitas. En uno de estos videos, un reel de Instagram, el réplica de IA de Adam afirma ser un “médico vaginal” y promociona suplementos médicos no probados para mujeres embarazadas y en período de posparto.
“Fue vergonzoso tener que explicárselo a la gente”, dijo Coy.
“Los comentarios son extraños de leer porque comentan sobre mi apariencia física, pero en realidad no soy yo”, agregó Coy. “Mi sentimiento [al decidir vender mi imagen] fue que la mayoría de los modelos iban a extraer datos e imagen de internet de todos modos, así que igual podría que me pagaran por ello”.
Coy dijo que no se ha inscrito en ningún trabajo de datos de IA desde entonces. Solo lo consideraría, dijo, si una empresa ofreciera una compensación importante.
