Home TecnologíaDatos Erróneos en Investigación: Impacto, Causas y Soluciones

Datos Erróneos en Investigación: Impacto, Causas y Soluciones

by Editor de Tecnologia

Puntos clave

  • Un conjunto de datos de acceso abierto ha puesto de manifiesto cómo los datos erróneos pueden propagarse por todo el ecosistema de la investigación.
  • Cuando se entrena con conjuntos de datos no validados, el aprendizaje automático puede amplificar la desinformación, erosionar la confianza en la ciencia y perjudicar a las poblaciones vulnerables.
  • La aplicación de sistemas de procedencia de datos podría desempeñar un papel fundamental en la prevención de la corrupción de los datos en los registros científicos.

Recientemente, la inclusión de un conjunto de datos no validado en la literatura médica expuso varias debilidades en la gobernanza de los datos. El conjunto de datos se subió a Kaggle, una gran plataforma en línea donde los usuarios pueden compartir datos, código y modelos de acceso público, y presentaba fallos fundamentales. Su desarrollador había recopilado imágenes no verificadas de niños de sitios web relacionados con el autismo para entrenar un modelo de inteligencia artificial (IA) con el fin de “detectar la presencia o ausencia de autismo” a partir de las imágenes extraídas.

Un revisor perspicaz expuso el problema solo en la etapa de publicación; a diciembre de 2025, se estimaba que más de 90 artículos publicados habían incorporado los datos erróneos, lo que llevó a investigaciones y a la retractación de una decena de ellos.

Este tipo de fallos en la integridad y la gobernanza de los datos son especialmente importantes debido a su aparición temprana en el ciclo de vida de la investigación y, dado que los conjuntos de datos de acceso abierto impulsan la investigación de aprendizaje automático y otras IA a gran escala, los análisis pueden generarse y publicarse a una velocidad y escala sin precedentes, lo que permite que los problemas de datos se propaguen más rápidamente por todo el ecosistema de la investigación. Lejos de ser un incidente aislado, esta situación pone de relieve la necesidad de soluciones de gobernanza de datos más sólidas y proactivas.

El impacto de los datos erróneos

Anne Borden es una defensora del autismo, periodista y autora del próximo libro The Informed Parent, una guía para la toma de decisiones para los padres de niños autistas. Para Borden, la prioridad aquí es aprender de esta “extraña historia” y solucionar el problema sin demora. “Realmente hay que evitar que la desinformación se perpetúe bajo la bandera de la ciencia”, afirma, “porque una vez que está ahí fuera, se acabó. Internet es para siempre”.

leer más  Arc Raiders: Nuevo contenido hasta abril y ritmo de actualizaciones constante

Datos erróneos, ciencia errónea: ¿quién debe solucionar esto?

¿Quiénes son los custodios de los buenos datos durante su migración de una hoja de cálculo al registro científico? ¿Qué papel debe desempeñar cada parte interesada en el mantenimiento de la integridad de los datos? Si bien la responsabilidad de la gobernanza de datos se distribuye entre muchos agentes (incluidos los investigadores y los reguladores), las plataformas de intercambio de datos, las instituciones de investigación y financiación y las editoriales académicas ayudan a determinar cómo se comparten, verifican e incorporan los datos al registro científico.

Las plataformas de intercambio de datos

Las bases de datos y los repositorios de datos de acceso abierto, como Kaggle y GitHub, son recursos populares que los desarrolladores de software y los científicos de datos utilizan para entrenar sus algoritmos de aprendizaje automático de forma gratuita. El desarrollo de software se beneficia de estos repositorios, pero los conjuntos de datos que albergan a menudo carecen de la documentación, la gobernanza y las prácticas de calidad necesarias para una investigación médica o un desarrollo de algoritmos clínicos cuidadosos.

Alan Katz, MBChB, MSc, CCFP, es profesor de medicina familiar y ciencias de la salud comunitaria y científico senior en el Manitoba Centre for Health Policy (MCHP). Katz consideró las revelaciones sobre el conjunto de datos “impactantes, pero también no sorprendentes” debido a la rápida expansión de las bases de datos de acceso abierto y su uso generalizado en la investigación de aprendizaje automático y la IA. Las plataformas de intercambio de datos de estilo Kaggle difieren marcadamente de las bases de datos médicas establecidas, como las mantenidas por el MCHP, que emplea a personal a tiempo completo encargado de validar todos los nuevos datos antes de subirlos. Katz afirma: “Nos tomamos nuestros estándares éticos tan en serio como los ensayos clínicos”.

Elizabeth Green, DPhil, es profesora de empresa y derecho en la Universidad del Oeste de Inglaterra, Bristol. Su investigación se centra en la integridad de los datos y, aunque ha visto casos como este antes, no cree que encerrar los datos sea necesariamente la solución. Por ejemplo, DermAtlas, una base de datos médica de código abierto sobre afecciones de la piel, es un “recurso fantástico”, afirma, y “extremadamente útil, especialmente en el diagnóstico de algunos casos extremadamente raros”. Para equilibrar los riesgos y beneficios de los datos abiertos, el enfoque debería centrarse en la creación de mejores sistemas de gobernanza.

leer más  PS5 vs PS2: Comparativa inevitable

Las instituciones

Otras partes interesadas en el viaje de transformación de los datos son las instituciones que llevan a cabo investigaciones médicas primarias y los organismos públicos que financian esa investigación. ¿Es hora de adoptar y hacer cumplir las normas internacionales de integridad y ética de los datos en todas las instituciones de investigación, o sería una afrenta a la libertad académica?

Los organismos de financiación tradicionalmente han visto con malos ojos a los investigadores que desperdician fondos públicos en pseudociencia, lo que afecta a sus futuras subvenciones. De hecho, en muchas, pero no en todas las regiones del mundo, la financiación está condicionada al mantenimiento de normas éticas de investigación. En Canadá, Katz afirma: “nuestra existencia depende al 100% de que existan esas estrictas directrices éticas”.

Las revistas

La cadena de integridad de la investigación implica a varias partes interesadas, cada una de las cuales tiene funciones distintas en el mantenimiento de los estándares de la investigación académica. Los guardianes del sistema, una de las últimas líneas de defensa, son las revistas académicas. Las revistas tienen un interés en mantener altos estándares académicos y pueden estar bien posicionadas para dictar los términos del compromiso.

Felix Ritchie, PhD, colega de Elizabeth Green, desarrolló el marco de integridad de datos de los Cinco Seguros con este propósito. Ritchie lo describe como “una estructura flexible para pensar en los datos”, que incluye la procedencia y la ética del uso de los datos. Numerosas organizaciones de todo el mundo han adoptado el marco de los Cinco Seguros hasta la fecha, y Australia lo ha legislado recientemente.

Visto desde una perspectiva ética, los Cinco Seguros podrían formar la base de un sistema de procedencia de datos que requiera el cumplimiento antes de que un manuscrito pueda ser considerado para su publicación.

Procedencia de los datos: los Cinco Seguros en acción

El marco de los Cinco Seguros de Ritchie permite una validación eficaz de los datos y, combinado con los estándares éticos modernos, puede restablecer la confianza filtrando las fuentes de datos a través de cinco pruebas distintas:

  1. Proyecto seguro: Los datos deben ser recopilados éticamente y validados clínicamente por expertos.
  2. Personas seguras: Los investigadores que accedan a los datos deben estar cualificados y específicamente capacitados en el uso de conjuntos de datos basados en la IA.
  3. Datos seguros: Los datos deben ser validados de forma independiente y cualquier acceso o modificación debe ser rastreado.
  4. Entornos seguros: ¿Se adquirieron los datos de salud en un entorno clínico y se almacenaron de forma segura?
  5. Resultados seguros: ¿Se utilizaron metodologías y estadísticas válidas para derivar los resultados?
leer más  Spotify: Nuevo Modo WhatsApp para Compartir Música Fácilmente

Restauración de la integridad de los datos

¿Cómo se puede implementar un sistema de procedencia de datos?

Ritchie cree que aplicar el marco de los Cinco Seguros a un conjunto de datos ético es el camino a seguir. “Existe la necesidad de un registro de conjuntos de datos validados y éticos”, afirma, “que realmente cambiaría las reglas del juego”.

Un posible flujo de trabajo podría incluir lo siguiente:

  1. Los datos son recopilados por expertos médicos y validados por un servicio de certificación de terceros.
  2. Los datos se almacenan en un registro de datos acreditado y se protegen con ciberseguridad blockchain, la misma tecnología que salvaguarda las transacciones financieras.
  3. Los investigadores acceden a estos conjuntos de datos y los utilizan para fines de investigación aprobados.
  4. Un manuscrito presentado necesitaría la aprobación ética y un certificado de seguridad de datos antes de la verificación por parte del equipo de integridad de la investigación de una revista.

Ritchie lo resume a la perfección: “A menos que utilices un conjunto de datos validado, no vas a ser publicado, compañero”. Ese es un incentivo poderoso.

Oportunidad de autorreflexión y corrección

El aprendizaje automático y otras tecnologías de la IA tienen la capacidad de transformar la investigación médica de formas que apenas estamos empezando a comprender. Sin embargo, las debilidades humanas, como la confianza ciega en los datos de acceso abierto y la falta de supervisión ética institucional dentro de nuestra cultura de “publicar o perecer”, han demostrado lo rápido con que estas tecnologías pueden amplificar la desinformación.

Si bien el impacto de esta situación se contuvo en última instancia, sigue siendo una importante oportunidad de autorreflexión para todos en el ecosistema de la investigación. Es una oportunidad y, quizás, una responsabilidad de corregir los fallos y evitar que la historia se repita.

© JMIR Publications. Publicado originalmente en el Journal of Medical Internet Research (https://www.jmir.org), 12 de marzo de 2026.

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.