Las herramientas de inteligencia artificial (IA) prometen una edición de manuscritos más rápida y económica para investigadores de todo el mundo, pero nueva evidencia sugiere que podrían introducir riesgos ocultos que podrían cambiar las reglas de juego en la publicación científica.
Estudio: Does ChatGPT enhance equity for global health publications? Copyediting by ChatGPT compared to Grammarly and a human editor. Crédito de la imagen: Maxx-Studio/Shutterstock.com
Un reciente estudio publicado en PLOS ONE, basado en una comparación preliminar de casos, evaluó la calidad de la corrección de estilo realizada por U-M GPT, Grammarly y un editor humano en dos borradores de artículos de investigación. ChatGPT realizó tres veces más correcciones que un editor humano, pero fue menos preciso, lo que plantea interrogantes sobre si la inteligencia artificial (IA) puede realmente mejorar la equidad en la publicación académica y en qué condiciones puede ayudar u obstaculizar a los investigadores.
La barrera del idioma en la publicación académica
El inglés domina la publicación académica, sin embargo, la mayoría de los investigadores en todo el mundo lo hablan como segunda lengua. Los hablantes no nativos de inglés dedican hasta un 51% más de tiempo a escribir artículos que los hablantes nativos, y aún así se enfrentan al rechazo debido a problemas gramaticales. La edición profesional podría ayudar, pero es prohibitivamente cara.
A menudo, los servicios de edición profesional pueden costar casi la mitad del salario anual de un investigador en sus primeros años en países como Colombia. Esto podría explicar por qué los investigadores de países no angloparlantes siguen estando gravemente subrepresentados en la literatura académica y por qué el idioma se ha descrito como una fuente estructural de desequilibrio de poder en la ciencia global.
Se ha percibido que las herramientas de IA pueden salvar esta brecha. Aunque los correctores gramaticales básicos, como Microsoft Word, Google Docs y Grammarly, han estado disponibles durante años, los modelos de lenguaje grandes (LLM), como ChatGPT, ofrecen nuevas posibilidades para un soporte de edición más sofisticado. Sin embargo, es imperativo evaluar la eficacia y la precisión de estos modelos, así como las nuevas barreras que pueden introducir, incluyendo los requisitos de habilidad técnica y las preocupaciones éticas.
Las primeras investigaciones han dado resultados mixtos: un estudio encontró que ChatGPT proporcionó correcciones gramaticales útiles para escritores no nativos de inglés, mientras que otro contradijo esto, con algunos autores informando que las ediciones de IA a veces “pulían en exceso” la escritura sin mejorar la claridad.
Potencial de corrección de estilo de los LLM en comparación con Grammarly y un editor humano
El estudio actual definió la corrección de estilo como la corrección de gramática, ortografía, sintaxis y puntuación; asegurar la terminología y las convenciones adecuadas; verificar la estructura, la organización y la claridad; y mejorar la legibilidad, el flujo y el estilo. Comparó las correcciones realizadas por U-M GPT, una herramienta de IA generativa segura alojada por la Universidad de Michigan, con las realizadas por Grammarly y un corrector de estilo humano en borradores de manuscritos escritos por investigadores ugandeses de salud sexual y reproductiva.
Dos investigadores ugandeses proporcionaron aprobación por escrito para el uso de sus borradores de manuscritos sobre salud reproductiva. Ambos artículos fueron posteriormente publicados en revistas revisadas por pares. El objetivo principal de la corrección de estilo era ayudar a los investigadores ugandeses a ser aceptados para la revisión por pares.
Los autores evaluaron las secciones de introducción, métodos, resultados y discusión de ambos artículos, así como tablas seleccionadas. En total, solo se analizaron ocho párrafos y dos tablas, y se utilizó un único mensaje integral para probar la viabilidad en el mundo real. Se realizó un análisis de sensibilidad para identificar posibles limitaciones de este enfoque.
Se utilizó la versión web gratuita de Grammarly, que no vende datos de usuarios y restringe el acceso al texto cargado solo a los usuarios. Las correcciones de Grammarly se generaron para un público experto, un tono formal y un dominio de escritura general. Los textos se enviaron a U-M GPT un párrafo o una tabla a la vez, y las correcciones generadas se analizaron. Un corrector de estilo profesional del programa de capacitación CIRHT/PREPSS proporcionó correcciones humanas con acceso a los manuscritos completos, a diferencia de las herramientas de IA que evaluaron extractos aislados.
Los investigadores clasificaron las correcciones de los tres editores, utilizando menos categorías a nivel de oración que estudios anteriores. Señalaron que U-M GPT a veces eliminó información clave, como referencias, lo que rastrearon por separado porque estas eliminaciones representaban riesgos para el significado y la precisión. Los autores también reconocieron que la clasificación de las ediciones fue realizada por un equipo de investigación interno, lo que podría haber introducido involuntariamente un sesgo en la evaluación de la calidad de la edición.
Las herramientas de IA fueron rápidas pero carecían de la eficiencia de la edición humana
El corrector de estilo humano necesitó 3,75 y 4 horas para editar los artículos 1 y 2, respectivamente. En contraste, U-M GPT generó correcciones casi instantáneamente. Sin embargo, crear un documento de cambios rastreados para cada artículo con U-M GPT requirió aproximadamente 30 minutos. Grammarly también generó correcciones en segundos, solicitando a los usuarios que acepten o rechacen los cambios uno por uno, un proceso que tomó aproximadamente 5 minutos.
Solo el corrector de estilo humano pudo corregir tanto el texto como las tablas. U-M GPT sugirió pegar el contenido de la tabla en el chat, pero los investigadores encontraron esto difícil e impráctico. Grammarly no permite la carga de tablas.
Cabe señalar que U-M GPT solicitó aproximadamente tres veces más correcciones que el editor humano y aproximadamente diez veces más que Grammarly. El alcance de las correcciones varió según el editor. Por ejemplo, Grammarly corrigió solo la ortografía y la gramática, mientras que U-M GPT marcó errores de ortografía, gramática, puntuación, espaciado y capitalización. En contraste, el editor humano corrigió la gramática, la puntuación, el espaciado y la capitalización, y marcó texto poco claro en lugar de intentar reescribir pasajes cuyo significado era ambiguo, permitiendo a los autores aclarar su intención.
En cuanto a la legibilidad, U-M GPT produjo la mayoría de los cambios, pero mostró el peor juicio. De sus 83 revisiones, solo el 61% mejoró realmente el texto, mientras que el 14% lo empeoró y el 24% no tuvo ningún efecto. Grammarly realizó solo cinco correcciones de legibilidad, dos proporcionaron mejoras y tres no tuvieron un impacto real. El editor humano realizó 21 correcciones: el 90% mejoró el texto, una fue neutral y una lo empeoró.
U-M GPT también eliminó contenido importante de un artículo, incluidas citas y una referencia de tabla, lo que generó preocupaciones de que los autores, particularmente aquellos con menos confianza en la escritura en inglés, pudieran aceptar ediciones dañinas sin criticarlas.
Conclusiones
El estudio actual destacó una dificultad fundamental en el uso de la IA para la edición académica, particularmente en lo que respecta a la calidad. Si bien U-M GPT generó tres veces más correcciones que un editor humano, solo el 61% realmente mejoró el texto. A pesar de que esta tecnología es rápida y económica, introduce riesgos de eliminar información clave, realizar revisiones cuestionables y bloquear potencialmente el contenido.
La promesa de una mayor equidad en la publicación académica impulsada por la IA sigue siendo incierta. Además de las preocupaciones sobre la calidad, el estudio enfatizó cuestiones de privacidad de datos, los costos ambientales de los modelos de lenguaje grandes y la necesidad de habilidades de ingeniería de mensajes, lo que significa la capacidad de diseñar cuidadosamente las instrucciones de la IA que en sí mismas pueden crear nuevas desigualdades.
A medida que estas herramientas evolucionen, los investigadores necesitan estudios más amplios en diversos tipos de manuscritos para comprender cuándo la edición con IA ayuda y cuándo dificulta. Por ahora, los autores que utilicen herramientas de edición con IA deben proceder con precaución, porque el objetivo no es una edición rápida, sino el acceso a una edición que mejore genuinamente la comunicación de la investigación al tiempo que preserva la voz del autor, el significado y la independencia académica.
Journal reference:
-
August, E., Gray, R., Griffin, Z., Klein, M., Buser, J. M., Morris, K., Endale, T., Teklu, H., Pebolo, P. F., Anderson, E., Laubepin, F., & Smith, Y. R. (2026). Does ChatGPT enhance equity for global health publications? Copyediting by ChatGPT compared to Grammarly and a human editor. PLOS ONE, 21(2), e0342170. DOI: https://doi.org/10.1371/journal.pone.0342170. https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0342170
