El modelo de IA de Naver Cloud, que fue rechazado en la selección nacional de inteligencia artificial (IA), ha demostrado un rendimiento dentro del rango aprobado en las evaluaciones globales de referencia de IA. Esto ha generado un creciente debate sobre los criterios de evaluación para seleccionar la IA que representará al país, en particular entre el rendimiento y los requisitos de originalidad. Existe la preocupación de que un enfoque excesivo en la originalidad pueda obstaculizar el progreso en el desarrollo de modelos de IA nacionales.
Naver, en tercer lugar considerando solo el rendimiento
El 28 de enero, W&B (Weight & Biases), una empresa global de soluciones de evaluación del rendimiento de la IA, evaluó cinco modelos de IA que participaron en el proyecto de desarrollo de modelos fundacionales de IA independientes (DokpaMo). El modelo de Naver obtuvo una puntuación de 63.3 (sobre 100) y se situó en tercer lugar entre las cinco empresas. Le siguen LG AI Research (67.58 puntos) y SK Telecom (64.87 puntos). El modelo de Upstage, que superó a Naver en la primera evaluación de DokpaMo celebrada el 15 de enero y avanzó a la siguiente ronda, obtuvo una puntuación de 62.05 puntos, quedando en cuarto lugar. El modelo de NC AI obtuvo la puntuación más baja.
W&B evaluó el modelo de Naver, señalando que, aunque la escala de los parámetros (variables) que determinan la inteligencia de la IA es de 32 mil millones, la más pequeña entre las cinco empresas, su rendimiento se ha mejorado gracias a un diseño eficiente. El informe afirma que “(Naver) compite a la par, a pesar de tener un tamaño de un tercio del de otros modelos de IA, y ha obtenido el tercer lugar en la clasificación general”, y que “la calidad de los datos en coreano recopilados por Naver es buena y la eficiencia del aprendizaje de la IA es notablemente alta”.
김영옥 기자
Fundada en Estados Unidos en 2017, W&B es una empresa de desarrollo de soluciones que verifica los resultados del aprendizaje de la IA, los pesos y otros datos. Funciona como una herramienta de medición para verificar el rendimiento de los modelos de IA. Las grandes empresas tecnológicas globales como OpenAI, Nvidia y Meta también utilizan W&B al desarrollar su propia IA. Las empresas que participaron en la selección nacional de IA también utilizaron W&B para las comprobaciones intermedias. W&B utilizó su propio punto de referencia, ‘Tiger Leaderboard4’, desarrollado para evaluar el rendimiento de los LLM (modelos de lenguaje de gran escala) en coreano, para llevar a cabo esta evaluación. El punto de referencia mide el rendimiento del modelo de IA combinando 22 puntos de referencia que evalúan la inferencia, las matemáticas y la codificación. W&B planea publicar los resultados de este punto de referencia en la plataforma de desarrolladores global ‘GitHub’.
Rendimiento vs. Originalidad: Debate sobre los criterios de evaluación
El debate sobre los criterios de evaluación de DokpaMo se ha intensificado en la industria de la IA, dado que el modelo de IA de Naver, que fue rechazado en la primera evaluación de DokpaMo, ha demostrado un mejor rendimiento que el modelo de IA de Upstage, que avanzó a la siguiente ronda. El Ministerio de Ciencia y TIC publicó los criterios de evaluación el 15 de enero, al anunciar los resultados de la primera evaluación. La puntuación de la evaluación cuantitativa, que representa el rendimiento del modelo de IA en valores numéricos, se fijó en un 40%. La puntuación se calculó promediando ponderadamente los puntos de referencia desarrollados por el Instituto Nacional de Inteligencia Artificial (NIA) y los puntos de referencia globales. El resto se completó con evaluaciones cualitativas, como la evaluación de expertos (35 puntos) y la evaluación de usuarios reales (25 puntos). Aunque el Ministerio de Ciencia y TIC no reveló la clasificación de la evaluación cuantitativa, explicó que “(Naver) no cumplió con los criterios de originalidad en la evaluación cualitativa y, por lo tanto, fue rechazado”. Esto se debe a que Naver utilizó el ‘codificador de visión’ del modelo de IA de código abierto chino Qwen en el modelo de IA de DokpaMo.
El Ministerio de Ciencia y TIC comentó sobre los resultados del punto de referencia de W&B que “los criterios de evaluación se discutieron a fondo y se aplicaron con las empresas participantes en la selección, asegurando la equidad y la objetividad”, y que “se consideró que basar la clasificación de los modelos de IA únicamente en un punto de referencia global (W&B) carecía de objetividad”.

지난 15일 류제명 과학기술정보통신부 2차관이 서울 종로구 정부서울청사에서 독자 AI 파운데이션 모델 프로젝트 1차 단계 평가 결과를 브리핑하고 있다. 뉴스1
En la industria de la IA, se argumenta que los estrictos requisitos de originalidad del proyecto DokpaMo no se ajustan a las tendencias globales. Se explica que si se insiste en los modelos nacionales e se ignoran los modelos de código abierto extranjeros, la velocidad de desarrollo de los modelos de IA solo se ralentizará. En este caso, incluso si se selecciona finalmente un modelo de IA nacional, las empresas nacionales podrían ignorarlo y utilizar modelos de IA extranjeros. El Instituto de Estudios Finales Hyun publicó un informe el 14 de enero en el que reconocía la necesidad de desarrollar modelos de IA independientes, pero diagnosticaba que el uso de modelos de código abierto podría ser racional en términos de eficiencia y sostenibilidad. El instituto señaló que “si se obliga a aplicar una IA con un rendimiento insuficiente solo por ser de fabricación nacional, el ecosistema de TI coreano podría aislarse como ActiveX o la certificación de firma digital”, y que “en cambio, Corea podría quedar desconectada de los estándares globales y convertirse en un ‘Galápagos'”.
También se alzan voces que piden que los criterios de evaluación se revisen centrándose en la practicidad. Un ejecutivo de una startup de desarrollo de IA nacional comentó: “Para que se produzca la transformación de la IA (AX), las empresas nacionales deben utilizar la IA nacional, pero si el rendimiento es bajo, al final solo las instituciones públicas la utilizarán”, y criticó que “también es un problema que el peso de la practicidad, como la rentabilidad (rendimiento en relación con el precio del token) o la compatibilidad con los agentes de IA (asistentes), que son importantes para las empresas, sea pequeño en la evaluación”. Un funcionario del Ministerio de Ciencia y TIC respondió a esto diciendo que “la practicidad se evaluó a través de evaluaciones cualitativas, como la evaluación de usuarios reales, y que los criterios se fortalecerán aún más en la segunda evaluación”.
Sin embargo, también existe la contraargumentación de que la originalidad no puede excluirse por completo de los criterios de evaluación, dado que se trata de seleccionar una IA nacional representativa. El Ministerio de Ciencia y TIC también especificó en su convocatoria para una nueva oportunidad para los modelos de IA nacionales el 23 de enero que “incluso si se utilizan modelos de IA extranjeros, la inicialización de los pesos y el reentrenamiento se consideran la condición mínima de originalidad”. Sin embargo, también se ha expresado la opinión de que es difícil establecer un plan de desarrollo porque el gobierno no ha especificado cómo se utilizará el modelo de IA nacional en el futuro. Un representante de una empresa de desarrollo de IA dijo: “Sería mejor que el gobierno presentara el uso y la hoja de ruta de desarrollo de la IA nacional”.
Si desea obtener más detalles sobre el artículo, pegue el enlace en la barra de direcciones.
Explicación de la ‘selección nacional de IA’ impactante… ¿Por qué Naver fue descalificado en la primera ronda?
La eliminación en la primera ronda del campeón local fue impactante. Esta es la historia de Naver, que sufrió una derrota en la primera evaluación del proyecto de IA nacional. Naver, que ha defendido constantemente la necesidad de un modelo de IA coreano independiente y ha desarrollado la serie HyperCLOVA, el primer modelo de IA generativa del país, fue quien lo hizo. Naver fue rechazado por “no cumplir con los criterios de originalidad”. Es, de hecho, una descalificación. ¿Cuántos entenderán realmente esta controversia? Se dice que Upstage está bien porque es ‘desde cero’, y que Naver tiene un problema porque utiliza el ‘codificador de visión’ chino. ¿Cuál es la clave y la verdad de esta controversia? Factpl ha analizado la IA nacional desde sus cimientos para que incluso los estudiantes de humanidades puedan entenderla. ¡Una completa conquista de la controversia de la IA nacional con un informe sencillo que elimina la jerga especializada! https://www.joongang.co.kr/article/25399502
“No adules a los humanos como ChatGPT” La razón por la que ‘Gemini’, el descortés, se está convirtiendo en una tendencia
Google, liderado por Gemini, está ascendiendo a un ritmo aterrador en el mercado de la IA generativa, que antes era dominado por ChatGPT. Sam Altman, CEO de OpenAI, incluso emitió una fase de emergencia de ‘Código Rojo’ a finales del año pasado. Sin embargo, la situación era exactamente lo contrario hace apenas dos años. A principios de 2023, Bard (el predecesor de Gemini) se lanzó apresuradamente, pero expuso descaradamente las alucinaciones (mentiras plausibles de la IA) en una demostración, lo que resultó en una vergüenza. Las acciones cayeron más del 7% en un solo día. ¿Cómo pudo Google dar un giro dramático? Si te interesa la estrategia de IA que ha impulsado a Google a un hito de 4 billones de dólares y si Google puede convertirse en el ganador final en la batalla para convertir la IA en el ‘valor predeterminado’ más allá de la era móvil.
https://www.joongang.co.kr/article/25400289
