Nuevo enfoque adaptativo transforma cómo se evalúan los modelos de inteligencia artificial
Investigadores de Stanford han revolucionado la evaluación de modelos de IA con un método que reduce costos hasta 80% y hace comparaciones más justas entre modelos.
4 min lectura
Autor - Aldo Venuta Rodríguez

El problema de la evaluación tradicional
Evaluar modelos de lenguaje de inteligencia artificial se ha convertido en un proceso tan costoso como entrenar los propios modelos. Los desarrolladores tradicionalmente someten sus sistemas a cientos de miles de preguntas de referencia que requieren revisión manual, aumentando significativamente tiempo y costos de desarrollo.
Los métodos actuales enfrentan limitaciones críticas: no pueden aplicar todas las preguntas disponibles debido a restricciones prácticas, llevando a seleccionar subconjuntos sesgados hacia preguntas más fáciles que sobrestiman las mejoras reales del modelo.
La Teoría de Respuesta al Ítem aplicada a IA
Los investigadores adoptaron un concepto educativo de décadas de antigüedad conocido como Teoría de Respuesta al Ítem, que considera la dificultad de las preguntas al evaluar a los examinados. Sanmi Koyejo, profesora adjunta que dirigió la investigación, lo compara con pruebas estandarizadas como el SAT.
"La observación clave que hacemos es que también hay que tener en cuenta la dificultad de las preguntas", explica Koyejo. "Algunos modelos pueden tener mejores o peores resultados simplemente por pura casualidad. Intentamos anticiparnos a eso y ajustarlo para hacer comparaciones más justas".
El sistema funciona como las pruebas adaptativas: cada respuesta correcta o incorrecta modifica la siguiente pregunta. Los investigadores utilizan modelos lingüísticos para analizar y calificar las preguntas según su dificultad, permitiendo comparar el rendimiento relativo de dos modelos de manera más precisa.
Esta aproximación elimina el sesgo inherente en las evaluaciones tradicionales, donde algunos modelos obtienen mejores puntajes por casualidad al recibir conjuntos de preguntas más simples, distorsionando la percepción real de su rendimiento.
Generación automatizada y calibración de preguntas
Para construir bancos de preguntas amplios y bien calibrados de forma rentable, los investigadores desarrollaron un generador de preguntas que utiliza las capacidades generativas de la IA. Este sistema puede ajustarse al nivel de dificultad deseado y automatiza la reposición de bancos de preguntas.
El generador también elimina preguntas "contaminadas" de la base de datos, aquellas que podrían haber sido utilizadas durante el entrenamiento de los modelos evaluados, asegurando evaluaciones más limpias y confiables.
Resultados experimentales y validación
Koyejo probó el sistema con 22 conjuntos de datos y 172 modelos de lenguaje, descubriendo que se adapta fácilmente tanto a nuevos modelos como a nuevas preguntas. El enfoque funciona en todos los ámbitos del conocimiento, desde medicina y matemáticas hasta derecho.
El método permitió detectar cambios sutiles en la seguridad de GPT 3.5 a lo largo del tiempo, registrando primero mejoras y luego retrocesos en varias variantes probadas durante 2023. La seguridad de modelos mide la robustez ante manipulación de datos, ataques adversarios y otros riesgos.
Los resultados demuestran que el sistema no solo reduce costos, sino que proporciona mediciones más estables y reproducibles del rendimiento real de los modelos, eliminando la variabilidad causada por la selección aleatoria de preguntas.
"Este proceso de evaluación a menudo puede costar tanto o más que la propia capacitación", añade Sang Truong. "Hemos creado una infraestructura que nos permite seleccionar subconjuntos de preguntas de forma adaptativa según su dificultad. Esto nivela las condiciones de competencia".
Impacto en el futuro de la IA
Con preguntas mejor diseñadas, otros profesionales del sector pueden realizar mejores evaluaciones de rendimiento con subconjuntos mucho más reducidos de consultas. Este enfoque es más rápido, más justo y significativamente menos costoso que los métodos tradicionales.
"Y para todos los demás", concluye Koyejo, "significará un progreso más rápido y una mayor confianza en las herramientas de inteligencia artificial en rápida evolución".
Fuentes: Stanford Report
Preguntas frecuentes
- 💬 Es un concepto educativo que considera la dificultad de preguntas al evaluar. En IA, permite comparaciones más justas entre modelos ajustando según dificultad de las preguntas.
- 💬 Reduce los costos hasta 80% en algunos casos, mientras mantiene la precisión al seleccionar subconjuntos de preguntas de forma adaptativa.
- 💬 Funciona en todos los ámbitos del conocimiento: medicina, matemáticas, derecho y cualquier área donde se evalúen modelos de lenguaje.
- 💬 Es más rápido, justo y económico. Elimina sesgos por dificultad de preguntas y permite detectar cambios sutiles en el rendimiento de los modelos.
Continúa informándote

Elon Musk intenta impedir que OpenAI obtenga archivos de Meta relacionados con su intento fallido de compra
Elon Musk pidió a un juez bloquear a OpenAI en su acceso a archivos de Meta vinculados a su fallido intento de comprar la startup de inteligencia artificial

OpenAI y Sam Altman enfrentan demanda tras el suicidio de un adolescente en California vinculado a ChatGPT
Padres demandan a OpenAI y Sam Altman alegando que ChatGPT validó y enseñó métodos de suicidio a su hijo de 16 años en California

GPT6 llegará con memoria y personalización anuncia Sam Altman
GPT6 traerá memoria y ajustes personalizados para los usuarios de ChatGPT según confirmó Sam Altman en un evento en San Francisco

Google estrena AI Mode y desplaza los enlaces clásicos por respuestas generadas con IA
Google lanza AI Mode, un botón que sustituye los enlaces de siempre por respuestas creadas por inteligencia artificial, marcando un cambio histórico en su buscador

¿Pagar a los robots por trabajar? La propuesta que puede transformar la economía humana
La idea de otorgar un “salario” a las máquinas reabre el debate sobre el futuro del trabajo, la redistribución de riqueza y el papel de la inteligencia artificial en la economía
Continúa informándote

Un estudio revela que el permafrost contribuyó a casi la mitad del aumento de CO₂ después de la edad de hielo
Investigadores de la Universidad de Gotemburgo demostraron que el deshielo del permafrost liberó enormes cantidades de carbono tras la última glaciación

Los primeros caballos genéticamente modificados generan polémica en el polo argentino
Cinco potros clonados y editados con CRISPR desatan un debate en Argentina entre la innovación científica y la tradición del polo

Un estudio revela la causa del enlentecimiento temporal de las ondas sísmicas después de un sismo
Investigadores del GFZ identifican la fricción entre granos de roca como la clave detrás de la ralentización de ondas sísmicas tras un terremoto

Argentina alcanza su mayor producción de petróleo en 26 años y se prepara para un nuevo récord histórico
La producción petrolera superó los 800.000 barriles diarios en julio gracias a Vaca Muerta y el país podría romper el récord de 1998 antes de fin de año

Estados Unidos despliega una flota en el Caribe y crecen las dudas sobre su verdadero objetivo
La Casa Blanca asegura que el despliegue busca combatir el narcotráfico pero Caracas y analistas lo interpretan como presión militar sobre Maduro

El cambio climático y los monzones amenazan la seguridad hídrica en el Himalaya y Asia Central
Una investigación muestra que los monzones intensifican el retroceso glaciar en Asia y ponen en riesgo el acceso al agua de más de 1400 millones de personas

La IA ya no es opcional en el trabajo: empresas despiden a quienes se niegan a usarla
Grandes tecnológicas y startups ya exigen a sus empleados usar IA en tareas diarias, despidiendo a quienes se resisten a adoptarla

Jueza federal bloquea la ampliación de deportaciones rápidas de migrantes impulsada por Trump
Una jueza suspendió expansión de deportaciones rápidas impulsada por Trump por riesgo de expulsiones erróneas y falta de debido proceso para migrantes

Descubren araña que aprovecha la luz de las luciérnagas para atraer más presas
Descubren araña que aprovecha la luz de las luciérnagas atrapadas en su telaraña como cebo para atraer más presas en bosques de Asia

El telescopio James Webb revela un inesperado exceso de dióxido de carbono en un disco de formación planetaria
Astrónomos hallaron con el telescopio James Webb un disco protoplanetario con abundante dióxido de carbono y escasa agua desafiando teorías de formación planetaria