Nuevo enfoque adaptativo transforma cómo se evalúan los modelos de inteligencia artificial
Investigadores de Stanford han revolucionado la evaluación de modelos de IA con un método que reduce costos hasta 80% y hace comparaciones más justas entre modelos.
4 min lectura
Autor - Aldo Venuta Rodríguez

El problema de la evaluación tradicional
Evaluar modelos de lenguaje de inteligencia artificial se ha convertido en un proceso tan costoso como entrenar los propios modelos. Los desarrolladores tradicionalmente someten sus sistemas a cientos de miles de preguntas de referencia que requieren revisión manual, aumentando significativamente tiempo y costos de desarrollo.
Los métodos actuales enfrentan limitaciones críticas: no pueden aplicar todas las preguntas disponibles debido a restricciones prácticas, llevando a seleccionar subconjuntos sesgados hacia preguntas más fáciles que sobrestiman las mejoras reales del modelo.
La Teoría de Respuesta al Ítem aplicada a IA
Los investigadores adoptaron un concepto educativo de décadas de antigüedad conocido como Teoría de Respuesta al Ítem, que considera la dificultad de las preguntas al evaluar a los examinados. Sanmi Koyejo, profesora adjunta que dirigió la investigación, lo compara con pruebas estandarizadas como el SAT.
"La observación clave que hacemos es que también hay que tener en cuenta la dificultad de las preguntas", explica Koyejo. "Algunos modelos pueden tener mejores o peores resultados simplemente por pura casualidad. Intentamos anticiparnos a eso y ajustarlo para hacer comparaciones más justas".
El sistema funciona como las pruebas adaptativas: cada respuesta correcta o incorrecta modifica la siguiente pregunta. Los investigadores utilizan modelos lingüísticos para analizar y calificar las preguntas según su dificultad, permitiendo comparar el rendimiento relativo de dos modelos de manera más precisa.
Esta aproximación elimina el sesgo inherente en las evaluaciones tradicionales, donde algunos modelos obtienen mejores puntajes por casualidad al recibir conjuntos de preguntas más simples, distorsionando la percepción real de su rendimiento.
Generación automatizada y calibración de preguntas
Para construir bancos de preguntas amplios y bien calibrados de forma rentable, los investigadores desarrollaron un generador de preguntas que utiliza las capacidades generativas de la IA. Este sistema puede ajustarse al nivel de dificultad deseado y automatiza la reposición de bancos de preguntas.
El generador también elimina preguntas "contaminadas" de la base de datos, aquellas que podrían haber sido utilizadas durante el entrenamiento de los modelos evaluados, asegurando evaluaciones más limpias y confiables.
Resultados experimentales y validación
Koyejo probó el sistema con 22 conjuntos de datos y 172 modelos de lenguaje, descubriendo que se adapta fácilmente tanto a nuevos modelos como a nuevas preguntas. El enfoque funciona en todos los ámbitos del conocimiento, desde medicina y matemáticas hasta derecho.
El método permitió detectar cambios sutiles en la seguridad de GPT 3.5 a lo largo del tiempo, registrando primero mejoras y luego retrocesos en varias variantes probadas durante 2023. La seguridad de modelos mide la robustez ante manipulación de datos, ataques adversarios y otros riesgos.
Los resultados demuestran que el sistema no solo reduce costos, sino que proporciona mediciones más estables y reproducibles del rendimiento real de los modelos, eliminando la variabilidad causada por la selección aleatoria de preguntas.
"Este proceso de evaluación a menudo puede costar tanto o más que la propia capacitación", añade Sang Truong. "Hemos creado una infraestructura que nos permite seleccionar subconjuntos de preguntas de forma adaptativa según su dificultad. Esto nivela las condiciones de competencia".
Impacto en el futuro de la IA
Con preguntas mejor diseñadas, otros profesionales del sector pueden realizar mejores evaluaciones de rendimiento con subconjuntos mucho más reducidos de consultas. Este enfoque es más rápido, más justo y significativamente menos costoso que los métodos tradicionales.
"Y para todos los demás", concluye Koyejo, "significará un progreso más rápido y una mayor confianza en las herramientas de inteligencia artificial en rápida evolución".
Fuentes: Stanford Report
Preguntas frecuentes
- 💬 Es un concepto educativo que considera la dificultad de preguntas al evaluar. En IA, permite comparaciones más justas entre modelos ajustando según dificultad de las preguntas.
- 💬 Reduce los costos hasta 80% en algunos casos, mientras mantiene la precisión al seleccionar subconjuntos de preguntas de forma adaptativa.
- 💬 Funciona en todos los ámbitos del conocimiento: medicina, matemáticas, derecho y cualquier área donde se evalúen modelos de lenguaje.
- 💬 Es más rápido, justo y económico. Elimina sesgos por dificultad de preguntas y permite detectar cambios sutiles en el rendimiento de los modelos.
Continúa informándote

Accionistas demandan a Zuckerberg por 8 mil millones exigiendo un reembolso de multas por violaciones de la privacidad
El CEO de Meta deberá testificar en un juicio histórico donde se le acusa de operar Facebook como una empresa ilegal que recopilaba datos sin consentimiento

Desarrollan una pulsera inteligente que avisa cuándo necesitas beber agua antes de deshidratarte
Investigadores de la Universidad de Texas crean sensor portátil no invasivo que monitorea niveles de hidratación en tiempo real mediante bioimpedancia

Elon Musk propone una votación de accionistas para que Tesla invierta en xAI, mientras descarta fusión completa
El magnate tecnológico busca profundizar la integración entre sus empresas sin realizar una fusión total, priorizando el desarrollo de inteligencia artificial

Nvidia consolida su posición con OpenAI mientras Google fracasa en vender sus chips TPU
OpenAI confirmó que no planea usar los procesadores TPU de Google a gran escala, manteniendo su dependencia de las GPU de Nvidia y chips de AMD

Musk refuerza su apuesta por la IA: SpaceX invierte masivamente en xAI para desarrollar Grok
La inversión de 2.000 millones forma parte de una ronda de financiación de 5.000 millones que valora la compañía fusionada en 113.000 millones de dólares
Continúa informándote

Inundaciones repentinas en Nueva York causan dos víctimas mortales en Nueva Jersey
Lluvias torrenciales registran récord histórico en Central Park y colapsan sistema de metro de la ciudad

Empieza el juicio entre inversores de Meta y Zuckerberg por presuntas violaciones de privacidad de usuarios
Accionistas reclaman 8 mil millones de dólares por el escándalo Cambridge Analytica y presunto manejo ilegal de datos de Facebook

Descubren cómo predecir mejor el clima de los próximos 10 años
Investigadores de Leipzig revelan nuevos conocimientos sobre la corriente en chorro que revolucionarán las predicciones climáticas regionales

Descubren el núcleo de hielo más antiguo de Europa con 12.000 años de datos climáticos
Glaciar de Mont Blanc documenta desde cazadores-recolectores hasta la industrialización en registro sin precedentes

Descubren por qué las regiones más brillantes del Sol producen erupciones más lentas
Laboratorio Naval de EE.UU. revela relación inversa que podría revolucionar la predicción del clima espacial

Islandia registra su duodécima erupción volcánica en cuatro años cerca de la capital
Volcán del suroeste emite lava incandescente y obliga a evacuar la Laguna Azul y Grindavik por seguridad

Científicos observan la lenta agonía de un planeta que se desintegra en el espacio
Investigadores estudian TOI-2109b, un Júpiter ultracaliente con período orbital de 16 horas que podría estar cayendo hacia su estrella

NASA prevé descubrir explosiones estelares nunca vistas con telescopio Roman
Estudio proyecta que el futuro observatorio espacial detectará 100.000 explosiones cósmicas y revolucionará el estudio de la energía oscura

¿Son los memes una nueva forma de cómic digital? La ciencia dice que sí
Especialista de la Universidad Estatal de Ohio demuestra que memes y cómics comparten elementos visuales y verbales fundamentales

Incendio del Gran Cañón destruye lodge histórico tras ser dejado arder durante una semana
El fuego Dragon Bravo creció 50% después de arrasar con 70 estructuras y provocar la indignación pública por la estrategia fallida