Tecnología
Publicado:

Nuevo enfoque adaptativo transforma cómo se evalúan los modelos de inteligencia artificial

Investigadores de Stanford han revolucionado la evaluación de modelos de IA con un método que reduce costos hasta 80% y hace comparaciones más justas entre modelos.

4 min lectura
inteligencia artificial
Imagen ilustrativa. Créditos: Iceebook

El problema de la evaluación tradicional

Evaluar modelos de lenguaje de inteligencia artificial se ha convertido en un proceso tan costoso como entrenar los propios modelos. Los desarrolladores tradicionalmente someten sus sistemas a cientos de miles de preguntas de referencia que requieren revisión manual, aumentando significativamente tiempo y costos de desarrollo.

Los métodos actuales enfrentan limitaciones críticas: no pueden aplicar todas las preguntas disponibles debido a restricciones prácticas, llevando a seleccionar subconjuntos sesgados hacia preguntas más fáciles que sobrestiman las mejoras reales del modelo.

La Teoría de Respuesta al Ítem aplicada a IA

Los investigadores adoptaron un concepto educativo de décadas de antigüedad conocido como Teoría de Respuesta al Ítem, que considera la dificultad de las preguntas al evaluar a los examinados. Sanmi Koyejo, profesora adjunta que dirigió la investigación, lo compara con pruebas estandarizadas como el SAT.

"La observación clave que hacemos es que también hay que tener en cuenta la dificultad de las preguntas", explica Koyejo. "Algunos modelos pueden tener mejores o peores resultados simplemente por pura casualidad. Intentamos anticiparnos a eso y ajustarlo para hacer comparaciones más justas".

El sistema funciona como las pruebas adaptativas: cada respuesta correcta o incorrecta modifica la siguiente pregunta. Los investigadores utilizan modelos lingüísticos para analizar y calificar las preguntas según su dificultad, permitiendo comparar el rendimiento relativo de dos modelos de manera más precisa.

Esta aproximación elimina el sesgo inherente en las evaluaciones tradicionales, donde algunos modelos obtienen mejores puntajes por casualidad al recibir conjuntos de preguntas más simples, distorsionando la percepción real de su rendimiento.

Generación automatizada y calibración de preguntas

Para construir bancos de preguntas amplios y bien calibrados de forma rentable, los investigadores desarrollaron un generador de preguntas que utiliza las capacidades generativas de la IA. Este sistema puede ajustarse al nivel de dificultad deseado y automatiza la reposición de bancos de preguntas.

El generador también elimina preguntas "contaminadas" de la base de datos, aquellas que podrían haber sido utilizadas durante el entrenamiento de los modelos evaluados, asegurando evaluaciones más limpias y confiables.

Resultados experimentales y validación

Koyejo probó el sistema con 22 conjuntos de datos y 172 modelos de lenguaje, descubriendo que se adapta fácilmente tanto a nuevos modelos como a nuevas preguntas. El enfoque funciona en todos los ámbitos del conocimiento, desde medicina y matemáticas hasta derecho.

El método permitió detectar cambios sutiles en la seguridad de GPT 3.5 a lo largo del tiempo, registrando primero mejoras y luego retrocesos en varias variantes probadas durante 2023. La seguridad de modelos mide la robustez ante manipulación de datos, ataques adversarios y otros riesgos.

Los resultados demuestran que el sistema no solo reduce costos, sino que proporciona mediciones más estables y reproducibles del rendimiento real de los modelos, eliminando la variabilidad causada por la selección aleatoria de preguntas.

"Este proceso de evaluación a menudo puede costar tanto o más que la propia capacitación", añade Sang Truong. "Hemos creado una infraestructura que nos permite seleccionar subconjuntos de preguntas de forma adaptativa según su dificultad. Esto nivela las condiciones de competencia".

Impacto en el futuro de la IA

Con preguntas mejor diseñadas, otros profesionales del sector pueden realizar mejores evaluaciones de rendimiento con subconjuntos mucho más reducidos de consultas. Este enfoque es más rápido, más justo y significativamente menos costoso que los métodos tradicionales.

"Y para todos los demás", concluye Koyejo, "significará un progreso más rápido y una mayor confianza en las herramientas de inteligencia artificial en rápida evolución".

Fuentes: Stanford Report

Preguntas frecuentes

¿Qué es la Teoría de Respuesta al Ítem y cómo se aplica a la IA?

Es un concepto educativo que considera la dificultad de preguntas al evaluar. En IA, permite comparaciones más justas entre modelos ajustando según dificultad de las preguntas.

¿Cuánto reduce los costos este nuevo método de evaluación?

Reduce los costos hasta 80% en algunos casos, mientras mantiene la precisión al seleccionar subconjuntos de preguntas de forma adaptativa.

¿En qué campos se puede aplicar esta evaluación?

Funciona en todos los ámbitos del conocimiento: medicina, matemáticas, derecho y cualquier área donde se evalúen modelos de lenguaje.

¿Qué ventajas ofrece sobre la evaluación tradicional?

Es más rápido, justo y económico. Elimina sesgos por dificultad de preguntas y permite detectar cambios sutiles en el rendimiento de los modelos.

Compartir artículo

Continúa informándote