Tecnología
Publicado:

Anthropic usa su modelo Claude para detectar decenas de vulnerabilidades en Firefox

Un experimento de Mozilla y Anthropic muestra que un modelo de IA puede analizar miles de archivos de código y detectar vulnerabilidades con gran rapidez.

3 min lectura
Logo de Firefox sobre fondo degradado de colores

La colaboración entre Mozilla y la empresa de inteligencia artificial Anthropic permitió poner a prueba una nueva forma de analizar la seguridad del software. Utilizando el modelo Claude Opus 4.6, los investigadores examinaron el código del navegador Firefox con el objetivo de identificar fallos de seguridad que podrían pasar desapercibidos con herramientas convencionales.

El análisis se llevó a cabo durante dos semanas en enero de 2026. En ese periodo, el sistema identificó 22 vulnerabilidades de seguridad en el navegador. De ellas, 14 fueron clasificadas como de alta gravedad, siete como moderadas y una como baja. Mozilla confirmó que todos estos problemas se corrigieron posteriormente en la versión Firefox 148.

Uno de los aspectos más llamativos del experimento fue la velocidad del análisis. Claude detectó su primer fallo apenas veinte minutos después de comenzar a examinar el código. El error se encontraba en el motor de JavaScript del navegador, uno de los componentes más complejos y críticos para el funcionamiento de las aplicaciones web modernas.

La escala del análisis también fue notable. El modelo revisó aproximadamente 6.000 archivos escritos en C++, el lenguaje utilizado en gran parte del núcleo de Firefox. A partir de ese examen generó 112 informes de errores distintos, que incluían tanto vulnerabilidades de seguridad relevantes como fallos menores y problemas lógicos detectados durante la revisión automatizada.

Las cifras adquieren mayor significado cuando se comparan con los procesos habituales de auditoría de software. Según los datos citados por Anthropic, las vulnerabilidades de alta gravedad detectadas durante este experimento representan casi una quinta parte de todas las vulnerabilidades críticas corregidas en Firefox a lo largo de 2025. Esto sugiere que los modelos de lenguaje pueden acelerar de forma significativa la revisión de grandes bases de código.

Muchos de los errores adicionales identificados correspondían a fallos de aserción o errores lógicos que tradicionalmente se detectan mediante herramientas de pruebas automatizadas conocidas como fuzzers. La IA no reemplazó estos métodos, pero actuó como una capa adicional de análisis capaz de explorar patrones de error que otras herramientas no siempre identifican.

El experimento también mostró los límites actuales de este tipo de sistemas. Claude intentó generar exploits funcionales para algunas de las vulnerabilidades descubiertas, es decir, programas capaces de aprovechar los fallos para ejecutar ataques. Solo logró hacerlo en dos casos, y únicamente dentro de un entorno de prueba controlado.

Este resultado sugiere que los modelos de lenguaje son actualmente más eficaces detectando problemas potenciales que desarrollando ataques completos contra ellos. La diferencia es importante para los equipos de seguridad, porque permite utilizar la IA como herramienta de diagnóstico sin que necesariamente se convierta en un generador automático de exploits.

Tanto Anthropic como Mozilla advierten además que estos sistemas pueden producir falsos positivos. Cada vulnerabilidad identificada por la IA tuvo que ser verificada por investigadores humanos antes de ser confirmada y corregida. La revisión manual sigue siendo esencial para evitar que errores de interpretación del modelo generen alertas innecesarias.

El experimento ofrece una señal clara sobre cómo podrían evolucionar las auditorías de seguridad del software. Los modelos de inteligencia artificial ya son capaces de revisar grandes volúmenes de código con rapidez, lo que podría transformar el modo en que se detectan vulnerabilidades en proyectos complejos. Al mismo tiempo, su integración en los procesos de seguridad exigirá nuevos mecanismos de verificación humana y nuevas estrategias para gestionar la escala del análisis automatizado.

Compartir artículo

Continúa informándote