La Intersección entre IA y Seguridad Informática
En un experimento que empuja los límites de la inteligencia artificial aplicada a la ciberseguridad, el equipo de Quesma ha desarrollado BinaryAudit, un proyecto que evalúa la capacidad de los modelos de lenguaje modernos para detectar puertas traseras (backdoors) ocultas en binarios compilados de aproximadamente 40MB, sin acceso al código fuente original.
Este trabajo aborda un desafío crítico para startups tech y equipos de desarrollo: ¿pueden las herramientas de IA actuales automatizar la detección de vulnerabilidades en software compilado, una tarea que tradicionalmente requiere expertise avanzado en ingeniería inversa?
El Experimento: Backdoors Ocultos en Código Compilado
El equipo de Quesma diseñó un benchmark riguroso que consistió en inyectar deliberadamente backdoors en proyectos open-source, compilarlos en binarios de ~40MB, y luego solicitar a agentes de IA—equipados con Ghidra, una herramienta profesional de ingeniería inversa—que identificaran estas amenazas.
Metodología del Benchmark
Los investigadores seleccionaron proyectos de código abierto populares y modificaron el código fuente para incluir vulnerabilidades específicas. Posteriormente:
- Compilaron los binarios sin símbolos de depuración para simular condiciones reales
- Presentaron estos binarios a diferentes modelos de IA, incluyendo Claude y Gemini
- Evaluaron la capacidad de detección mediante métricas de verdaderos positivos, falsos positivos y falsos negativos
- Documentaron el proceso completo y publicaron los resultados de forma transparente
Resultados: Capacidades y Limitaciones de la IA
Los hallazgos del experimento revelan un panorama mixto pero prometedor para el futuro de la auditoría automatizada de seguridad.
Éxitos Parciales
Los modelos de lenguaje demostraron capacidad para identificar patrones sospechosos en el código desensamblado, especialmente cuando las vulnerabilidades seguían patrones conocidos o presentaban comportamientos anómalos evidentes. La combinación de IA + Ghidra logró detectar algunos backdoors mediante análisis del flujo de ejecución y comparación con patrones de código legítimo.
Limitaciones Significativas
Sin embargo, el estudio también documentó limitaciones críticas:
- Falsos negativos: Los modelos fallaron en detectar backdoors sofisticados que imitaban código legítimo o utilizaban técnicas de ofuscación
- Falsos positivos: En algunos casos, los sistemas marcaron código legítimo como sospechoso, generando ruido que reduce la eficiencia de las auditorías
- Escalabilidad: El análisis de binarios grandes (40MB+) presenta desafíos computacionales y de contexto para los modelos actuales
- Complejidad de la ingeniería inversa: El código compilado pierde información semántica crucial (nombres de variables, comentarios, estructura original), dificultando el análisis automatizado
Aplicaciones Prácticas para Startups Tech
Aunque la detección completamente automatizada aún no es práctica para producción, BinaryAudit señala aplicaciones inmediatas para founders y equipos de desarrollo:
Auditorías Iniciales Aceleradas
Para startups que integran dependencias de terceros o adquieren código heredado, estos sistemas pueden realizar un primer filtrado automatizado, identificando áreas que requieren revisión humana detallada. Esto reduce significativamente el tiempo de auditoría preliminar.
Formación y Upskilling
Las herramientas de IA combinadas con Ghidra sirven como asistentes educativos para desarrolladores que están aprendiendo ingeniería inversa y análisis de seguridad, democratizando conocimiento que tradicionalmente requería años de experiencia.
Due Diligence en Adquisiciones
En procesos de M&A o evaluación de tecnología de terceros, estos sistemas pueden formar parte del toolkit de due diligence técnico, complementando revisiones manuales con análisis automatizados de riesgos potenciales.
El Futuro de la Seguridad con IA
El proyecto BinaryAudit representa un paso importante hacia la automatización de tareas complejas de ciberseguridad. A medida que los modelos de lenguaje mejoren su capacidad de razonamiento sobre código de bajo nivel y las herramientas de ingeniería inversa se integren más profundamente con sistemas de IA, es probable que veamos:
- Reducción significativa de falsos positivos mediante entrenamiento especializado
- Mejor manejo de contexto para analizar binarios grandes y complejos
- Integración en pipelines CI/CD para auditorías continuas de seguridad
- Combinación con análisis estático y dinámico para mejorar tasas de detección
Conclusión
El experimento de Quesma con BinaryAudit demuestra que, si bien la IA aún no puede reemplazar a expertos humanos en ingeniería inversa y detección de vulnerabilidades, ya ofrece valor tangible como herramienta de asistencia. Para founders tech que buscan fortalecer la seguridad de sus productos sin escalar equipos grandes de especialistas, estas tecnologías representan una oportunidad de democratizar capacidades que antes estaban reservadas para organizaciones con recursos significativos.
La transparencia del equipo al publicar tanto los resultados positivos como las limitaciones establece un estándar valioso para la comunidad. En un ecosistema donde la seguridad es crítica pero los recursos son limitados, entender tanto el potencial como las restricciones de estas herramientas es fundamental para tomar decisiones informadas sobre su implementación.
¿Implementas IA en tu stack de seguridad? Conecta con founders que están experimentando con herramientas similares y comparte aprendizajes sobre automatización de auditorías en nuestra comunidad
Fuentes
- https://quesma.com/blog/introducing-binaryaudit/ (fuente original)













