Tras un tiempo profundizando en la ciberseguridad ofensiva, es imposible ignorar la realidad: la Inteligencia Artificial se está integrando en casi todos los productos digitales, y su seguridad, en la gran mayoría de los casos, es todavía bastante frágil.
Por eso, esto no será otro blog de noticias más sobre el último modelo que ha salido al mercado. Mi objetivo aquí es documentar mi proceso de investigación en el AI Red Teaming. Básicamente: el arte de auditar los modelos de lenguaje para encontrar fallos de lógica y seguridad antes de que puedan ser explotados maliciosamente.
Si vienes del mundo de sistemas o web, aquí el enfoque cambia ligeramente. En el AI Red Teaming jugamos contra la semántica.
No se trata de romper la infraestructura, sino de convencer al modelo de que ignore sus instrucciones de seguridad y ejecute acciones no deseadas. Hablaremos de conceptos como:
- Prompt Injection: Manipular la entrada para secuestrar el comportamiento del modelo.
- Jailbreaking: Evasión de los filtros éticos y de contenido.
- Indirect Injection: Ataques donde el payload no lo escribe el usuario, sino que la IA lo lee de una fuente externa.
Mi laboratorio
Para investigar esto, no basta con abrir un chat público y "probar suerte". Los modelos comerciales son aleatorios; a veces un ataque funciona y a veces no, lo cual dificulta entender la causa raíz del problema.
Para mis prácticas y publicaciones, utilizo una aplicación de simulación local que he creado específicamente para ello.
Lo que verás aquí son pruebas de concepto en un entorno determinista. Simulo la lógica de los filtros de seguridad y las respuestas de los chatbots. El motivo es simple: si entiendo la lógica exacta de por qué un filtro falla ante una técnica concreta, podré aplicar ese conocimiento para auditar y proteger modelos reales y complejos en producción.
¿Qué vas a encontrar aquí?
Iré publicando mis análisis de estos escenarios, yendo directo al grano:
- El Escenario: Qué función cumple el asistente (por ejemplo, soporte técnico o análisis de datos).
- El Ataque: La técnica exacta utilizada para evadir la seguridad.
- La Explicación: Por qué ha ocurrido el fallo a nivel lógico.
Nota sobre ética
Todo el contenido que publique aquí está realizado en mi entorno local y controlado. El objetivo es puramente defensivo y educativo. El AI Red Team es necesario para construir sistemas más robustos y confiables. Estas técnicas nunca deben utilizarse en sistemas ajenos sin autorización explícita.