Artículos y notas sobre ataques y técnicas de AI Red Team.
Inauguramos una nueva serie en el blog dedicada a resolver y analizar los laboratorios de "Web LLM Attacks" en la Web Security Academy de PortSwigger. Para empezar, vamos…
Leer más →
Hasta ahora, en nuestra serie de investigaciones, hemos atacado a modelos de lenguaje interactuando directamente con ellos a través de un chat. Pero las cosas están cambiando. Las …
Leer más →
Hasta ahora, cuando hablamos de hackear un Modelo de Lenguaje (LLM), todos pensamos en un atacante tecleando comandos en una ventana de chat para confundir a la máquina, pero la In…
Leer más →
En el artículo anterior estrenamos el laboratorio de AI Red Teaming superando un reto básico de ingeniería social. Sin embargo, en el mundo corporativo real, los asistentes virtual…
Leer más →
Siempre he tenido claro que para mejorar específicamente en AI Red Teaming no bastaba con leer teoría. Necesito enfrentarme a distintos modelos, distintas defensas y distintos esce…
Leer más →
Imaginemos una tienda online ficticia que, cansada de gestionar miles de devoluciones manualmente, decide implementar un Agente de IA para automatizar el proceso. El equipo de desa…
Leer más →
Cuando interactuamos con un asistente de Inteligencia Artificial, solemos tener la falsa sensación de que estamos en un entorno cerrado. Creemos que lo peor que puede pasar es que …
Leer más →
La industria de la Inteligencia Artificial está evolucionando rápidamente. Ya no solo usamos LLMs para chatear o resumir textos; ahora los integramos como "Agentes" capac…
Leer más →
Existe la creencia de que las instrucciones internas de una IA (el System Prompt) son completamente inaccesibles para el usuario. Muchas empresas confían en ello para esconder regl…
Leer más →
Si vienes del mundo del pentesting web, el concepto de "no confiar en el input del usuario" es el mandamiento número uno. En la seguridad web clásica, si un usuario logra…
Leer más →
La implementación de Agentes de IA en el comercio electrónico crece exponencialmente. Muchas de ellas confían ciegamente en el "System Prompt" (las instrucciones base) co…
Leer más →
Tras un tiempo profundizando en la ciberseguridad ofensiva, es imposible ignorar la realidad: la Inteligencia Artificial se está integrando en casi todos los productos digitales, y…
Leer más →