Portfolio | AI Red Team

AI Red Teaming Write-Up: Explotando APIs de LLMs con Agencia Excesiva (PortSwigger - Nivel 1)

Inauguramos una nueva serie en el blog dedicada a resolver y analizar los laboratorios de "Web LLM Attacks" en la Web Security Academy de PortSwigger. Para empezar, vamos…

Leer más →

El verdadero peligro de darle "manos" a la IA

Hasta ahora, en nuestra serie de investigaciones, hemos atacado a modelos de lenguaje interactuando directamente con ellos a través de un chat. Pero las cosas están cambiando. Las …

Leer más →

Cómo hackear una inteligencia artificial usando un simple trozo de papel

Hasta ahora, cuando hablamos de hackear un Modelo de Lenguaje (LLM), todos pensamos en un atacante tecleando comandos en una ventana de chat para confundir a la máquina, pero la In…

Leer más →

Nivel 2: Cómo extraer contraseñas de una IA que censura sus respuestas

En el artículo anterior estrenamos el laboratorio de AI Red Teaming superando un reto básico de ingeniería social. Sin embargo, en el mundo corporativo real, los asistentes virtual…

Leer más →

He creado mi propio laboratorio de AI Red Teaming

Siempre he tenido claro que para mejorar específicamente en AI Red Teaming no bastaba con leer teoría. Necesito enfrentarme a distintos modelos, distintas defensas y distintos esce…

Leer más →

Rompiendo la lógica de un Agente de Soporte "Paranoico" (Context Poisoning)

Imaginemos una tienda online ficticia que, cansada de gestionar miles de devoluciones manualmente, decide implementar un Agente de IA para automatizar el proceso. El equipo de desa…

Leer más →

La IA puede robar tu token sin que hagas un solo clic

Cuando interactuamos con un asistente de Inteligencia Artificial, solemos tener la falsa sensación de que estamos en un entorno cerrado. Creemos que lo peor que puede pasar es que …

Leer más →

AI Red Team - Cuando el chatbot se convierte en cajero

La industria de la Inteligencia Artificial está evolucionando rápidamente. Ya no solo usamos LLMs para chatear o resumir textos; ahora los integramos como "Agentes" capac…

Leer más →

Prompt Leaking - Cuando la IA habla de más

Existe la creencia de que las instrucciones internas de una IA (el System Prompt) son completamente inaccesibles para el usuario. Muchas empresas confían en ello para esconder regl…

Leer más →

Hackeando al Reclutador IA mediante Inyección Indirecta de Prompts

Si vienes del mundo del pentesting web, el concepto de "no confiar en el input del usuario" es el mandamiento número uno. En la seguridad web clásica, si un usuario logra…

Leer más →

AI Red Teaming: Auditando la seguridad lógica de un Asistente de Ventas basado en LLM

La implementación de Agentes de IA en el comercio electrónico crece exponencialmente. Muchas de ellas confían ciegamente en el "System Prompt" (las instrucciones base) co…

Leer más →

Inicializando: Por qué es necesario romper IAs

Tras un tiempo profundizando en la ciberseguridad ofensiva, es imposible ignorar la realidad: la Inteligencia Artificial se está integrando en casi todos los productos digitales, y…

Leer más →

# AI Research Lab