Prompt injection

Los atacantes pueden manipular la salida de modelos mediante inputs maliciosos en prompts. Mitigación: sanitización de inputs, validación de salidas, límites de contexto y separación entre datos de usuario y datos de sistema.

Exfiltración de datos

Los modelos pueden memorizar y regurgitar información sensible presente en sus datos de entrenamiento o en el contexto de la conversación. Mitigación: no incluir datos sensibles en contextos, usar modelos con controles de privacidad y auditar respuestas.

Escalación de privilegios

Un agente con acceso a sistemas puede ser manipulado para ejecutar acciones no autorizadas. Mitigación: principio de mínimo privilegio, revisión humana de acciones sensibles y límites estrictos en capacidades.

Falta de trazabilidad

Sin registros adecuados, es imposible investigar incidentes o cumplir auditorías. Mitigación: logging completo de inputs, outputs y decisiones, con retención según políticas de compliance.