Riesgos de seguridad en proyectos de IA empresarial
Prompt injection
Los atacantes pueden manipular la salida de modelos mediante inputs maliciosos en prompts. Mitigación: sanitización de inputs, validación de salidas, límites de contexto y separación entre datos de usuario y datos de sistema.
Exfiltración de datos
Los modelos pueden memorizar y regurgitar información sensible presente en sus datos de entrenamiento o en el contexto de la conversación. Mitigación: no incluir datos sensibles en contextos, usar modelos con controles de privacidad y auditar respuestas.
Escalación de privilegios
Un agente con acceso a sistemas puede ser manipulado para ejecutar acciones no autorizadas. Mitigación: principio de mínimo privilegio, revisión humana de acciones sensibles y límites estrictos en capacidades.
Falta de trazabilidad
Sin registros adecuados, es imposible investigar incidentes o cumplir auditorías. Mitigación: logging completo de inputs, outputs y decisiones, con retención según políticas de compliance.