Test de intrusión

Pentest de IA y LLM: ponemos a prueba tu inteligencia artificial como un atacante

El pentest de IA y LLM, lo que muchos llaman auditoría de seguridad de la inteligencia artificial, ataca los sistemas que pones en producción (chatbots, asistentes, agentes y los modelos que tienes detrás) buscando cómo engañarlos, sacarles datos que no deberían dar o hacerles ejecutar acciones que no deberían. Es un terreno nuevo, con sus propias reglas, donde el atacante no entra por la fuerza: convence al modelo. Y donde casi ninguna consultora entra todavía.

El brazo ofensivo de tu IA: la gobiernas con AI Act e ISO 42001, y aquí la ponemos a prueba.

Por qué la IA

El atacante ya no entra: convence

Las empresas están metiendo IA en producción más rápido de lo que la aseguran. Y la seguridad de siempre no sirve aquí: un sistema de IA no se ataca por sus puertos ni su código, se ataca hablándole. Se le engaña con instrucciones escondidas, se le saca información que no debería dar y, si tiene herramientas conectadas, se le hace actuar en tu nombre.

Y lo que cambia el riesgo es que tu IA no está sola: tiene acceso a tus datos y, cada vez más, a tus sistemas. Un modelo engañado es como un empleado con llaves al que han convencido para que abra la puerta. Por eso ponerla a prueba ya no es opcional.

Alcance

Qué ponemos a prueba

Tres frentes, según lo que tu IA hace: si solo habla, si lee tus documentos o si actúa por ti. Cuanto más puede hacer, más hay que probarla.

Aplicaciones con LLM

Chatbots, asistentes y copilotos que conversan con tus usuarios y con tus datos. El frente más extendido y la puerta de entrada de casi todos los ataques.

inyección de prompt directainyección indirectajailbreakfuga de datossalida insegura

RAG y bases de conocimiento

El modelo que responde leyendo tus documentos. Si se envenena la fuente, el modelo responde lo que el atacante quiere, con tu cara y tu confianza.

envenenamiento de la fuentemanipulación del contextofuga por recuperación

Agentes, herramientas y MCP

Cuando la IA no solo responde, sino que actúa: ejecuta acciones, usa herramientas y se conecta por MCP. Aquí un fallo deja de ser una respuesta indebida y pasa a ser una acción real en tus sistemas.

abuso de herramientaspermisos excesivosseguridad de servidores MCPconfused deputy

Por qué Meta-Data

Pocos gobiernan tu IA. Menos aún la atacan

Casi nadie hace seguridad ofensiva de IA, y de quienes la hacen, casi nadie entiende además cómo se gobierna. Nosotros estamos en la intersección: ayudamos a las empresas a cumplir el AI Act y a certificar la ISO 42001, y atacamos esos mismos sistemas para demostrar si aguantan. La misma casa que gobierna tu IA la pone a prueba.

Y no improvisamos: trabajamos con los marcos de referencia del ataque a la IA, el OWASP Top 10 para LLM y MITRE ATLAS. Cada hallazgo se convierte en evidencia directa para tu AI Act y tu ISO 42001, así que gobierno y ataque dejan de ir por separado.

Cuándo

Cuándo necesitas poner a prueba tu IA

Antes de ponerla en producción

Vas a lanzar un chatbot, un asistente o un agente y quieres saber cómo lo romperían antes de abrirlo al mundo.

Tu IA toca datos o sistemas

El modelo accede a información sensible o a herramientas que ejecutan acciones, donde un engaño se convierte en daño real.

Te aplica el AI Act o la ISO 42001

Necesitas evidencia de que tus sistemas de IA son seguros para tu AI Act o tu ISO 42001.

Usas agentes o MCP

Has conectado el modelo a herramientas o a servidores MCP, y ahora tu IA puede actuar, no solo responder.

Método

Cómo trabajamos

01

Alcance y reglas

Acordamos qué sistemas de IA entran, a qué datos y herramientas llegan y las reglas, para atacar con libertad y sin riesgo.

02

Ataque

Inyección de prompt, extracción de datos y abuso de herramientas y agentes, como lo haría un adversario real con tu modelo.

03

Hallazgos con prueba

Cada fallo demostrado, con su impacto de negocio y cómo cerrarlo, en lenguaje que tu equipo entiende.

04

Verificación

Cuando corregís, volvemos a probarlo para confirmar que el agujero queda cerrado de verdad.

Encaja con

No termina en el informe

Una aplicación con IA es también una aplicación, así que el pentest de aplicaciones cubre su parte clásica y este se ocupa de lo que es propio del modelo. Y como lo que encontramos demuestra riesgos reales, se convierte en evidencia para tu AI Act y tu ISO 42001: el mismo trabajo gobierna y ataca tu IA.

Y lo que aquí destapamos, con Sondriva, nuestro SOC, lo vigilamos después: detectamos los intentos de abuso contra tu IA en tiempo real, mientras tu equipo cierra los fallos.

Dudas

Preguntas frecuentes

¿Qué es el pentest de IA o de LLM?+

Es poner a prueba tus sistemas de inteligencia artificial atacándolos como lo haría un adversario real: engañar al modelo con instrucciones escondidas, sacarle datos que no debería dar y, si tiene herramientas conectadas, hacerle ejecutar acciones por ti. A diferencia del pentest clásico, aquí no se entra por la fuerza, se convence al modelo.

¿Esto es lo mismo que una auditoría de seguridad de IA?+

Sí, es su versión ofensiva. Una auditoría de seguridad de IA revisa y comprueba; nosotros, además, atacamos: hacemos hacking ético sobre tu inteligencia artificial para demostrar con pruebas qué fallos se explotan de verdad. El nombre cambia según quién lo pida, pentesting de IA, auditoría de seguridad o red teaming de IA, pero el trabajo es el mismo: ponerla a prueba como lo haría un adversario real.

¿Qué es una inyección de prompt?+

Es la técnica estrella contra los LLM: colar instrucciones que el modelo obedece como si vinieran de su dueño. Puede ser directa, en lo que escribe el usuario, o indirecta, escondida en un documento, una web o un correo que el modelo lee. Con ella se le hace ignorar sus reglas, revelar datos o usar mal sus herramientas.

¿Probáis agentes de IA y servidores MCP?+

Sí, y es de lo más importante ahora. Cuando la IA no solo responde sino que actúa, usando herramientas, llamando a APIs o conectándose por MCP, un fallo deja de ser una respuesta indebida y pasa a ser una acción real en tus sistemas. Probamos el abuso de herramientas, los agentes con demasiados permisos y la seguridad de los servidores MCP.

¿Qué es el RAG y por qué se ataca?+

El RAG es cuando el modelo responde leyendo tus documentos o tu base de conocimiento. Si un atacante consigue meter contenido en esa fuente, manipula lo que el modelo recupera y, con ello, lo que responde. Probamos el envenenamiento de la fuente y la fuga de datos por la vía de recuperación.

¿Seguís algún marco de referencia?+

Sí. Nos apoyamos en el OWASP Top 10 para LLM y en MITRE ATLAS, que son los catálogos de referencia de las técnicas de ataque contra la IA. Nos dan una base común, pero lo interesante suele estar en cómo encaja tu sistema concreto.

¿Me sirve para el AI Act o la ISO 42001?+

Sí, y es una de sus mayores ventajas. Los hallazgos demuestran riesgos reales de tus sistemas de IA, así que valen como evidencia para tu cumplimiento del AI Act y para tu ISO 42001. La misma IA que gobiernas con esas normas, aquí la pones a prueba: gobierno y ataque se complementan.

¿En qué se diferencia del pentest de aplicaciones normal?+

Una aplicación con IA es también una aplicación, así que el pentest de aplicaciones sigue aplicando a su parte clásica. Lo nuevo es el modelo: su comportamiento no es código fijo, responde al lenguaje, y eso abre ataques que no existen en el software tradicional. Por eso necesita un enfoque propio que se suma al de aplicaciones.

¿Es seguro hacerlo sobre una IA en producción?+

Lo acordamos antes y trabajamos con cuidado, igual que en cualquier prueba. Cuando hay riesgo de afectar a datos reales o a la operación, usamos un entorno equivalente. La prioridad es demostrar el fallo sin causar daño.

Canal directo

¿Hablamos?

Cuéntanos qué sistema de IA quieres poner a prueba, un chatbot, un asistente o un agente, y te proponemos cómo atacarlo de forma segura.

Ponte en contacto