📋 Contenido
⚡ Veredicto rápido
**Lakera Guard es la opción más sencilla de adoptar** para añadir defensas anti prompt injection y data leakage a una app con LLM. Es una API REST drop-in con latencia inferior a 50ms p95 y tier gratuito útil para prototipos. A escala enterprise resulta cara y para casos avanzados (function calling profundo, agentes multi-step) las defensas siguen siendo superficiales — como toda la industria de AI Security en 2026.
✓ Puntos fuertes
- Integración trivial: 2 líneas de código Python o curl
- Cobertura amplia: prompt injection, jailbreak, PII, toxicidad, código malicioso
- Modelos propios entrenados sobre dataset de ataques reales (Gandalf)
- Latencia p95 inferior a 50ms en región europea
- Opción self-hosted para regulados (financial, healthcare)
✗ Puntos débiles
- Tier pago empieza alto: ~5k-15k USD/año para uso productivo
- No cubre attacks avanzados sobre agentes multi-tool de forma profunda
- Latencia añadida pre-LLM no siempre tolerable en chatbots conversacionales
- Dependencia de un vendor — bypass en sus modelos = bypass en tu app
Puntuación SecOpsIA: ★★★★☆ 4.2/5
Qué es Lakera Guard
Lakera Guard es la API de Lakera AI (startup suiza fundada en 2021) que detecta prompt injection, jailbreaks, PII y contenido tóxico en prompts y respuestas de LLM. La empresa se hizo conocida por Gandalf, su CTF público donde cualquiera puede intentar extraer un secreto de un LLM protegido — el dataset de ataques recibidos en Gandalf entrena los modelos de detección de Guard.
En 2026 es de las primeras herramientas que un equipo dev añade cuando va a producción con un LLM, especialmente para chatbots customer-facing o sistemas RAG con datos internos. No es la única (Rebuff, NVIDIA NeMo Guardrails, Microsoft Prompt Shields, Protect AI) pero su API es la más sencilla de adoptar.
Ficha técnica
| Categoría | AI Security — Prompt firewall |
|---|---|
| Licencia | Comercial (freemium) |
| Desarrollador | Lakera AI (Zúrich, Suiza) |
| Lanzamiento | 2021 (Guard API en 2023) |
| Modelo | API REST SaaS + opción self-hosted (Docker) |
| Latencia típica | 20-50ms p95 (región EU/US) |
| Cobertura | Prompt Injection, Jailbreak, PII, Toxicity, Code Malicious |
| API | REST HTTPS con autenticación Bearer |
| Compliance | ISO 27001, SOC 2 Type II, GDPR-ready |
| Web oficial | lakera.ai |
Cómo funciona Lakera Guard
Lakera Guard expone una API REST con varios endpoints especializados. El flujo típico:
- Tu app recibe un prompt del usuario.
- Antes de enviarlo al LLM, lo envía a
POST /v2/prompt_injection. Si Lakera detecta injection, bloqueas la request. - Después de recibir la respuesta del LLM, la envías a
POST /v2/piiyPOST /v2/content_moderationpara validar que no hay data leakage ni contenido prohibido.
Los modelos de detección son propietarios — Lakera no publica detalles del entrenamiento, pero documentan que combinan classifiers ligeros para latencia + un modelo grande de respaldo para casos ambiguos.
Integración en Python (FastAPI)
Ejemplo con SDK oficial:
from lakera_client import LakeraGuardClient
from fastapi import FastAPI, HTTPException
lakera = LakeraGuardClient(api_key="lk_...")
app = FastAPI()
@app.post("/chat")
async def chat(payload: dict):
user_msg = payload["message"]
# Pre-flight
result = lakera.prompt_injection.check(input=user_msg)
if result.flagged:
raise HTTPException(403, f"Bloqueado: {result.categories}")
# Llamada al LLM (OpenAI, Anthropic, etc.)
llm_response = await call_llm(user_msg)
# Post-flight: PII en la respuesta
pii_check = lakera.pii.check(input=llm_response)
if pii_check.flagged:
llm_response = pii_check.redacted_text # PII enmascarada
return {"response": llm_response}
Latencia añadida típica: 30-80ms por check. Para apps conversacionales tolerable; para autocompletado en tiempo real, evalúa cuidadosamente.
Cobertura de amenazas
Lakera Guard cubre las siguientes categorías mapeadas al OWASP LLM Top 10:
| Amenaza | Endpoint | OWASP LLM |
|---|---|---|
| Prompt injection directa | /prompt_injection | LLM01 |
| Prompt injection indirecta (vía documents en RAG) | /prompt_injection | LLM01 |
| Jailbreak (DAN, roleplay) | /prompt_injection | LLM01 |
| Data leakage (PII en respuesta) | /pii | LLM06 |
| Código malicioso generado | /content_moderation | LLM02 |
| Contenido tóxico / violencia | /content_moderation | — |
Lo que no cubre adecuadamente (limitación honesta del estado del arte, no solo de Lakera):
- Ataques sobre function calling complejos (un attacker manipula al LLM para llamar tools con argumentos maliciosos).
- Ataques multi-turn donde el payload se distribuye en varias requests.
- Prompt injection en agentes autónomos con larga cadena de razonamiento.
Para estos casos hace falta políticas adicionales en tu lógica de aplicación, no basta con un firewall pre-LLM.
Alternativas a considerar
- Rebuff (open source, MIT) — heurísticas + LLM + canary tokens. Menos sofisticado pero gratis.
- NVIDIA NeMo Guardrails — framework declarativo en Colang. Más flexible pero requiere ingeniería.
- Microsoft Prompt Shields (Azure AI Content Safety) — incluido en algunos tiers de Azure OpenAI. Latencia mínima si ya estás en Azure.
- Protect AI Guardian / Recon — orientado a model security más amplio (no solo prompt).
- PromptArmor — propuesta similar a Lakera con foco europeo.
- Cloudflare AI Gateway — capa edge que añade logging y rate limiting a OpenAI/Anthropic, con módulo de prompt safety reciente.
La decisión más realista es combinar: usa Lakera o Rebuff como primera línea + políticas custom en el código + validación de outputs de function calls.
Precios y modelo de negocio
| Precio | Incluye | |
|---|---|---|
| Free | Gratis | 10k requests/mes, latencia compartida |
| Starter | ~500 USD/mes (~6k USD/año) | 1M requests/mes, soporte estándar |
| Enterprise | Bajo demanda (>15k USD/año) | Self-hosted, SLA, on-prem deployment, soporte premium |
Preguntas frecuentes
¿Puedo usar Lakera con Anthropic Claude o solo OpenAI?
Lakera es agnóstico del LLM. Pones la API entre tu app y cualquier modelo (OpenAI, Anthropic, Mistral, Llama self-hosted). No depende del proveedor del modelo.
¿Lakera reemplaza la moderation API de OpenAI?
Parcialmente. OpenAI Moderation es buena para toxicidad pero no detecta prompt injection ni PII redaction profundo. Lakera cubre más superficie pero cuesta. Para apps de bajo riesgo, OpenAI Moderation puede bastar.
¿Qué pasa si bypasean los modelos de Lakera?
Si confías solo en Lakera y un atacante encuentra un bypass, tu defensa cae. Por eso se recomienda defense-in-depth: Lakera + reglas de aplicación + validación de outputs + rate limiting + logging.
¿Es viable self-host Lakera?
Sí en tier enterprise. Lakera distribuye contenedores Docker que ejecutan los modelos localmente. Útil para industria regulada (banca, salud) o requisitos de residencia de datos.