Lakera Guard: API anti prompt injection [2026]

Name: Lakera Guard
Rating: 4.2 (1 reviews)
Author: Lakera AI

📋 Contenido

Qué es Lakera Guard
Ficha técnica
Cómo funciona Lakera Guard
Integración en Python (FastAPI)
Cobertura de amenazas
Alternativas a considerar
Precios y modelo de negocio
Preguntas frecuentes
Artículos relacionados

⚡ Veredicto rápido

**Lakera Guard es la opción más sencilla de adoptar** para añadir defensas anti prompt injection y data leakage a una app con LLM. Es una API REST drop-in con latencia inferior a 50ms p95 y tier gratuito útil para prototipos. A escala enterprise resulta cara y para casos avanzados (function calling profundo, agentes multi-step) las defensas siguen siendo superficiales — como toda la industria de AI Security en 2026.

✓ Puntos fuertes

Integración trivial: 2 líneas de código Python o curl
Cobertura amplia: prompt injection, jailbreak, PII, toxicidad, código malicioso
Modelos propios entrenados sobre dataset de ataques reales (Gandalf)
Latencia p95 inferior a 50ms en región europea
Opción self-hosted para regulados (financial, healthcare)

✗ Puntos débiles

Tier pago empieza alto: ~5k-15k USD/año para uso productivo
No cubre attacks avanzados sobre agentes multi-tool de forma profunda
Latencia añadida pre-LLM no siempre tolerable en chatbots conversacionales
Dependencia de un vendor — bypass en sus modelos = bypass en tu app

Puntuación SecOpsIA: ★★★★☆ 4.2/5

Qué es Lakera Guard

Lakera Guard es la API de Lakera AI (startup suiza fundada en 2021) que detecta prompt injection, jailbreaks, PII y contenido tóxico en prompts y respuestas de LLM. La empresa se hizo conocida por Gandalf, su CTF público donde cualquiera puede intentar extraer un secreto de un LLM protegido — el dataset de ataques recibidos en Gandalf entrena los modelos de detección de Guard.

En 2026 es de las primeras herramientas que un equipo dev añade cuando va a producción con un LLM, especialmente para chatbots customer-facing o sistemas RAG con datos internos. No es la única (Rebuff, NVIDIA NeMo Guardrails, Microsoft Prompt Shields, Protect AI) pero su API es la más sencilla de adoptar.

Ficha técnica

Categoría	AI Security — Prompt firewall
Licencia	Comercial (freemium)
Desarrollador	Lakera AI (Zúrich, Suiza)
Lanzamiento	2021 (Guard API en 2023)
Modelo	API REST SaaS + opción self-hosted (Docker)
Latencia típica	20-50ms p95 (región EU/US)
Cobertura	Prompt Injection, Jailbreak, PII, Toxicity, Code Malicious
API	REST HTTPS con autenticación Bearer
Compliance	ISO 27001, SOC 2 Type II, GDPR-ready
Web oficial	lakera.ai

Cómo funciona Lakera Guard

Lakera Guard expone una API REST con varios endpoints especializados. El flujo típico:

Tu app recibe un prompt del usuario.
Antes de enviarlo al LLM, lo envía a POST /v2/prompt_injection. Si Lakera detecta injection, bloqueas la request.
Después de recibir la respuesta del LLM, la envías a POST /v2/pii y POST /v2/content_moderation para validar que no hay data leakage ni contenido prohibido.

Los modelos de detección son propietarios — Lakera no publica detalles del entrenamiento, pero documentan que combinan classifiers ligeros para latencia + un modelo grande de respaldo para casos ambiguos.

Integración en Python (FastAPI)

Ejemplo con SDK oficial:

from lakera_client import LakeraGuardClient
from fastapi import FastAPI, HTTPException

lakera = LakeraGuardClient(api_key="lk_...")
app = FastAPI()

@app.post("/chat")
async def chat(payload: dict):
    user_msg = payload["message"]

    # Pre-flight
    result = lakera.prompt_injection.check(input=user_msg)
    if result.flagged:
        raise HTTPException(403, f"Bloqueado: {result.categories}")

    # Llamada al LLM (OpenAI, Anthropic, etc.)
    llm_response = await call_llm(user_msg)

    # Post-flight: PII en la respuesta
    pii_check = lakera.pii.check(input=llm_response)
    if pii_check.flagged:
        llm_response = pii_check.redacted_text  # PII enmascarada

    return {"response": llm_response}

Latencia añadida típica: 30-80ms por check. Para apps conversacionales tolerable; para autocompletado en tiempo real, evalúa cuidadosamente.

Cobertura de amenazas

Lakera Guard cubre las siguientes categorías mapeadas al OWASP LLM Top 10:

Amenaza	Endpoint	OWASP LLM
Prompt injection directa	`/prompt_injection`	LLM01
Prompt injection indirecta (vía documents en RAG)	`/prompt_injection`	LLM01
Jailbreak (DAN, roleplay)	`/prompt_injection`	LLM01
Data leakage (PII en respuesta)	`/pii`	LLM06
Código malicioso generado	`/content_moderation`	LLM02
Contenido tóxico / violencia	`/content_moderation`	—

Lo que no cubre adecuadamente (limitación honesta del estado del arte, no solo de Lakera):

Ataques sobre function calling complejos (un attacker manipula al LLM para llamar tools con argumentos maliciosos).
Ataques multi-turn donde el payload se distribuye en varias requests.
Prompt injection en agentes autónomos con larga cadena de razonamiento.

Para estos casos hace falta políticas adicionales en tu lógica de aplicación, no basta con un firewall pre-LLM.

Alternativas a considerar

Rebuff (open source, MIT) — heurísticas + LLM + canary tokens. Menos sofisticado pero gratis.
NVIDIA NeMo Guardrails — framework declarativo en Colang. Más flexible pero requiere ingeniería.
Microsoft Prompt Shields (Azure AI Content Safety) — incluido en algunos tiers de Azure OpenAI. Latencia mínima si ya estás en Azure.
Protect AI Guardian / Recon — orientado a model security más amplio (no solo prompt).
PromptArmor — propuesta similar a Lakera con foco europeo.
Cloudflare AI Gateway — capa edge que añade logging y rate limiting a OpenAI/Anthropic, con módulo de prompt safety reciente.

La decisión más realista es combinar: usa Lakera o Rebuff como primera línea + políticas custom en el código + validación de outputs de function calls.

Precios y modelo de negocio

	Precio	Incluye
Free	Gratis	10k requests/mes, latencia compartida
Starter	~500 USD/mes (~6k USD/año)	1M requests/mes, soporte estándar
Enterprise	Bajo demanda (>15k USD/año)	Self-hosted, SLA, on-prem deployment, soporte premium

Preguntas frecuentes

¿Puedo usar Lakera con Anthropic Claude o solo OpenAI?

Lakera es agnóstico del LLM. Pones la API entre tu app y cualquier modelo (OpenAI, Anthropic, Mistral, Llama self-hosted). No depende del proveedor del modelo.

¿Lakera reemplaza la moderation API de OpenAI?

Parcialmente. OpenAI Moderation es buena para toxicidad pero no detecta prompt injection ni PII redaction profundo. Lakera cubre más superficie pero cuesta. Para apps de bajo riesgo, OpenAI Moderation puede bastar.

¿Qué pasa si bypasean los modelos de Lakera?

Si confías solo en Lakera y un atacante encuentra un bypass, tu defensa cae. Por eso se recomienda defense-in-depth: Lakera + reglas de aplicación + validación de outputs + rate limiting + logging.

¿Es viable self-host Lakera?

Sí en tier enterprise. Lakera distribuye contenedores Docker que ejecutan los modelos localmente. Útil para industria regulada (banca, salud) o requisitos de residencia de datos.

jaivic villegas jaivic villegas Ver todos los artículos →