Skip to content

Ruta de aprendizaje

Los módulos son independientes, pero esta secuencia está pensada para ir de menos a más complejidad.

Ruta completa (orden recomendado)

Semana 1 — Fundamentos de evaluación

  1. 01 — primer-eval: Tu primer LLMTestCase. AnswerRelevancy y Faithfulness.
  2. 02 — ragas-basics: Pipeline RAG completo. Faithfulness, context precision y recall con RAGAS.
  3. 03 — llm-as-judge: Jueces LLM con G-Eval. Position bias y cómo calibrarlo.

Semana 2 — Evaluación avanzada

  1. 04 — multi-turn: Conversaciones de múltiples turnos. Retención de información a lo largo de 8 turnos.
  2. 05 — prompt-regression: Detectar regresiones cuando cambias un prompt. Significación estadística.
  3. 06 — hallucination-lab: Extracción de claims y groundedness. Detección de negaciones.
  4. 14 — embedding-eval: Similitud semántica con embeddings. Regresión y detección de drift a nivel de corpus.

Semana 3 — Seguridad

  1. 07 — redteam-garak: 42 attack prompts en 7 categorías. Scanner de vulnerabilidades.
  2. 08 — redteam-deepteam: OWASP Top 10 LLM 2025. Riesgos de agencia.
  3. 09 — guardrails: Pipeline de validación de entrada y salida. Detección de PII.

Semana 4 — Producción

  1. 10 — agent-testing: Evaluación de agentes. Tool accuracy y trayectorias.
  2. 11 — playwright-streaming: Tests E2E de UIs de chatbot con streaming SSE.
  3. 12 — observability: Trazas OTel, Langfuse y Phoenix.
  4. 13 — drift-monitoring: PSI, AlertHistory y detección de tendencias.

Rutas por objetivo

Tengo un pipeline RAG y quiero medirlo

→ Módulos 01 → 02 → 03 → 06 → 14

Quiero saber si mi modelo es vulnerable a ataques

→ Módulos 07 → 08 → 09

Tengo el modelo en producción y quiero monitorizarlo

→ Módulos 12 → 13 → 14

Quiero testear un agente con herramientas

→ Módulos 01 → 10

Quiero hacer tests de regresión cuando cambio los prompts

→ Módulos 05 → 03

MIT License · GitHub