Skip to content

Módulos

14 labs independientes. Cada uno enseña un concepto de evaluación de LLMs con código ejecutable y tests que pasan sin API key.

#MóduloTestsConcepto clave
01primer-eval8Primer LLMTestCase · AnswerRelevancy · Faithfulness
02ragas-basics10Pipeline RAGAS · faithfulness · context_precision · recall
03llm-as-judge11G-Eval · DAG Metric · position bias · verbosity bias
04multi-turn10ConversationalTestCase · KnowledgeRetention · 8 turnos
05prompt-regression11PromptRegistry · RegressionChecker · z-test
06hallucination-lab9Extracción de claims · groundedness · negaciones
07redteam-garak1042 attack prompts · DAN · many-shot · token manipulation
08redteam-deepteam8OWASP Top 10 LLM 2025 · prompt injection · agencia
09guardrails11PII detection · output validation · pipeline I/O
10agent-testing9Tool selection · trayectorias · AST-safe eval
11playwright-streaming8SSE streaming · E2E chatbot UI · FastAPI mock
12observability8OTel spans · @trace · latencia · error tracking
13drift-monitoring13PSI · AlertHistory · tendencias · alert rules
14embedding-eval15Similitud coseno · centroid shift · regresión semántica

MIT License · GitHub