Evaluación RAG completa
Faithfulness, context precision y answer relevancy con RAGAS. LLM-as-judge con G-Eval y calibración de position bias. NDCG, MRR y MAP para retrieval avanzado (HyDE, hybrid, reranking, self-RAG).
20 módulos pytest que cubren todo el ciclo de calidad de un sistema LLM — desde el primer LLMTestCase hasta un caso end-to-end completo con incidente, runbook y postmortem. Sin API key. Sin conexión.
Clona, instala y ejecuta la suite completa en menos de un minuto:
git clone https://github.com/gonzaloMorenoc/ai-testing-lab.git
cd ai-testing-lab
pip install deepeval pytest pytest-cov numpy
pytest modules/ -m "not slow and not redteam" -qResultado esperado:
763 passed, 1 skipped in 1.6sSin API key. Sin cuenta de pago. Sin conexión a internet.
Los 20 módulos están organizados en una pirámide de evaluación que va de lo unitario a lo sistémico. Puedes empezar por cualquier nivel:
┌──────────────────────────────┐
│ 20 Caso end-to-end │ ← Apéndice D del manual
│ Chatbot regulado · runbook │ (ata todos los capítulos)
└──────────────────────────────┘
┌────────────────────────────────────────────┐
│ 17 Chatbot testing 18 Robustness │
│ 19 HITL e IAA │
└────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ 10 Agent testing 11 E2E streaming │
│ 12 Observabilidad 13 Drift monitoring │
│ 15 Cost-aware QA 16 Retrieval avanzado │
└────────────────────────────────────────────────────────┘
┌──────────────────────────────────────────────────────────────────────┐
│ 07 Red team Garak 08 OWASP DeepTeam 09 Guardrails │
└──────────────────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────────────────────────────────┐
│ 04 Multi-turn 05 Prompt regression 06 Hallucination lab │
└────────────────────────────────────────────────────────────────────────────────────┘
┌──────────────────────────────────────────────────────────────────────────────────────────┐
│ 01 primer-eval 02 RAGAS basics 03 LLM-as-judge 14 Embedding eval │
└──────────────────────────────────────────────────────────────────────────────────────────┘Tres formas de empezar según tu rol:
Si vienes de QA tradicional
Empieza por 01-primer-eval y sigue la ruta de aprendizaje. En 6 horas tendrás el vocabulario completo del QA de IA.
Si construyes RAG en producción
Salta directamente a 02-ragas-basics → 06-hallucination-lab → 16-retrieval-advanced. Después aplica la Tabla maestra de umbrales en tu CI/CD.
Si lideras un equipo
Lee el modelo de madurez L1-L5, audita tu sistema contra el marco normativo y reproduce el caso end-to-end en una hora.