Skip to content

LLM Testing LabQA de IA, listo para producción.

20 módulos pytest que cubren todo el ciclo de calidad de un sistema LLM — desde el primer LLMTestCase hasta un caso end-to-end completo con incidente, runbook y postmortem. Sin API key. Sin conexión.

763 tests pasando en 1.6s
v13 · 20 módulos · 763 tests · 1.6 s

Quickstart

Clona, instala y ejecuta la suite completa en menos de un minuto:

bash
git clone https://github.com/gonzaloMorenoc/ai-testing-lab.git
cd ai-testing-lab
pip install deepeval pytest pytest-cov numpy
pytest modules/ -m "not slow and not redteam" -q

Resultado esperado:

text
763 passed, 1 skipped in 1.6s

Sin API key. Sin cuenta de pago. Sin conexión a internet.

Pirámide de evaluación

Los 20 módulos están organizados en una pirámide de evaluación que va de lo unitario a lo sistémico. Puedes empezar por cualquier nivel:

text
                                      ┌──────────────────────────────┐
                                      │  20  Caso end-to-end          │  ← Apéndice D del manual
                                      │      Chatbot regulado · runbook │     (ata todos los capítulos)
                                      └──────────────────────────────┘
                              ┌────────────────────────────────────────────┐
                              │  17  Chatbot testing      18  Robustness    │
                              │  19  HITL e IAA                              │
                              └────────────────────────────────────────────┘
                      ┌────────────────────────────────────────────────────────┐
                      │  10  Agent testing    11  E2E streaming                 │
                      │  12  Observabilidad   13  Drift monitoring              │
                      │  15  Cost-aware QA    16  Retrieval avanzado            │
                      └────────────────────────────────────────────────────────┘
             ┌──────────────────────────────────────────────────────────────────────┐
             │  07  Red team Garak   08  OWASP DeepTeam   09  Guardrails             │
             └──────────────────────────────────────────────────────────────────────┘
   ┌────────────────────────────────────────────────────────────────────────────────────┐
   │  04  Multi-turn   05  Prompt regression   06  Hallucination lab                     │
   └────────────────────────────────────────────────────────────────────────────────────┘
┌──────────────────────────────────────────────────────────────────────────────────────────┐
│  01  primer-eval   02  RAGAS basics   03  LLM-as-judge   14  Embedding eval               │
└──────────────────────────────────────────────────────────────────────────────────────────┘

Recorridos sugeridos

Tres formas de empezar según tu rol:

Si vienes de QA tradicional

Empieza por 01-primer-eval y sigue la ruta de aprendizaje. En 6 horas tendrás el vocabulario completo del QA de IA.

Si construyes RAG en producción

Salta directamente a 02-ragas-basics06-hallucination-lab16-retrieval-advanced. Después aplica la Tabla maestra de umbrales en tu CI/CD.

Si lideras un equipo

Lee el modelo de madurez L1-L5, audita tu sistema contra el marco normativo y reproduce el caso end-to-end en una hora.

Recursos

MIT License · GitHub