Skip to content

Modelo de madurez QA AI

Construir un programa de QA AI no se hace de un día para otro. El Cap. 23 del manual v13 define un modelo de cinco niveles, desde el ad-hoc inicial hasta la excelencia automatizada. Cada nivel tiene un objetivo concreto y una checklist accionable.

Los cinco niveles

NivelCaracterísticasObjetivo del nivel siguiente
L1 · Ad-hocTests manuales puntuales, sin frameworkPasar a evaluación reproducible
L2 · InicialGolden dataset básico, métricas manualesAutomatizar evaluación offline
L3 · GestionadoCI/CD integrado, quality gates básicosMonitorización en producción
L4 · OptimizadoMonitorización continua, deriva detectada, robustness suiteMejora continua basada en datos
L5 · ExcelenciaEvaluación multi-dimensional, automatización completa de QAQA proactiva y predictiva

Cómo se usa

Localiza tu equipo en la tabla. El nivel siguiente es la dirección, no la meta a corto plazo: pasar de L2 a L3 toma ~1–2 trimestres en equipos pequeños; de L3 a L4, ~2–4 trimestres.

L1 → L2: de ad-hoc a inicial

Cuando arrancas, lo único que tienes es un Slack lleno de capturas y una hoja Excel con "outputs raros". La transición a L2 es la más rápida y la más rentable.

Checklist L1 → L2:

  • [ ] Golden dataset versionado en goldens/ (mínimo 100 ejemplos, §9.2).
  • [ ] Métrica baseline registrada para cada release.
  • [ ] Tests automatizados con pytest (cualquier módulo del repo sirve como referencia).
  • [ ] Un único punto de evaluación reproducible (pytest modules/01-primer-eval/tests/ -q).

Módulos del repo que te llevan a L2:

L2 → L3: de inicial a gestionado

El salto de L2 a L3 es integración con CI/CD. Hasta L2 evalúas a mano; en L3, cada PR pasa por gates automáticos.

Checklist L2 → L3:

  • [ ] CI workflow ejecutando la suite en cada PR.
  • [ ] Quality gates con umbrales de la Tabla 4.2.
  • [ ] Versionado de prompts (PromptRegistry).
  • [ ] Logging estructurado de cada request en producción.
  • [ ] Regression testing automatizado contra baseline.

Módulos del repo:

L3 → L4: de gestionado a optimizado

L4 introduce la dimensión producción: ya no solo evalúas pre-deploy, sino que monitorizas continuamente la calidad de las respuestas reales.

Checklist L3 → L4:

  • [ ] Pipeline de monitorización continua (sampling de producción → métricas online).
  • [ ] Detector de drift configurado (KS-test + bootstrap IC95).
  • [ ] Robustness suite ejecutándose en nightly.
  • [ ] Suite OWASP LLM Top 10 en CI nightly.
  • [ ] Dashboards con métricas online (Grafana/Langfuse).
  • [ ] Alerting automático con PagerDuty/Slack.
  • [ ] IAA medido trimestralmente sobre revisiones humanas.

Módulos del repo:

L4 → L5: de optimizado a excelencia

L5 es la frontera. Pocos equipos están en L5. Características distintivas: evaluación multi-dimensional automatizada, eval-driven development (los evals dictan qué cambiar en el sistema), y predicción de degradación antes de que ocurra.

Checklist L4 → L5:

  • [ ] Cobertura ≥ 95 % de los caminos críticos del sistema con tests automatizados.
  • [ ] Causal analysis: cuando una métrica baja, el sistema apunta automáticamente al componente responsable (modelo, prompt, retriever, corpus).
  • [ ] Predicción de drift antes de que ocurra (análisis de tendencias).
  • [ ] Tests de coste, latencia y calidad ponderados en una métrica única de release readiness.
  • [ ] HITL solo en casos de muy bajo confidence, no en muestreo aleatorio.
  • [ ] Re-anotación automática del golden set cuando el dominio evoluciona.

Módulos del repo (parcialmente L5):

Arquitectura de la estrategia de QA (todas las capas)

Un sistema en L4–L5 opera sobre cinco capas simultáneas:

text
┌──────────────────────────────────────────────────────────┐
│ Capa humana                                              │
│   ↳ Revisión manual de casos escalados                   │
│   ↳ Calibración de umbrales · auditorías periódicas      │
├──────────────────────────────────────────────────────────┤
│ Capa de robustness                                       │
│   ↳ Batería de perturbaciones por dominio (Cap. 12)      │
├──────────────────────────────────────────────────────────┤
│ Capa de costes                                           │
│   ↳ Token tracking · coste por query · budgets (Cap. 27) │
├──────────────────────────────────────────────────────────┤
│ Capa online                                              │
│   ↳ Sampling de producción · drift · alertas (Cap. 13)   │
├──────────────────────────────────────────────────────────┤
│ Capa offline                                             │
│   ↳ Golden datasets · RAGAS · regression (Cap. 7, 24)    │
└──────────────────────────────────────────────────────────┘

Checklist de release multi-equipo (Tabla 23.2)

El checklist canónico antes de promocionar una release a producción. Cada item con un responsable y una herramienta:

ÍtemCriterio de éxitoHerramientaResponsable
Eval suite completaPass rate ≥ 95 % en goldenRAGAS / DeepEvalQA Engineer
Regression testΔ faithfulness ≥ −0.03 vs baselineDeepEval CIQA Engineer
Robustness suiteConsistency mean ≥ 0.80PromptBench / customQA Engineer
Security scan0 vulnerabilidades críticasOWASP LLM / ManualSecurity Lead
Privacy / PII test0 leaks en canary tokensCustom (Cap. 28)Security Lead
Drift baselineSimilarity baseline con IC95 documentadaCustom detectorMLOps
Cost budgetCoste/query dentro de presupuestoLangSmith / LangfuseFinOps
Quality gates CITodos los gates en verdeGitHub ActionsDevOps
Human review50 casos revisados por experto de dominioLabelStudio / ArgillaDomain Expert
Rollback planRollback a versión anterior documentadoMLflow / GitTech Lead
Monitoring readyDashboards y alertas configuradosGrafana / LangfuseMLOps

Caso típico: subir de L2 a L4 en seis meses

Patrón observado en equipos pequeños (3–6 personas):

Mes 1–2 (L2 → L3):

  • Golden dataset estable y versionado.
  • Pipeline CI con un único gate (faithfulness ≥ 0.85 objetivo).
  • PromptRegistry configurado.

Mes 3–4 (L3 → L3.5):

  • Suite RAGAS completa en CI.
  • Logging estructurado con request_id y prompt_version.
  • Quality gates por etapa: PR / staging / pre-prod / canary.

Mes 4–5 (L3.5 → L4):

  • Detector de drift activo sobre golden_v2.
  • Suite OWASP nightly.
  • Dashboard básico con faithfulness P50/P95.

Mes 5–6 (consolidar L4):

  • Robustness suite en nightly por idioma.
  • Cost-aware tests en CI (Δ ≤ +10 %).
  • Calibración trimestral de umbrales.

Realismo

Pasar de L2 a L4 en seis meses requiere dedicación parcial de un QA Engineer + buy-in del equipo. Sin esto, el plan se diluye. La señal de que vas por buen camino: cada release tarda menos en evaluarse y los falsos positivos del CI bajan.

Antipatrones de madurez

  • Saltarse niveles. "Implementamos L5 directamente." Los gates fallan por falta de baseline; las alertas son ruido porque no hay calibración.
  • Confundir tooling con madurez. Comprar Langfuse no te lleva a L4 si nadie mira los dashboards.
  • Métrica única. Equipos en L3 que reportan solo pass rate están ciegos a coste, latencia y robustness.
  • Tests sin owner. Suites en CI que llevan meses fallando porque "ya hablamos con el equipo X". L3 real requiere ownership.

Referencias

  • Manual QA AI v13 — Cap. 23 (Estrategia integral de QA AI), Tablas 23.1 y 23.2
  • Tabla maestra de umbrales
  • ISO/IEC 42001:2023 — AI Management Systems

MIT License · GitHub