Skip to content

Métricas de evaluación

Resumen de todas las métricas usadas en el laboratorio, con sus rangos, fortalezas y cuándo usarlas.

Métricas de RAG

MétricaRangoQué mideMódulo
Faithfulness0–1¿La respuesta se infiere del contexto?01, 02
Answer Relevancy0–1¿La respuesta responde a la pregunta?01, 02
Context Precision0–1¿El contexto recuperado es relevante?02
Context Recall0–1¿El contexto contiene todo lo necesario?02
Groundedness0–1¿Cada claim está en el contexto?06

Métricas de juez LLM

MétricaRangoQué mideMódulo
G-Eval0–1Puntuación según rúbrica personalizada03
DAG MetricTrue/FalseCondiciones booleanas compuestas03
Position Bias Delta0–1Diferencia de score según posición03

Métricas de seguridad

MétricaRangoQué mideMódulo
Hit Rate0–1% de ataques que tuvieron éxito07, 08
Hit Rate by Category0–1Hit rate desglosado por tipo de ataque07

Métricas de drift

MétricaRangoQué mideMódulo
PSI0–∞Cambio en distribución de scores13
Mean Drop%Caída del score medio respecto al baseline13
P950–1Percentil 95 de los scores actuales13
Centroid Shift0–1Distancia coseno entre centroides de embeddings14
Cosine Similarity-1–1Similitud semántica entre dos textos14

Cuándo usar cada una

Para evaluar una respuesta individual: → Faithfulness + Answer Relevancy (módulo 01)

Para evaluar un pipeline RAG completo: → Faithfulness + Context Precision + Context Recall (módulo 02)

Para comparar dos versiones de un prompt: → G-Eval con calibración de position bias (módulo 03) + is_significant() (módulo 05)

Para detectar alucinaciones: → Groundedness con detección de negaciones (módulo 06)

Para monitorizar calidad en producción: → PSI + Mean Drop + Centroid Shift (módulos 13 + 14)

MIT License · GitHub