Cómo se construye y mantiene un corpus jurídico fiable para RAG: fuentes, deduplicación y actualización.
Un corpus legal es la base de datos de documentos jurídicos que alimenta un sistema RAG. Su calidad determina directamente la calidad de las respuestas.
| Métrica | Descripción | Objetivo |
|---|---|---|
| Cobertura | % de normas clave indexadas | >95% |
| Frescura | Tiempo medio de actualización | <48h |
| Deduplicación | Ratio de duplicados eliminados | >99% |
| Encoding | % de textos sin errores de codificación | 100% |
Un corpus legal no es estático. Requiere:
¿Tienes dudas legales propias?
El Plan Particular te da 50 consultas al mes con respuestas verificadas del BOE y la jurisprudencia.
Vídeo próximamente
Por ahora puedes leer el contenido escrito más abajo
¿Qué es el "chunking" en el contexto de un corpus legal?
¿Los duplicados en un corpus legal pueden afectar la calidad de las respuestas RAG?
¿Cuál es el objetivo de cobertura recomendado para un corpus legal profesional?
¿Qué es el "mojibake" en un corpus legal?
¿Con qué frecuencia mínima debe monitorizarse el BOE para mantener un corpus actualizado?