Skip to main content
Prueba Lexiel gratisProbar ahora →
12 minSofía + Adrián

Calidad del corpus legal

Cómo se construye y mantiene un corpus jurídico fiable para RAG: fuentes, deduplicación y actualización.

¿Qué es un corpus legal?

Un corpus legal es la base de datos de documentos jurídicos que alimenta un sistema RAG. Su calidad determina directamente la calidad de las respuestas.

Fuentes de un corpus legal

  1. Legislación: BOE, diarios oficiales autonómicos, EUR-Lex
  2. Jurisprudencia: CENDOJ, bases de tribunales constitucionales
  3. Doctrina administrativa: resoluciones DGT, DGRN, circulares
  4. Normativa sectorial: reguladores (CNMC, Banco de España, CNMV)

Proceso de construcción

  1. Ingesta: descarga automatizada de fuentes oficiales
  2. Parsing: extracción del texto estructurado (artículos, fundamentos, fallo)
  3. Chunking: división en fragmentos semánticos coherentes
  4. Embedding: vectorización de cada fragmento
  5. Indexación: almacenamiento en base de datos vectorial (pgvector)

Problemas de calidad

  • Duplicados: la misma norma aparece múltiples veces con redacciones ligeramente diferentes
  • Versiones obsoletas: normas derogadas que siguen indexadas
  • Encoding: caracteres especiales mal codificados (mojibake)
  • Stubs: registros vacíos o incompletos que contaminan los resultados

Métricas de calidad

MétricaDescripciónObjetivo
Cobertura% de normas clave indexadas>95%
FrescuraTiempo medio de actualización<48h
DeduplicaciónRatio de duplicados eliminados>99%
Encoding% de textos sin errores de codificación100%

Mantenimiento continuo

Un corpus legal no es estático. Requiere:

  • Monitorización diaria de BOE y diarios oficiales
  • Deduplicación periódica
  • Reindexación tras correcciones
  • Benchmarks de calidad contra preguntas tipo examen

¿Tienes dudas legales propias?

El Plan Particular te da 50 consultas al mes con respuestas verificadas del BOE y la jurisprudencia.

Probar 14 días gratis