RAG para análisis legal y presupuestal
Sistema RAG end-to-end para análisis legal y presupuestal de documentos altamente sensibles en una institución federal del sector electoral mexicano. Pipeline OCR híbrido, chunking avanzado y aplicación web completa para consultas en lenguaje natural.
Cliente: Institución federal del sector electoral (cliente bajo confidencialidad)
El contexto
La institución manejaba un archivo extenso de documentos legales y presupuestales que requerían consultas complejas por parte de stakeholders internos. El acceso tradicional por búsqueda de texto era insuficiente para preguntas en lenguaje natural sobre contenido denso.
El reto técnico
Construir un sistema RAG que pudiera recuperar información contextual precisa sobre documentos legales sensibles, minimizando hallucinations y maximizando la trazabilidad de cada respuesta a su fuente original. Sumar una interfaz intuitiva para usuarios no técnicos.
La solución
Pipeline híbrido de OCR con Google Document AI para digitalización de documentos escaneados. Estrategias de chunking combinadas (híbrido, semántico, sliding window) para maximizar relevancia. Vector store SurrealDB para alto volumen con baja latencia. Aplicación web full-stack React + Python que expone consultas en lenguaje natural sobre el archivo institucional.
Decisiones clave
- →Elegir Google Document AI para OCR por su precisión con documentos legales complejos.
- →Combinar estrategias de chunking (híbrido + semántico + sliding window) para maximizar recuperación contextual.
- →Usar SurrealDB como vector store para aprovechar baja latencia y alto volumen.
- →Construir una interfaz React accesible para usuarios institucionales no técnicos.
Resultados
Sistema RAG desplegado en producción para análisis interno de archivos legales y presupuestales. La interfaz permitió a los stakeholders institucionales ejecutar consultas complejas en lenguaje natural sobre documentos que antes requerían búsquedas manuales extensas.
Mi rol
Fui AI Specialist responsable de toda la arquitectura RAG: el pipeline de OCR, las estrategias de chunking, la indexación vectorial, la integración con LLMs y el frontend React para consultas. Todo el stack bajo mi responsabilidad técnica.
Lo que aprendí
En un sistema RAG con documentos sensibles, la trazabilidad importa más que la velocidad. Cada respuesta del LLM debe poder rastrearse hasta el fragmento original para que los usuarios institucionales puedan auditar las respuestas.
¿Quieres algo similar para tu organización?
Hablemos de tu proyecto. Respondo en menos de 24 horas.