2025·IA Generativa y LLMs·~12 meses

RAG para análisis legal y presupuestal — INE

Sistema RAG end-to-end para análisis legal y presupuestal de documentos institucionales en el Instituto Nacional Electoral de México. Pipeline OCR híbrido, chunking avanzado y aplicación web completa para consultas en lenguaje natural.

Cliente: Instituto Nacional Electoral (INE)

INE

100%Documentos procesados

RAGEnd-to-End

Full-StackReact + Python

El contexto

El Instituto Nacional Electoral manejaba un archivo extenso de documentos legales y presupuestales que requerían consultas complejas por parte de stakeholders internos. El acceso tradicional por búsqueda de texto era insuficiente para preguntas en lenguaje natural sobre contenido denso.

El reto técnico

Construir un sistema RAG que pudiera recuperar información contextual precisa sobre documentos legales sensibles, minimizando hallucinations y maximizando la trazabilidad de cada respuesta a su fuente original. Sumar una interfaz intuitiva para usuarios no técnicos.

La solución

Pipeline híbrido de OCR con Google Document AI para digitalización de documentos escaneados. Estrategias de chunking combinadas (híbrido, semántico, sliding window) para maximizar relevancia. Vector store SurrealDB para alto volumen con baja latencia. Aplicación web full-stack React + Python que expone consultas en lenguaje natural sobre el archivo institucional.

Google Document AISurrealDBPythonReactLLMsRAG

Decisiones clave

→Elegir Google Document AI para OCR por su precisión con documentos legales complejos.
→Combinar estrategias de chunking (híbrido + semántico + sliding window) para maximizar recuperación contextual.
→Usar SurrealDB como vector store para aprovechar baja latencia y alto volumen.
→Construir una interfaz React accesible para usuarios institucionales no técnicos.

Resultados

Sistema RAG desplegado en producción para análisis interno de archivos legales y presupuestales. La interfaz permitió a los stakeholders institucionales ejecutar consultas complejas en lenguaje natural sobre documentos que antes requerían búsquedas manuales extensas.

Mi rol

Fui AI Specialist responsable de toda la arquitectura RAG: el pipeline de OCR, las estrategias de chunking, la indexación vectorial, la integración con LLMs y el frontend React para consultas. Todo el stack bajo mi responsabilidad técnica.

Lo que aprendí

En un sistema RAG con documentos sensibles, la trazabilidad importa más que la velocidad. Cada respuesta del LLM debe poder rastrearse hasta el fragmento original para que los usuarios institucionales puedan auditar las respuestas.

¿Quieres algo similar para tu organización?

Hablemos de tu proyecto. Respondo en menos de 24 horas.

Hablemos →Ver más casos