30 minutos → 3 segundos • Historiales médicos que realmente puedes usar
Una amiga pasó 10+ años visitando médicos sin diagnóstico. Cada especialista veía solo su fragmento — sin conexiones entre síntomas a través de clínicas y años. Construí HealthRAG en 12 días. Procesé 870 documentos. Ahora responde cualquier pregunta del médico sobre su historial en 3 segundos en lugar de buscar entre papeles durante 30 minutos.
Antes/Después
Antes: El médico pregunta “¿Cuál era tu hemoglobina hace seis meses?” → 30 minutos buscando papeles, intentando recordar qué clínica
Después: Preguntar al bot de Telegram → 3 segundos, respuesta completa con fechas y tendencia
Impacto: 870 documentos de 10+ años, búsqueda instantánea. Tendencias visibles que antes eran imposibles de ver (ej. “vitamina D bajando durante 2 años”).
Cómo Funciona
Paso 1: Enviar foto del documento médico al bot de Telegram
Paso 2: La IA lo lee (incluyendo escritura a mano), extrae resultados de análisis, fechas, diagnósticos. Cuando encuentra abreviaturas desconocidas, pregunta una vez y luego recuerda para siempre.
Paso 3: Los datos se organizan en dos sistemas: base de datos estructurada para tendencias (“muestra colesterol últimos 2 años”) + motor de búsqueda para contexto (“encuentra todas las menciones de tiroides”)
Resultado: Pregunta cualquier cosa sobre tu historial médico, obtén respuesta en 3 segundos con números específicos y fechas.
Arquitectura Técnica
Pipeline de Datos: Documento Médico → Google Document AI (OCR) → Claude AI (Estructuración + Normalización) → Validación JSON Schema → Escritura Paralela a BigQuery (datos estructurados) + Qdrant (embeddings) → Capa de IA Conversacional
Decisiones Técnicas Clave:
- Google Document AI: OCR superior para documentos médicos con layouts complejos (~$19 para los 870 documentos)
- Claude 3.5 Sonnet: Mejor en extracción de entidades médicas y normalización
- BigQuery: Motor de analíticas potente para tendencias de salud, coste-efectivo a escala
- Qdrant: Base de datos vectorial auto-alojada para datos médicos sensibles
- Almacenamiento Híbrido: Datos estructurados en BigQuery (consultas rápidas), contexto completo en Qdrant (búsqueda semántica)
Números Reales
- 95% precisión OCR, 90% precisión de extracción
- 15-30 segundos por documento (OCR + estructuración + almacenamiento)
- ~$0.05-0.15 por documento procesado
- < 2 segundos para responder preguntas
- 870 documentos procesados, 10+ años de historial
- ~21,000 líneas de código en 35 módulos. Construido en 12 días.