HealthRAG

Sistema Personal de Documentos Médicos (Construido para un Amigo)

30 minutos → 3 segundos • Historial médico que realmente puedes usar

Una amiga pasó 10+ años visitando médicos sin diagnóstico. Cada especialista veía solo su fragmento — sin conexiones entre síntomas a través de clínicas y años. Construí HealthRAG en 12 días. Procesé 870 documentos. Ahora ella responde cualquier pregunta del médico sobre su historial en 3 segundos en lugar de buscar entre papeles durante 30 minutos.

Antes/Después

Antes: El médico pregunta "¿Cuál era tu hemoglobina hace seis meses?" → 30 minutos buscando papeles, intentando recordar en qué clínica

Después: Preguntar al bot de Telegram → 3 segundos, respuesta completa con fechas y tendencia

Impacto: 870 documentos de 10+ años, instantáneamente buscables. Tendencias visibles que eran imposibles de ver antes (ej., "vitamina D bajando durante 2 años").

Cómo Funciona

Paso 1: Envía foto del documento médico al bot de Telegram

Paso 2: La IA lo lee (incluyendo escritura a mano), extrae resultados de pruebas, fechas, diagnósticos. Cuando encuentra abreviaturas desconocidas ("¿Qué significa 'Hb'?"), te pregunta una vez, luego lo recuerda para siempre.

Paso 3: Datos organizados en dos sistemas: base de datos estructurada para tendencias ("mostrar colesterol últimos 2 años") + motor de búsqueda para contexto ("encontrar todas las menciones de tiroides")

Resultado: Pregunta cualquier cosa sobre tu historial médico, obtén respuesta en 3 segundos con números y fechas específicas.

Valor y Escala

Resuelto para: 1 persona con condición de salud crónica (10+ años sin diagnóstico)

Mercado potencial: 133M estadounidenses con condiciones crónicas visitando múltiples especialistas

Tiempo ahorrado: 30 minutos → 3 segundos por pregunta del médico. Con 12 citas/año y 10 preguntas cada una = 60 horas ahorradas anualmente

Costo de procesamiento: $19 para digitalizar 10 años de historial médico (870 documentos)

Qué lo Hace Especial

El sistema aprende terminología médica de ti, no de bases de datos genéricas — se adapta a cómo tus médicos específicos escriben y abrevian.

Arquitectura Técnica

Pipeline de Datos:

Documento Médico → Google Document AI (OCR) → Claude AI (Estructuración + Normalización) → Validación de Esquema JSON → Escritura Paralela a BigQuery (datos estructurados) + Qdrant (embeddings) → Capa de IA Conversacional

Decisiones Técnicas Clave:

  • Google Document AI: OCR superior para documentos médicos con diseños complejos (procesar los 870 documentos costó ~$19)
  • Claude 3.5 Sonnet: El mejor de su clase para extracción y normalización de entidades médicas
  • BigQuery: Potente motor de análisis para tendencias de salud, rentable a escala (nivel gratuito de 10GB)
  • Qdrant: Base de datos vectorial autoalojada para datos médicos sensibles a la privacidad
  • Almacenamiento Híbrido: Datos estructurados en BigQuery (consultas rápidas), contexto completo en Qdrant (búsqueda semántica)

Desafío de Consistencia de Esquema:

Diferentes laboratorios usan diferentes formatos y abreviaturas. Solución: La IA normaliza a un esquema unificado, mapeando variaciones ("Hb", "HGB", "Hemoglobina") a códigos LOINC estándar. El sistema aprende de las correcciones del usuario para mejorar la precisión con el tiempo.

Calidad de Datos y Validación:

  • Referencia cruzada de valores extraídos contra base de conocimiento médico
  • Marcado de valores imposibles (ej., presión arterial negativa)
  • Manejo de casos extremos: datos parciales, escritura poco clara, formatos no estándar
  • Gestión de transacciones: escrituras atómicas previenen corrupción parcial de datos

Cifras Reales

Rendimiento:

  • 95% de precisión OCR, 90% de precisión de extracción
  • 15-30 segundos por documento (OCR + estructuración + almacenamiento)
  • ~$0.05-0.15 por documento procesado
  • < 2 segundos para responder preguntas
  • 870 documentos procesados, 10+ años de historial

Lo Que Realmente Cambió:

  • Encontrar resultados de pruebas específicas: 30 minutos → 3 segundos
  • Ahora puede ver tendencias de salud que eran invisibles antes (ej., "la vitamina D ha estado bajando durante 2 años")
  • Visitas al médico: mi amiga puede responder instantáneamente cualquier pregunta sobre resultados pasados
  • Ayuda a los médicos a tomar mejores decisiones con contexto histórico completo

Desafío Clave

Caos de terminología médica: 50+ laboratorios escriben "hemoglobina" de 50 formas diferentes ("Hb", "HGB", "Hemoglobina", diferentes unidades). Construí un sistema que pregunta al usuario una vez cuando ve un término desconocido, luego estandariza todo automáticamente. Esto fue más difícil que la parte de IA.

Stack Técnico

Python, FastAPI, Telegram Bot API, Claude 3.5 Sonnet, Claude 4 Opus, Claude Code, Google Document AI, BigQuery, Qdrant, OpenAI Embeddings, PostgreSQL

~21,000 líneas de código en 35 módulos. Construido en 12 días, refinado en uso real.