El Problema
Seguía más de 20 canales de Telegram sobre IA/tech. Pasaba más de 2 horas al día haciendo scroll entre hype y promos para encontrar 2–3 publicaciones realmente valiosas. En 5 días construí un filtro de ML. Califico las publicaciones de ⭐ a ⭐⭐⭐⭐⭐: la IA aprende mi gusto. Ahora elimina el 80% del ruido. Leo solo la señal en 15 minutos.
Antes / Después
Antes: 20+ canales, 100+ publicaciones/día → 2+ horas de scroll → encuentro 2–3 buenas → cansancio, me pierdo cosas importantes
Después: El bot agrega todo → durante 2 semanas califico ⭐–⭐⭐⭐⭐⭐ → la IA aprendió: «le gustan los sistemas RAG, no le gustan los benchmarks de LLM» → ahora muestra 15–20 publicaciones/día (todas relevantes) → 15 minutos de lectura
Impacto: 85% de acierto tras 6 semanas. Descubrí que salto los benchmarks pero leo cada artículo de RAG — un patrón que no tenía consciente. 88% de tiempo ahorrado (2 h → 15 min).
Cómo Funciona
Paso 1: El bot monitoriza tus 20+ canales y envía todas las publicaciones a un único feed de Telegram.
Paso 2: Calificas cada publicación en una escala de ⭐–⭐⭐⭐⭐⭐. Tras ~100 calificaciones (2 semanas), el modelo ve patrones. No son solo palabras clave: entiende el significado. «Esta persona prefiere publicaciones técnicas de implementación RAG, no anuncios de producto sobre RAG».
Por ejemplo, para el canal «Sanchal»: ⭐⭐⭐⭐⭐ — desgloses profundos de implementaciones RAG; ⭐⭐⭐ — posts panorámicos; ⭐–⭐⭐ — anuncios promocionales y resúmenes de hype.
Paso 3: El bot empieza a filtrar. Muestra solo publicaciones parecidas a las que calificaste con ⭐⭐⭐⭐–⭐⭐⭐⭐⭐. Oculta el ruido. Mejora con cada calificación. Puedes activar «mostrar ocultas» para auditar lo filtrado.
Resultado: 100+ publicaciones diarias → 15–20 curadas. Toda señal, cero ruido. Ahorra 88% de tu tiempo.
Arquitectura Técnica
1. Ingesta de Contenido:
- Bot de Telegram monitoriza canales suscritos (API de Telegram)
- Captura texto, medios y metadatos (fuente, hora, autor)
- Reenvía todo a un bot personal de agregación
- Dedupe: detecta cross-posts entre canales
2. Almacenamiento y Embeddings:
- PostgreSQL: guarda mensajes, calificaciones, metadatos, fuente
- Qdrant Vector DB: guarda embeddings para similitud semántica
- Cada mensaje se embebe con OpenAI Embeddings
- Permite búsqueda semántica para hallar contenido similar al de alta calificación
3. Calificaciones y Bucle de Feedback:
- La persona recibe un mensaje → califica ⭐–⭐⭐⭐⭐⭐ con botones inline
- La calificación se guarda con timestamp, confianza y contexto
- El sistema rastrea qué temas valoras más, qué fuentes te inspiran confianza y qué formatos prefieres
- El feedback actualiza el modelo en tiempo real
4. Modelo de ML:
- Híbrido: similitud vectorial + rasgos de metadatos
- Componente vectorial: similitud con contenido previamente bien calificado (vecinos Qdrant)
- Metadatos: credibilidad de la fuente, categorías, longitud del mensaje, densidad de enlaces
- Clasificación binaria: «¿Dará la persona ⭐⭐⭐⭐–⭐⭐⭐⭐⭐?»
- Umbral de confianza: mostrar solo mensajes con >70% de interés previsto
5. Entrega Adaptativa:
- Arranque en frío (primeras 2 semanas): mostrar más contenido, recolectar datos
- Fase de aprendizaje (semanas 3–6): comenzar a filtrar con prudencia (incluir casos límite)
- Fase optimizada (6+ semanas): filtrado agresivo, solo alta confianza
- La persona puede pedir «mostrar suprimidos» para auditar decisiones
6. Mejora Continua:
- Reentrenamiento nocturno con nuevas calificaciones
- Seguimiento de precisión: interés predicho vs. calificación real
- Ajuste de umbrales según rendimiento
- Detección de deriva de interés y adaptación del modelo
Qué lo Hace Especial
Aprende matices, no solo temas. No filtra «todo lo de IA»: filtra «anuncios de producto de IA» y mantiene «posts técnicos de implementación RAG». Descubre patrones de tu gusto que no sabías que tenías.
Números Reales
Rendimiento:
- Filtra 75–85% del ruido (de 100+ mensajes diarios a ~15–20 relevantes)
- Tiempo ahorrado: 15 min de lectura enfocada vs. 2+ h de scroll
- Precisión del modelo: 85%+ tras 6 semanas
- El filtrado útil empieza tras ~100 calificaciones (2 semanas)
Qué Cambió de Verdad:
- Antes: 2+ horas de scroll buscando «la señal»
- Después: 15 minutos de lectura curada y relevante
- Informado sin FOMO ni sobrecarga
- El sistema sacó a la luz mis preferencias ocultas (ej., salto benchmarks de LLM pero leo todo sobre sistemas RAG)
Valor y Escala
Resuelto para: 1 persona (yo) ahogada en contenido de IA/tech
Mercado potencial: cualquiera que siga 10+ canales/newsletters (millones de ingenieras/os, investigadores/as, inversores/as)
Tiempo ahorrado: 2 horas → 15 minutos al día = 88% de ahorro. 11 horas/semana. 572 horas/año.
Insight clave: el sistema detectó mis preferencias inconscientes. No sabía que salto TODOS los benchmarks pero leo CADA implementación de RAG. El filtro lo aprendió solo.
Habilidades Demostradas
- ML para recomendación de contenidos
- Embeddings vectoriales y búsqueda semántica (Qdrant)
- Bot de Telegram y parsing de canales
- Arquitectura híbrida (vector + metadatos)
- Diseño de bucles de feedback y aprendizaje online
- Resolución de cold start
- PKM (gestión personal del conocimiento)
- ML en producción y reentrenamiento continuo
Stack Tecnológico
Tecnologías: Python, aiogram (Telegram), OpenAI Embeddings, Qdrant, PostgreSQL, scikit-learn
Datos: 20+ canales monitorizados, 1000+ calificaciones, 6+ meses de aprendizaje
Complejidad: 8/10 (entrenamiento de modelo, aprendizaje online, bucles de feedback, parsing de contenido)