SignalAI - Un Filtro de Contenidos Que Aprende TU Gusto

El Problema

Seguía más de 20 canales de Telegram sobre IA/tech. Pasaba más de 2 horas al día haciendo scroll entre hype y promos para encontrar 2–3 publicaciones realmente valiosas. En 5 días construí un filtro de ML. Califico las publicaciones de ⭐ a ⭐⭐⭐⭐⭐: la IA aprende mi gusto. Ahora elimina el 80% del ruido. Leo solo la señal en 15 minutos.

Antes / Después

Antes: 20+ canales, 100+ publicaciones/día → 2+ horas de scroll → encuentro 2–3 buenas → cansancio, me pierdo cosas importantes

Después: El bot agrega todo → durante 2 semanas califico ⭐–⭐⭐⭐⭐⭐ → la IA aprendió: «le gustan los sistemas RAG, no le gustan los benchmarks de LLM» → ahora muestra 15–20 publicaciones/día (todas relevantes) → 15 minutos de lectura

Impacto: 85% de acierto tras 6 semanas. Descubrí que salto los benchmarks pero leo cada artículo de RAG — un patrón que no tenía consciente. 88% de tiempo ahorrado (2 h → 15 min).

Cómo Funciona

Paso 1: El bot monitoriza tus 20+ canales y envía todas las publicaciones a un único feed de Telegram.

Paso 2: Calificas cada publicación en una escala de ⭐–⭐⭐⭐⭐⭐. Tras ~100 calificaciones (2 semanas), el modelo ve patrones. No son solo palabras clave: entiende el significado. «Esta persona prefiere publicaciones técnicas de implementación RAG, no anuncios de producto sobre RAG».

Por ejemplo, para el canal «Sanchal»: ⭐⭐⭐⭐⭐ — desgloses profundos de implementaciones RAG; ⭐⭐⭐ — posts panorámicos; ⭐–⭐⭐ — anuncios promocionales y resúmenes de hype.

Paso 3: El bot empieza a filtrar. Muestra solo publicaciones parecidas a las que calificaste con ⭐⭐⭐⭐–⭐⭐⭐⭐⭐. Oculta el ruido. Mejora con cada calificación. Puedes activar «mostrar ocultas» para auditar lo filtrado.

Resultado: 100+ publicaciones diarias → 15–20 curadas. Toda señal, cero ruido. Ahorra 88% de tu tiempo.

Arquitectura Técnica

1. Ingesta de Contenido:

Bot de Telegram monitoriza canales suscritos (API de Telegram)
Captura texto, medios y metadatos (fuente, hora, autor)
Reenvía todo a un bot personal de agregación
Dedupe: detecta cross-posts entre canales

2. Almacenamiento y Embeddings:

PostgreSQL: guarda mensajes, calificaciones, metadatos, fuente
Qdrant Vector DB: guarda embeddings para similitud semántica
Cada mensaje se embebe con OpenAI Embeddings
Permite búsqueda semántica para hallar contenido similar al de alta calificación

3. Calificaciones y Bucle de Feedback:

La persona recibe un mensaje → califica ⭐–⭐⭐⭐⭐⭐ con botones inline
La calificación se guarda con timestamp, confianza y contexto
El sistema rastrea qué temas valoras más, qué fuentes te inspiran confianza y qué formatos prefieres
El feedback actualiza el modelo en tiempo real

4. Modelo de ML:

Híbrido: similitud vectorial + rasgos de metadatos
Componente vectorial: similitud con contenido previamente bien calificado (vecinos Qdrant)
Metadatos: credibilidad de la fuente, categorías, longitud del mensaje, densidad de enlaces
Clasificación binaria: «¿Dará la persona ⭐⭐⭐⭐–⭐⭐⭐⭐⭐?»
Umbral de confianza: mostrar solo mensajes con >70% de interés previsto

5. Entrega Adaptativa:

Arranque en frío (primeras 2 semanas): mostrar más contenido, recolectar datos
Fase de aprendizaje (semanas 3–6): comenzar a filtrar con prudencia (incluir casos límite)
Fase optimizada (6+ semanas): filtrado agresivo, solo alta confianza
La persona puede pedir «mostrar suprimidos» para auditar decisiones

6. Mejora Continua:

Reentrenamiento nocturno con nuevas calificaciones
Seguimiento de precisión: interés predicho vs. calificación real
Ajuste de umbrales según rendimiento
Detección de deriva de interés y adaptación del modelo

Qué lo Hace Especial

Aprende matices, no solo temas. No filtra «todo lo de IA»: filtra «anuncios de producto de IA» y mantiene «posts técnicos de implementación RAG». Descubre patrones de tu gusto que no sabías que tenías.

Números Reales

Rendimiento:

Filtra 75–85% del ruido (de 100+ mensajes diarios a ~15–20 relevantes)
Tiempo ahorrado: 15 min de lectura enfocada vs. 2+ h de scroll
Precisión del modelo: 85%+ tras 6 semanas
El filtrado útil empieza tras ~100 calificaciones (2 semanas)

Qué Cambió de Verdad:

Antes: 2+ horas de scroll buscando «la señal»
Después: 15 minutos de lectura curada y relevante
Informado sin FOMO ni sobrecarga
El sistema sacó a la luz mis preferencias ocultas (ej., salto benchmarks de LLM pero leo todo sobre sistemas RAG)

Valor y Escala

Resuelto para: 1 persona (yo) ahogada en contenido de IA/tech

Mercado potencial: cualquiera que siga 10+ canales/newsletters (millones de ingenieras/os, investigadores/as, inversores/as)

Tiempo ahorrado: 2 horas → 15 minutos al día = 88% de ahorro. 11 horas/semana. 572 horas/año.

Insight clave: el sistema detectó mis preferencias inconscientes. No sabía que salto TODOS los benchmarks pero leo CADA implementación de RAG. El filtro lo aprendió solo.

Habilidades Demostradas

ML para recomendación de contenidos
Embeddings vectoriales y búsqueda semántica (Qdrant)
Bot de Telegram y parsing de canales
Arquitectura híbrida (vector + metadatos)
Diseño de bucles de feedback y aprendizaje online
Resolución de cold start
PKM (gestión personal del conocimiento)
ML en producción y reentrenamiento continuo

Stack Tecnológico

Tecnologías: Python, aiogram (Telegram), OpenAI Embeddings, Qdrant, PostgreSQL, scikit-learn

Datos: 20+ canales monitorizados, 1000+ calificaciones, 6+ meses de aprendizaje

Complejidad: 8/10 (entrenamiento de modelo, aprendizaje online, bucles de feedback, parsing de contenido)