SignalAI

2 Horas → 15 Minutos • Un Filtro de Contenidos Que Aprende TU Gusto

El Problema

Seguía más de 20 canales de Telegram sobre IA/tech. Pasaba más de 2 horas al día haciendo scroll entre hype y promos para encontrar 2–3 publicaciones realmente valiosas. En 5 días construí un filtro de ML. Califico las publicaciones de ⭐ a ⭐⭐⭐⭐⭐: la IA aprende mi gusto. Ahora elimina el 80% del ruido. Leo solo la señal en 15 minutos.

Antes / Después

Antes: 20+ canales, 100+ publicaciones/día → 2+ horas de scroll → encuentro 2–3 buenas → cansancio, me pierdo cosas importantes

Después: El bot agrega todo → durante 2 semanas califico ⭐–⭐⭐⭐⭐⭐ → la IA aprendió: «le gustan los sistemas RAG, no le gustan los benchmarks de LLM» → ahora muestra 15–20 publicaciones/día (todas relevantes) → 15 minutos de lectura

Impacto: 85% de acierto tras 6 semanas. Descubrí que salto los benchmarks pero leo cada artículo de RAG — un patrón que no tenía consciente. 88% de tiempo ahorrado (2 h → 15 min).

Cómo Funciona

Paso 1: El bot monitoriza tus 20+ canales y envía todas las publicaciones a un único feed de Telegram.

Paso 2: Calificas cada publicación en una escala de ⭐–⭐⭐⭐⭐⭐. Tras ~100 calificaciones (2 semanas), el modelo ve patrones. No son solo palabras clave: entiende el significado. «Esta persona prefiere publicaciones técnicas de implementación RAG, no anuncios de producto sobre RAG».

Por ejemplo, para el canal «Sanchal»: ⭐⭐⭐⭐⭐ — desgloses profundos de implementaciones RAG; ⭐⭐⭐ — posts panorámicos; ⭐–⭐⭐ — anuncios promocionales y resúmenes de hype.

Paso 3: El bot empieza a filtrar. Muestra solo publicaciones parecidas a las que calificaste con ⭐⭐⭐⭐–⭐⭐⭐⭐⭐. Oculta el ruido. Mejora con cada calificación. Puedes activar «mostrar ocultas» para auditar lo filtrado.

Resultado: 100+ publicaciones diarias → 15–20 curadas. Toda señal, cero ruido. Ahorra 88% de tu tiempo.

Arquitectura Técnica

1. Ingesta de Contenido:

  • Bot de Telegram monitoriza canales suscritos (API de Telegram)
  • Captura texto, medios y metadatos (fuente, hora, autor)
  • Reenvía todo a un bot personal de agregación
  • Dedupe: detecta cross-posts entre canales

2. Almacenamiento y Embeddings:

  • PostgreSQL: guarda mensajes, calificaciones, metadatos, fuente
  • Qdrant Vector DB: guarda embeddings para similitud semántica
  • Cada mensaje se embebe con OpenAI Embeddings
  • Permite búsqueda semántica para hallar contenido similar al de alta calificación

3. Calificaciones y Bucle de Feedback:

  • La persona recibe un mensaje → califica ⭐–⭐⭐⭐⭐⭐ con botones inline
  • La calificación se guarda con timestamp, confianza y contexto
  • El sistema rastrea qué temas valoras más, qué fuentes te inspiran confianza y qué formatos prefieres
  • El feedback actualiza el modelo en tiempo real

4. Modelo de ML:

  • Híbrido: similitud vectorial + rasgos de metadatos
  • Componente vectorial: similitud con contenido previamente bien calificado (vecinos Qdrant)
  • Metadatos: credibilidad de la fuente, categorías, longitud del mensaje, densidad de enlaces
  • Clasificación binaria: «¿Dará la persona ⭐⭐⭐⭐–⭐⭐⭐⭐⭐?»
  • Umbral de confianza: mostrar solo mensajes con >70% de interés previsto

5. Entrega Adaptativa:

  • Arranque en frío (primeras 2 semanas): mostrar más contenido, recolectar datos
  • Fase de aprendizaje (semanas 3–6): comenzar a filtrar con prudencia (incluir casos límite)
  • Fase optimizada (6+ semanas): filtrado agresivo, solo alta confianza
  • La persona puede pedir «mostrar suprimidos» para auditar decisiones

6. Mejora Continua:

  • Reentrenamiento nocturno con nuevas calificaciones
  • Seguimiento de precisión: interés predicho vs. calificación real
  • Ajuste de umbrales según rendimiento
  • Detección de deriva de interés y adaptación del modelo

Qué lo Hace Especial

Aprende matices, no solo temas. No filtra «todo lo de IA»: filtra «anuncios de producto de IA» y mantiene «posts técnicos de implementación RAG». Descubre patrones de tu gusto que no sabías que tenías.

Números Reales

Rendimiento:

  • Filtra 75–85% del ruido (de 100+ mensajes diarios a ~15–20 relevantes)
  • Tiempo ahorrado: 15 min de lectura enfocada vs. 2+ h de scroll
  • Precisión del modelo: 85%+ tras 6 semanas
  • El filtrado útil empieza tras ~100 calificaciones (2 semanas)

Qué Cambió de Verdad:

  • Antes: 2+ horas de scroll buscando «la señal»
  • Después: 15 minutos de lectura curada y relevante
  • Informado sin FOMO ni sobrecarga
  • El sistema sacó a la luz mis preferencias ocultas (ej., salto benchmarks de LLM pero leo todo sobre sistemas RAG)

Valor y Escala

Resuelto para: 1 persona (yo) ahogada en contenido de IA/tech

Mercado potencial: cualquiera que siga 10+ canales/newsletters (millones de ingenieras/os, investigadores/as, inversores/as)

Tiempo ahorrado: 2 horas → 15 minutos al día = 88% de ahorro. 11 horas/semana. 572 horas/año.

Insight clave: el sistema detectó mis preferencias inconscientes. No sabía que salto TODOS los benchmarks pero leo CADA implementación de RAG. El filtro lo aprendió solo.

Habilidades Demostradas

  • ML para recomendación de contenidos
  • Embeddings vectoriales y búsqueda semántica (Qdrant)
  • Bot de Telegram y parsing de canales
  • Arquitectura híbrida (vector + metadatos)
  • Diseño de bucles de feedback y aprendizaje online
  • Resolución de cold start
  • PKM (gestión personal del conocimiento)
  • ML en producción y reentrenamiento continuo

Stack Tecnológico

Tecnologías: Python, aiogram (Telegram), OpenAI Embeddings, Qdrant, PostgreSQL, scikit-learn

Datos: 20+ canales monitorizados, 1000+ calificaciones, 6+ meses de aprendizaje

Complejidad: 8/10 (entrenamiento de modelo, aprendizaje online, bucles de feedback, parsing de contenido)