El Problema
Mi lista de "ver más tarde" tenía 100+ vídeos — nunca llegaba a ellos. Monté una automatización nocturna: cuando veo un vídeo que merece la pena, pego su enlace de YouTube en Notion → mientras duermo, la IA transcribe y maqueta el texto → por la mañana tengo un artículo limpio y legible. Leo un vídeo de 1 hora en 12 minutos. Búsqueda de texto completo, destacados y notas: por fin extraigo conocimiento de los vídeos guardados.
🏫 Una nota sobre lo justo: Cuando saco aprendizajes de un vídeo, dejo el vídeo reproduciéndose (pestaña silenciada) para que la persona autora reciba la visualización. Me parece lo justo.
Antes / Después
Antes: guardo una charla de 60 minutos en "ver más tarde" → no la veo → se queda ahí para siempre → el conocimiento queda encerrado en el vídeo
Después: comparto el enlace con mi bot de Telegram → llega a Notion → me voy a dormir → a las 7:00 me espera una transcripción legible de 12 minutos → resalto ideas → busco entre todos los vídeos guardados → aprendo de verdad
Impacto: ahorro de tiempo ×5 (60 min → 12 min). 95% de acierto en transcripción. Búsqueda instantánea de "RAG" en 50 vídeos. Procesa clases de 3 horas sin problemas. ~$0.20 por hora de vídeo.
Cómo Funciona
Paso 1: siempre que encuentro un vídeo, comparto el enlace con mi bot de Telegram; va a la base de Notion "Videos to Process".
Paso 2: a las 2:00 a. m. se ejecuta la automatización. Descarga el audio. La IA transcribe (las clases largas se trocean). Otra IA quita muletillas ("eh", "como", "bueno"), añade saltos de párrafo y encabezados de sección.
Paso 3: la transcripción maquetada aparece en la misma página de Notion. Por la mañana ya está lista.
Resultado: un vídeo de 1 hora pasa a ser una lectura de 12 minutos. Puedo buscar en todas las transcripciones, resaltar y anotar como si fuera un artículo. Pongo 10 vídeos en cola — todo se procesa durante la noche.
Arquitectura Técnica
1) Monitorización de Notion y Cola de Trabajos:
- Cron nocturno (o disparo bajo demanda)
- Consulta el Notion API para páginas con enlaces de YouTube y campo de transcripción vacío
- Construye una cola de procesamiento (URL, duración, ID de página)
- Maneja límites de tasa y lotes
2) Pipeline de Descarga de Vídeo:
- yt‑dlp para descargas fiables de YouTube
- Solo audio para reducir tamaño y acelerar
- Valida la descarga antes de seguir
- Almacenamiento temporal con limpieza automática
3) Troceado Inteligente de Audio:
- Reglas de duración: <30 min → completo; >30 min → troceado
- Fragmentos de 10 minutos con ffmpeg
- Preserva calidad para evitar degradación de Whisper
- Evita límites de tamaño/tiempo de Whisper
4) Transcripción con Whisper:
- Cada fragmento se envía a OpenAI Whisper API
- Detección automática de idioma (EN, ES, RU, etc.)
- Devuelve texto con marcas de tiempo y puntuación
- Procesamiento paralelo para mayor velocidad
5) Ensamblado y Estructuración:
- Une los fragmentos en una sola transcripción
- Claude analiza el texto completo para darle estructura lógica
- Detecta cambios de tema, inserta párrafos y encabezados
- Elimina muletillas para mejorar la lectura
- Conserva el sentido original mejorando el flujo
6) Integración con Notion:
- Actualiza la página original con la transcripción maquetada
- Marca la página como procesada para evitar duplicados
- Añade metadatos: duración, número de palabras, fecha de procesamiento
- Mantiene el enlace al vídeo arriba del todo
Funcionalidades Clave
- Totalmente Automático: guarda el enlace → despierta con la transcripción. Cero pasos manuales
- Procesamiento por Lotes: cola de 10 vídeos durante la noche
- Alta Precisión: Whisper 95%+ incluso en contenido técnico
- Formato Legible: párrafos lógicos, no un "muro de texto"
- Buscable: búsqueda de texto completo en todas las transcripciones en Notion
- Resalta y Anota: trabaja como si fuera un artículo
- Integración con tu Base de Conocimiento: extrae puntos clave a notas permanentes
- Aprendizaje 5× Más Rápido: 1 hora de vídeo → 10–12 minutos de lectura
- Listo para Larga Duración: procesa clases de 3 horas con fiabilidad
Números Reales
Rendimiento:
- Vídeo de 1 hora → 10–15 minutos de lectura (×5)
- Funciona por la noche mientras duermo
- 95%+ de precisión (Whisper)
- ~$0.10–0.30 por hora de vídeo
Qué Cambió Realmente:
- Antes: 100+ vídeos en "ver más tarde" que nunca veía
- Después: guardo el enlace → leo a la mañana siguiente → extraigo conocimiento de verdad
- Búsqueda en todo el contenido en Notion
- Se acabó el "lo vi en un vídeo y no lo encuentro"
- Leer permite destacar y tomar notas — imposible en vídeo
Valor y Escala
Resuelto para: 1 persona (yo) con 100+ vídeos educativos sin ver
Mercado potencial: 2B de personas en YouTube; millones guardan "ver más tarde" y nunca ven. Tech, investigación y educación ahogadas en vídeo
Tiempo ahorrado: vídeo de 1 hora → lectura de 12 min = 80% de ahorro. A 5 vídeos/semana: 4 horas ahorradas a la semana, 208 horas/año
Coste: ~$0.20 por hora (Whisper API). Proceso nocturno. 99% de éxito con reintentos
Qué lo Hace Diferente
Funciona mientras duermes. No es solo transcripción cruda — la IA lo maqueta como un artículo de verdad con encabezados y párrafos. Convierte el cementerio de "ver más tarde" en una base de conocimiento buscable.
Habilidades Demostradas
- Procesamiento de Vídeo y Extracción de Audio (yt‑dlp, ffmpeg)
- Integración Speech‑to‑Text (Whisper API)
- NLP y Estructuración de Texto (Claude)
- Automatización con Notion API y Gestión de Bases
- Procesamiento por Lotes y Diseño de Colas
- Planificación con Cron y Automatización de Servidor
- Manejo de Errores y Lógica de Reintentos
- Diseño de Sistemas de Gestión del Conocimiento
Stack Tecnológico
Tecnologías: Python, yt‑dlp, ffmpeg, OpenAI Whisper, Claude 3.5 Sonnet, Notion API, Cron
Procesado: URL de YouTube → descarga de audio → troceado → Whisper → ensamblado → maquetación con IA → Notion (15–30 minutos por hora de vídeo)
Complejidad: 7/10 (procesamiento de vídeo, troceado, orquestación de API, manejo de errores)