TranscriptFlow

1 Hora → 12 Minutos • Lee Los Vídeos en Lugar de Verlos

El Problema

Mi lista de "ver más tarde" tenía 100+ vídeos — nunca llegaba a ellos. Monté una automatización nocturna: cuando veo un vídeo que merece la pena, pego su enlace de YouTube en Notion → mientras duermo, la IA transcribe y maqueta el texto → por la mañana tengo un artículo limpio y legible. Leo un vídeo de 1 hora en 12 minutos. Búsqueda de texto completo, destacados y notas: por fin extraigo conocimiento de los vídeos guardados.

🏫 Una nota sobre lo justo: Cuando saco aprendizajes de un vídeo, dejo el vídeo reproduciéndose (pestaña silenciada) para que la persona autora reciba la visualización. Me parece lo justo.

Antes / Después

Antes: guardo una charla de 60 minutos en "ver más tarde" → no la veo → se queda ahí para siempre → el conocimiento queda encerrado en el vídeo

Después: comparto el enlace con mi bot de Telegram → llega a Notion → me voy a dormir → a las 7:00 me espera una transcripción legible de 12 minutos → resalto ideas → busco entre todos los vídeos guardados → aprendo de verdad

Impacto: ahorro de tiempo ×5 (60 min → 12 min). 95% de acierto en transcripción. Búsqueda instantánea de "RAG" en 50 vídeos. Procesa clases de 3 horas sin problemas. ~$0.20 por hora de vídeo.

Cómo Funciona

Paso 1: siempre que encuentro un vídeo, comparto el enlace con mi bot de Telegram; va a la base de Notion "Videos to Process".

Paso 2: a las 2:00 a. m. se ejecuta la automatización. Descarga el audio. La IA transcribe (las clases largas se trocean). Otra IA quita muletillas ("eh", "como", "bueno"), añade saltos de párrafo y encabezados de sección.

Paso 3: la transcripción maquetada aparece en la misma página de Notion. Por la mañana ya está lista.

Resultado: un vídeo de 1 hora pasa a ser una lectura de 12 minutos. Puedo buscar en todas las transcripciones, resaltar y anotar como si fuera un artículo. Pongo 10 vídeos en cola — todo se procesa durante la noche.

Arquitectura Técnica

1) Monitorización de Notion y Cola de Trabajos:

  • Cron nocturno (o disparo bajo demanda)
  • Consulta el Notion API para páginas con enlaces de YouTube y campo de transcripción vacío
  • Construye una cola de procesamiento (URL, duración, ID de página)
  • Maneja límites de tasa y lotes

2) Pipeline de Descarga de Vídeo:

  • yt‑dlp para descargas fiables de YouTube
  • Solo audio para reducir tamaño y acelerar
  • Valida la descarga antes de seguir
  • Almacenamiento temporal con limpieza automática

3) Troceado Inteligente de Audio:

  • Reglas de duración: <30 min → completo; >30 min → troceado
  • Fragmentos de 10 minutos con ffmpeg
  • Preserva calidad para evitar degradación de Whisper
  • Evita límites de tamaño/tiempo de Whisper

4) Transcripción con Whisper:

  • Cada fragmento se envía a OpenAI Whisper API
  • Detección automática de idioma (EN, ES, RU, etc.)
  • Devuelve texto con marcas de tiempo y puntuación
  • Procesamiento paralelo para mayor velocidad

5) Ensamblado y Estructuración:

  • Une los fragmentos en una sola transcripción
  • Claude analiza el texto completo para darle estructura lógica
  • Detecta cambios de tema, inserta párrafos y encabezados
  • Elimina muletillas para mejorar la lectura
  • Conserva el sentido original mejorando el flujo

6) Integración con Notion:

  • Actualiza la página original con la transcripción maquetada
  • Marca la página como procesada para evitar duplicados
  • Añade metadatos: duración, número de palabras, fecha de procesamiento
  • Mantiene el enlace al vídeo arriba del todo

Funcionalidades Clave

  • Totalmente Automático: guarda el enlace → despierta con la transcripción. Cero pasos manuales
  • Procesamiento por Lotes: cola de 10 vídeos durante la noche
  • Alta Precisión: Whisper 95%+ incluso en contenido técnico
  • Formato Legible: párrafos lógicos, no un "muro de texto"
  • Buscable: búsqueda de texto completo en todas las transcripciones en Notion
  • Resalta y Anota: trabaja como si fuera un artículo
  • Integración con tu Base de Conocimiento: extrae puntos clave a notas permanentes
  • Aprendizaje 5× Más Rápido: 1 hora de vídeo → 10–12 minutos de lectura
  • Listo para Larga Duración: procesa clases de 3 horas con fiabilidad

Números Reales

Rendimiento:

  • Vídeo de 1 hora → 10–15 minutos de lectura (×5)
  • Funciona por la noche mientras duermo
  • 95%+ de precisión (Whisper)
  • ~$0.10–0.30 por hora de vídeo

Qué Cambió Realmente:

  • Antes: 100+ vídeos en "ver más tarde" que nunca veía
  • Después: guardo el enlace → leo a la mañana siguiente → extraigo conocimiento de verdad
  • Búsqueda en todo el contenido en Notion
  • Se acabó el "lo vi en un vídeo y no lo encuentro"
  • Leer permite destacar y tomar notas — imposible en vídeo

Valor y Escala

Resuelto para: 1 persona (yo) con 100+ vídeos educativos sin ver

Mercado potencial: 2B de personas en YouTube; millones guardan "ver más tarde" y nunca ven. Tech, investigación y educación ahogadas en vídeo

Tiempo ahorrado: vídeo de 1 hora → lectura de 12 min = 80% de ahorro. A 5 vídeos/semana: 4 horas ahorradas a la semana, 208 horas/año

Coste: ~$0.20 por hora (Whisper API). Proceso nocturno. 99% de éxito con reintentos

Qué lo Hace Diferente

Funciona mientras duermes. No es solo transcripción cruda — la IA lo maqueta como un artículo de verdad con encabezados y párrafos. Convierte el cementerio de "ver más tarde" en una base de conocimiento buscable.

Habilidades Demostradas

  • Procesamiento de Vídeo y Extracción de Audio (yt‑dlp, ffmpeg)
  • Integración Speech‑to‑Text (Whisper API)
  • NLP y Estructuración de Texto (Claude)
  • Automatización con Notion API y Gestión de Bases
  • Procesamiento por Lotes y Diseño de Colas
  • Planificación con Cron y Automatización de Servidor
  • Manejo de Errores y Lógica de Reintentos
  • Diseño de Sistemas de Gestión del Conocimiento

Stack Tecnológico

Tecnologías: Python, yt‑dlp, ffmpeg, OpenAI Whisper, Claude 3.5 Sonnet, Notion API, Cron

Procesado: URL de YouTube → descarga de audio → troceado → Whisper → ensamblado → maquetación con IA → Notion (15–30 minutos por hora de vídeo)

Complejidad: 7/10 (procesamiento de vídeo, troceado, orquestación de API, manejo de errores)