TED Talks, descargar videos y subtitulos de las charlas

TED logo

Como introducción, para aquellos que aun no conozcan TED (Technology, Enternaiment, Design) y sus famosas charlas, TED Talks, podría resumirlo como algo así como la versión en vídeo de las revistas de "divulgación científica y tecnológica" (acogiendo bajo esta denominación desde las más banales a las mas prestigiosas) que todos conocemos como Muy Interesante, Investigación y Ciencia, Geo, Quo, National Geographic, Popular Science, Nature, Science, Lancet, etc... con la ventaja de la escasa distorsión del mensaje y lo conciso del mismo. Esto se debe a que no tenemos que pasar por el filtro del periodista (cuando no es un paper), es el propio interesado quien nos relata sus ideas personalmente y que la gran mayoría de las charlas esta sometida a un tiempo limite de 18 minutos, ya que es el tiempo máximo que se ha calculado que podemos estar centrados en un solo asunto sin perder el interés o la atención. Evidentemente no son comparables a un articulo amplio, detallado y bien redactado o a un buen documental, ni tampoco lo pretenden. No se trata de profundizar en los temas, se trata de que el ponente consiga transmitirte sus ideas, su entusiasmo y la trascendencia de las mismas, y en la mayoría de los casos lo consiguen, y algunas de estas charlas son de una calidad y de una trascendencia tales, que deberían tener lugar también en los medios tradicionales (TV). La calidad de estas charlas es tal que es difícil no quedarte impresionado (cuando no deslumbrado) al final de las mismas y contagiado del entusiasmo de los ponentes, la apertura de miras, conocimiento y humildad que te proporcionan (amen de ayudarte a creer un poquito más en la humanidad) no tiene parangón actualmente. Desde la serie Cosmos de Carl Sagan, no he encontrado nada parecido que me invitara tanto a pensar y me abriera tanto la mente. Lo único que se acerca, entre la telebasura reinante, en el mundo audiovisual actual, es el programa Redes de Eduardo Punset.

Para una definición más precisa, un extracto del articulo de la Wikipedia:

TED (Tecnología, Entretenimiento, Diseño, del inglés: Technology, Entertainment, Design) es una organización sin ánimo de lucro dedicada a las "ideas que vale la pena difundir" (del inglés: Ideas worth spreading). TED es ampliamente conocida por su conferencia anual (TED Conference) y sus charlas (TED Talks) que cubren un amplio espectro de temas que incluyen ciencias, arte y diseño, política, educación, cultura, negocios, asuntos globales, tecnología y desarrollo, y entretenimiento. Los conferenciantes han incluido a personas como el ex-Presidente de los Estados Unidos Bill Clinton, los laureados con el Premio** Nobel James D. Watson**, Murray Gell-Mann, y Al Gore, el co-fundador de Microsoft, Bill Gates, los co-fundadores de Google Sergey Brin y Larry Page, y Billy Graham

Estas charlas se publican en su pagina web actualmente a un ritmo aproximado de una por día de semana (esto es, lunes a viernes). Actualmente (julio 2010) hay más de 700 charlas disponibles en su página y se han visionado más de 290.000.000 de veces (julio 2010), para que os hagáis una idea de la repercusión y trascendencia de las mismas.

El caso es que yo las sigo habitualmente, vamos que veo todas las que publican. Al principio me limitaba a enterarme de la publicación de las mismas por mi lector de fuentes RSS, veía el asunto de las mismas y si me parecía interesante, las veía directamente a través de su página web. Luego, cansado de los inconvenientes de verlas a través de un navegador web a pantalla completa, en flash desde linux, dí un paso más y me pase a un programa como Miro, de hecho hay una versión del mismo para TED. Para el que no lo conozca, Miro es un reproductor multimedia open source multiplataforma que cuenta con un agregador de fuentes RSS y torrents para podcasts de audio y vídeo. Así que él automáticamente se baja las charlas a medida que se van publicando y tu solo tienes que visionarlas desde el mismo, decidiendo después si las eliminas o las conservas.

Miro TED Talks

Pero Miro para mi tenia dos grandes problemas, el primero que no descarga los subtitulos, y el segundo que la visualización de estos es bastante pobre (al menos comparado con la configuración que tengo en mi SMPlayer). No es que los subtitulos me sean esenciales (todas las charlas son en ingles) pero si que ayudan mucho para el contexto de aquellas donde uno ni de lejos domina los tecnicismos de algunos campos, o porque no decirlo, cuando el acento o la pronunciación de algunos de los ponentes me hace imposible seguirlos sin los mismos. Siempre veo los subtitulos en el idioma original, inglés, pero siempre descargo también la versión en español porque me es muy útil en algunos momentos, como por ejemplo cuando se refieren a especies animales o vegetales de los que no conozco la traducción al español, y en lugar de tirar de diccionario continuamente, gano tiempo visionandolos en castellano.

Como uno ha de reconocer humildemente, rara es la vez que a uno no se le presente un problema que no se le haya presentado antes a otro y no haya dado con una solución valida. Luego en vez de reinventar la rueda (aunque finalmente es lo que haya acabado haciendo) me dirigí a San Google para encontrar una solución para descargar los subtitulos de las TED Talks, y he aquí, que doy con este script en Python (mi lenguaje de programación favorito). Lo empleé durante unos días (tres para ser exactos), pero no me acaba de convencer y me puse a modificarlo, y cuando estaba en ello, me dije: Que demonios! si al final no te convence Miro para visionar los vídeos con subtitulos, porque no descargar también los mismos y utilizar el SMPlayer para visionarlos? Así que me puse manos a la obra, y esto es lo que salio y actualmente empleo.

El script hace uso de la fuente RSS de las TED Talks en calidad HD para conocer cuando se publica una nueva charla en la pagina. Comprueba si no esta ya descargado, si no es así, lo descarga y luego comprueba la disponibilidad de los subtitulos (español e ingles) para las charlas ya descargadas que se encuentren en la carpeta. Si encuentra alguno disponible y no descargado anteriormente, lo convierte en un nuevo fichero .srt en la carpeta. Finalmente, si se ha descargado algo (charlas o subs), manda un correo a mi usuario local notificándomelo. Esta script lo tengo automatizado mediante una tarea cron en un pequeño servidor que tengo y que se ejecuta todas las mañanas a eso de las 9:30 y que normalmente me descarga la charla del día anterior y los subtitulos en ingles de la misma y los de español de dos días antes. Esto depende mucho de la velocidad de traducción de los colaboradores, ya que a veces, cuando una charla es muy interesante, es posible que a las pocas horas dispongamos de los subtitulos en los dos idiomas.

El código del script, es el siguiente:

Y un ejemplo de un correo enviado por el mismo quedaría así:

Pudiendo acceder al vídeo directamente desde el correo, y si se encontraran los subtitulos para el mismo ya disponibles, visualizarlos automáticamente.

El que el script esté fundamentalmente en ingles (la mayoría de comentarios y los nombres de las variables) es que me siento más cómodo de esta manera y ayuda a que un espectro más amplio de personas sea capaz de comprenderlo. Si este script le sirve a alguien más o le inspira para crear el suyo propio, pues habrá valido la pena el publicarlo.

Finalmente como ejemplo, publico una de las charlas más impactantes este año y ganadora del TED Prize, Jamie Oliver: Enseñarle a todos los niños acerca de la comida

Actualización:

A partir de ahora la descarga del código se hará a través de mi repositorio de bickbucket, para así siempre poder bajarse la última versión actualizada (cambios, corrección errores, ...)

16 comentarios

Imagen de Xavier

by Xavier on Jue, 25/11/2010 - 12:01

Tal y como predices, no parece encontrar la pagina buscada. Ahora me lanza este error:

Some data not found in this URL:
 
http://www.ted.com/talks/lang/eng/jamie_oliver.html
 
Please report this error and provides the URL to check at:
 
http://code.joedicastro.com/ted-talks-download/issues/new
 
Thanks for helping to fix errors.

Lo curioso es que estoy probandolo con el ejemplo que tu nos proporcionas:

TEDSubs.py -s  http://www.ted.com/talks/lang/eng/jamie_oliver.html

Para asegurarme que tengo conectividad desde mi ordenador he intentado ir a la pagina web en un browser (sale ok) y he intentado bajarla con wget (baja ok).

No creo que afecte, pero estoy usando OS X 10.6

gracias

Xavier

Imagen de joe di castro

by joe di castro on Jue, 25/11/2010 - 12:33

Bueno, teniendo en cuenta los errores que te da ahora y que al principio si podías bajar el vídeo, el problema está en el cambio que hice de urllib a urllib2, pero si el segundo te da este error, el primero no te bajaba los subtitulos. He mirado googleando un poco y si parece haber algunos problemas con estas librerías y MAC OSX, es algo que no puedo corroborar directamente puesto que no dispongo de este SO para probarlo.

Así que voy a ir por terreno seguro y aprovechando el feedback que me das, voy a prepararte una versión que emplee la herramienta externa wget para coger los datos de la página, los subtitulos y el vídeo. De este modo nos aseguramos de sortear este problema.

De nada, la pena es no tener un Mac, si no, no te hacia dar tantas vueltas.

Saludos

Imagen de joe di castro

by joe di castro on Jue, 25/11/2010 - 14:00

Ya tienes la nueva versión con wget, esta no debería darte esos problemas. Ya me dirás el resultado.

Saludos

Imagen de Xavier

by Xavier on Jue, 25/11/2010 - 14:43

Ahora ya funciona perfectamente!

muchas gracias por añadir estas funcionalidades y por los scripts. Van a serme de grande utilidad.

un saludo,

Xavier

Imagen de joe di castro

by joe di castro on Jue, 25/11/2010 - 14:47

De nada, gracias a ti por el feedback, le servirá a futuros usuarios.

Luego modifico también el otro script para emplear wget.

Un saludo

Joe

Imagen de joe di castro

by joe di castro on Mié, 01/12/2010 - 23:51

Nuevas versiones mejoradas de los scripts (versión 1.3) y probadas en las 831 charlas disponibles hasta hoy, contemplando todos los casos diferentes.

Saludos

Páginas

Enviar un comentario nuevo

Puede usar Markdown para editar el texto, para conocer todas las opciones consulte Consejos para editar texto

© 2010-2011 joe di castro.