Abe Davis
1,472,642 views • 17:57

La mayoría pensamos en el movimiento como algo muy visual. Si camino por este escenario o gesticulo con las manos, mientras hablo, ese movimiento se puede ver. Existe un mundo de movimiento importante demasiado sutil para el ojo humano, y en los últimos años, hemos averiguado que a menudo las cámaras pueden ver este movimiento, incluso cuando los humanos no pueden.

Les mostraré lo que quiero decir. A la izquierda, se ve un video de la muñeca de una persona, y a la derecha, el video de un bebé dormido, pero si yo no dijera que se trataba de videos, se puede suponer que uno mira imágenes normales, porque en ambos casos, estos videos parecen casi completamente inmóviles. Pero en realidad existe mucho movimiento sutil aquí, y si tocaran la muñeca de la izquierda, sentirían un pulso, y si se fueran al bebé de la derecha, sentirían el ascenso y el descenso de su pecho mientras respira. Y estos movimientos tienen mucho significado, pero son generalmente demasiado sutiles para que los notemos, así que en su lugar, tenemos que observarlos mediante contacto directo, a través del tacto.

Pero hace unos años, mis colegas del MIT desarrollaron lo que llaman un microscopio de movimiento, que es un software que capta estos movimientos sutiles en video y los amplía para que sean lo suficientemente grandes para verlos. Y así, si usamos ese software en el video de la izquierda, vemos el pulso de esta muñeca, y si contáramos ese pulso, podríamos incluso averiguar la frecuencia cardíaca de esta persona. Y si usamos el mismo software en el video de la derecha, vemos cada respiración de este bebé, y podemos usarlo monitorear su respiración sin que haya contacto.

Y esta tecnología es realmente poderosa porque capta estos fenómenos que normalmente experimentamos a través del tacto permitiéndonos captarlos visualmente y de forma no invasiva.

Hace un par de años, empecé a trabajar con la gente que creó ese software, y decidimos seguir una idea descabellada. Pensamos que sería genial usar el software para visualizar pequeños movimientos como este, y podemos pensarlo como una forma de ampliar el sentido del tacto. Pero ¿y si pudiéramos hacer lo mismo con nuestra capacidad de escuchar? ¿Y si pudiéramos usar el video para captar las vibraciones de sonido, que no son más que otro tipo de movimiento, y convertir todo lo que vemos en un micrófono?

Esto es una idea un poco extraña, así que trataré de ponerlo en perspectiva. Los micrófonos tradicionales funcionan convirtiendo el movimiento de un diafragma interno en una señal eléctrica, y el diafragma está diseñado para moverse fácilmente con sonido de manera que su movimiento se puede grabar e interpretar como sonido. Pero el sonido hace que todos los objetos vibren. Esas vibraciones son por norma demasiado sutiles y rápidas para que se vean.

¿Y si grabamos con una cámara de alta velocidad y luego usamos el software para extraer pequeños movimientos de nuestro video de alta velocidad, y analizamos los movimientos para averiguar qué sonidos se han creado? Nos permitiría convertir objetos visibles en micrófonos visuales a la distancia. Así que lo intentamos, y aquí está uno de nuestros experimentos, donde tomamos esta planta en maceta de la derecha y filmamos con una cámara de alta velocidad mientras que un altavoz cercano reproducía este sonido.

♪ ♫ María tenía un corderito ♪ ♫

Aquí el video que grabamos, que grabamos en miles de fotogramas por segundo, pero incluso mirándolo muy de cerca, solo se ven algunas hojas que están más o menos allí sin hacer nada, porque nuestro sonido solo movió esas hojas cerca de un micrómetro. Esa es una diezmilésima de centímetro, que se extiende en algún lugar entre una centésima y una milésima de pixel en esta imagen. Así que aunque entrecierren los ojos lo más posible, el movimiento tan pequeño es perceptualmente invisible. Pero resulta que algo perceptualmente invisible aún así puede ser numéricamente significativo, porque con los algoritmos adecuados, podemos captar este silencio aparentemente silencioso y podemos recuperar ese sonido.

♪ ♫ María tenía un corderito ♪ ♫

(Aplausos) ¿Cómo es esto posible? ¿Cómo podemos conseguir tanta información de tan poco movimiento? Esas hojas se mueven solo un micrómetro, y nuestra imagen cambia solo una milésima de píxel. Eso puede no parecer mucho, pero un solo fotograma de video puede contener cientos de miles de píxeles, y si combinamos todos los minúsculos movimientos que vemos desde el otro lado de esa imagen completa, entonces, de repente una milésima de un pixel puede aportar a algo bastante significado.

A título personal, estábamos muy emocionados al darnos cuenta de esto. (Risas) Pero incluso con el algoritmo correcto, todavía faltaba una pieza muy importante del rompecabezas. Hay muchos factores que afectan cuánto y cómo de bien funcionará esta técnica. Ahí está el objeto y lo lejos que está; la cámara y la lente que se usa; cuánta luz brilla sobre el objeto y cuán alto es el sonido. E incluso con el algoritmo correcto, tuvimos que ser muy cuidadosos con nuestros primeros experimentos, porque si teníamos alguno de estos factores mal, no había forma de saber cuál era el problema. Obtendríamos solo ruido. Muchos de nuestros primeros experimentos eran así. Aquí estoy, y abajo a izquierda puede verse nuestra cámara de alta velocidad dirigida a una bolsa de papas, y todo está iluminado por estos focos brillantes. Y como dije, teníamos que ser muy cuidados en estos primeros experimentos, así es que esta es la forma en que fracasó.

(Video) Abe Davis: Tres, dos, uno. ♪ ♫ María tenía un corderito, corderito, corderito ♪ ♫

(Risas)

AD: Este experimento parece súper ridículo. (Risas) Quiero decir, estoy gritando a una bolsa de papas fritas, (Risas) y la bombardeamos con tanta luz que, literalmente, la bolsa con la que lo intentamos, se derritió. (Risas) Pero por ridículo que se vea este experimento, en realidad, era realmente importante, porque hemos podido captar este sonido.

♪ ♫ María tenía un corderito, corderito, corderito ♪ ♫

(Aplausos)

AD: Y esto fue realmente significativo, porque era la primera vez que capturamos el habla humana inteligible a partir de un video silencioso de un objeto. Así que esto nos dio este punto de referencia, y poco a poco empezamos a modificar el experimento, utilizando diferentes objetos o alejando el objeto más, usando menos luz o sonidos más suaves. Y analizamos todos estos experimentos hasta realmente entender los límites de nuestra técnica, porque una vez que entendimos esos límites, podíamos encontrar la manera de mejorarlos.

Y eso llevó a experimentos como este, donde de nuevo, hablo con una bolsa de papas, pero esta vez hemos alejado la cámara unos 4,5 m, tras una ventana insonorizada. y todo esto está iluminado solo por la luz solar natural. Así que aquí está el video que hemos capturado. Y así se escuchaban las cosas desde el interior, junto a la bolsa de papas.

(Audio) "María tenía un corderito con piel blanca como la nieve, y a donde iba María, ahí iba ese corderito".

AD: Y esto es lo que hemos podido recuperar de nuestro video en silencio capturado fuera tras esa ventana.

(Audio) "María tenía un corderito con piel blanca como la nieve, y a donde iba María, ahí iba ese corderito".

(Aplausos)

AD: Y hay otras maneras para ir más allá de los límites. Así que aquí hay un experimento más tranquilo donde filmamos los auriculares conectados a una portátil, y en este caso, teníamos que recuperar la música que sonaba en ese portátil a partir de ese video simplemente en silencio a partir de estos dos auriculares de plástico, y lo hemos hecho tan bien que incluso puedo decir Shazam por los resultados. (Risas)

(Música: "Under Pressure" de Queen)

(Aplausos)

Y también podemos mejorarlo cambiando el hardware que usamos. Porque los experimentos que he mostrado hasta ahora se realizaron con una cámara de alta velocidad, que puede grabar video 100 veces más rápido que la mayoría de los teléfonos móviles, pero también hemos encontrado la manera de usar esta técnica con cámaras más convencionales, y lo hacemos aprovechando lo que se llama el efecto gelatina. La mayoría de las cámaras funciona con un fotosito por cada píxel, y si un objeto se mueve durante la grabación de una sola imagen, hay una leve demora entre cada fotosito, y esto hace que objetos sencillos sean codificados en cada fotograma de un video. Hallamos que mediante el análisis de estos objetos, se puede recuperar el sonido usando una versión modificada de nuestro algoritmo. Aquí un experimento que hicimos donde filmamos una bolsa de dulces mientras que un altavoz reproducía el mismo "María tenía un corderito", la música de antes, pero esta vez, usamos una cámara comprada en la tienda normal, y en un segundo, les reproduciré el sonido que hemos recuperado, y esta vez sonará distorsionado, pero escuchen a ver si aún así todavía se puede reconocer la música.

(Audio: "María tenía un corderito")

Y así, una vez más, esto suena distorsionado, pero lo realmente sorprendente es que hemos podido hacerlo con algo que, literalmente, podría estar agotado y adquirirse en una tienda de ocasiones.

Así que en este punto mucha gente verá este proyecto, y pensará de inmediato en la vigilancia. Y para ser justos, no es difícil imaginar cómo usar esta tecnología para espiar a alguien. Pero tengan en cuenta que ya hay mucha tecnología muy madura para vigilancia. De hecho, se ha estado usando láseres para espiar objetos a distancia durante décadas. Pero lo que es realmente nuevo aquí, lo que es realmente diferente, es que ahora tenemos una forma de imaginar las vibraciones de un objeto, lo que nos da una nueva lente a través de la cual mirar el mundo, y podemos usar esa lente, aprender no solo de fuerzas como el sonido que hacen que un objeto vibre, sino también sobre el propio objeto.

Y por eso quiero dar un paso atrás y pensar en cómo podría cambiar la manera de usar el video, porque normalmente usamos el video para mirar las cosas, y acabo de mostrar cómo podemos usarlo para escuchar las cosas. Pero hay otra forma importante en que aprendemos del mundo: y es interactuando con él. Empujamos, estiramos, metemos y desplazamos cosas. Estrechamos las cosas para ver qué pasa. Y eso es algo que el video aún no nos deja hacer; al menos no el tradicional. Así que les mostraré un nuevo trabajo, y esto se basa en una idea que tuve hace apenas unos meses, es pues la primera vez que lo muestro públicamente a una audiencia. Y la idea básica es que usaremos las vibraciones en un video para capturar objetos de forma que nos permitirá interactuar con ellos para ver cómo reaccionan con nosotros.

Aquí hay un objeto, y en este caso, es una figura de alambre en forma de ser humano, y filmaremos ese objeto con una cámara normal. No hay nada de especial en esta cámara. En realidad, he hecho esto con mi teléfono móvil antes. Pero queremos ver cómo vibra el objeto, así que para que esto suceda, golpearemos un poco en la superficie donde yace mientras grabamos un video.

Así que es eso: solo 5 segundos de video normal, mientras golpeamos en esta superficie, y usaremos las vibraciones de ese video para aprender algunas propiedades estructurales y materiales del objeto, y usaremos esa información para crear algo nuevo e interactivo. Y así, esto es lo que hemos creado. Y parece una imagen común, pero no es una imagen, ni un video, porque ahora puedo desplazar mi ratón y empezar a interactuar con el objeto. Y, cómo se ve aquí, es una simulación de cómo este objeto respondería a las nuevas fuerzas que nunca hemos visto antes, y lo creamos a partir de tan solo 5 segundos de video normal.

(Aplausos)

Y esta es una forma muy poderosa de mirar el mundo, porque nos permite predecir cómo responderán los objetos a las nuevas situaciones, y uno puede imaginar, por ejemplo, mirar un viejo puente y preguntarse qué ocurriría, cómo aguantará ese puente si lo atravieso con mi auto. Y esa es una pregunta que probablemente desee responder antes de empezar a atravesar ese puente. Y, por supuesto, habrá limitaciones a esta técnica, al igual que había con el micrófono visual, pero hemos encontrado que funciona en muchas situaciones que no se podría esperar, especialmente con videos más largos.

Así, por ejemplo, aquí hay un video que capturé de un arbusto fuera de mi apartamento, y no le hice nada a este arbusto, solo capturar un video durante un minuto, una suave brisa causó bastantes vibraciones para aprender lo suficiente sobre este arbusto y crear esta simulación. (Aplausos) Y uno podría imaginar dárselo a un director de cine, y dejarle el control, por ejemplo, la fuerza y ​​dirección del viento en una toma después de haberla grabado. O, en este caso, apuntamos la cámara a una cortina, y ni siquiera se puede ver movimiento en el video, sino por la grabación de dos minutos de video, de corrientes de aire naturales en esta sala, creando suficientes movimientos y vibraciones y imperceptibles sutiles de las que aprender lo suficiente para crear esta simulación.

E irónicamente, estamos muy acostumbrados a tener este tipo de interactividad con objetos virtuales, juegos de video y modelos 3D, pero para capturar esta información a partir de objetos del mundo real el uso de este simple video, normal es algo nuevo que tiene mucho potencial.

Así están las increíbles personas que trabajaron conmigo en estos proyectos. (Aplausos)

Y lo que les he mostrado hoy es solo el comienzo. Acabamos de empezar a arañar la superficie de lo que se puede hacer con este tipo de imágenes, porque nos da una nueva forma para capturar nuestro entorno con tecnología común, accesible. Y así, mirar hacia el futuro, que será muy emocionante explorar lo que esto nos puede decir sobre el mundo.

Gracias.

(Aplausos)