Imaginez, si vous pouviez enregistrer votre vie : tout ce que vous dites, tout ce que vous faites, accessible sous forme d'une mémoire parfaite à portée de votre main. Vous pourriez ainsi retourner dans le passé pour y trouver des moments mémorables et les revivre, ou scruter les traces du temps pour y découvrir les comportements récurrents, les schèmes de votre vie demeurés auparavant inconnus. Et bien, c'est exactement l'aventure que ma famille a entreprise il y a cinq ans. Voici mon épouse et collaboratrice, Rupal. Et ce jour-là, à ce moment-là, nous franchissions le pas de la porte avec notre premier enfant, notre magnifique fils. Et nous arrivions dans une maison équipée d'un système d'enregistrement vidéo domestique très spécial.
Deb Roy : Ce moment et des milliers d'autres moments qui nous sont précieux ont été enregistrés alors qu'ils se déroulaient dans notre maison parce que dans toutes les pièces de la maison, en levant les yeux, on pouvait voir une caméra et un microphone, et de cette perspective, il était possible d'obtenir une vue d'ensemble de la pièce. Voici notre salon, le chambre à coucher du bébé, la cuisine, la salle à manger et le reste de la maison. Et toute ces pièces étaient reliées à une baie de stockage conçue pour la saisie de données en continu. Nous voici donc survolant une journée chez nous en commençant par un matin ensoleillé jusqu'à une soirée incandescente et, finalement, les lumières éteintes pour la nuit. Pendant trois ans, nous avons enregistré de 8 à 10 heures par jour, pour recueillir environ un quart de millions d'heures d'enregistrement audio et vidéo multipiste.
Vous regardez donc une portion de ce qui est de loin la collection la plus importante de vidéo domestique. (Rires) Et ce que ces données représentent pour notre famille sur le plan personnel, l'impact s'est déjà avéré majeur, et nous en apprenons encore à en découvrir toute la valeur. D'innombrables moments naturels non sollicités, non répétés, sont enregistrés là, et nous commençons à savoir comment les découvrir et les trouver.
Mais il y a aussi une motivation scientifique derrière ce projet, qui consistait à utiliser ces données naturelles longitudinales afin de mieux comprendre le processus de l'apprentissage de la langue par un enfant -- cet enfant étant mon fils. Ainsi, avec la mise en place de nombreuses modalités assurant la vie privée visant à protéger tous ceux qui figuraient dans les données enregistrées, nous avons mis des éléments de données à la disposition de mon équipe de recherche de confiance à MIT afin de commencer à cerner des structures récurrentes, ou schèmes, dans cet ensemble imposant de données. Notre but : essayer de comprendre l'influence des milieux sociaux sur l'acquisition du langage. Nous voyons ici l'une des premières choses que nous avons faites dès le début. Voilà mon épouse et moi préparant le déjeuner dans la cuisine. Tandis que nous nous déplaçons dans l'espace et dans le temps, nous pouvons voir le déroulement quotidien de la vie dans la cuisine.
La conversion de ces 90 000 heures opaques de vidéo en quelque chose qu'il nous est possible de visualiser se fait grâce à l'analyse du mouvement alors que nous nous déplaçons dans l'espace et dans le temps, ce que nous appelons des serpentins espace-temps. Cet outil fait maintenant partie d'un arsenal qui nous permet de constater et d'examiner l'emplacement des activités dans les données, et de ce fait de tracer l'évolution, en particulier, des déplacements de mon fils à travers de la maison. Dans le but de concentrer nos efforts de transcription, tous les environnements linguistiques entourant mon fils -- tous les mots qu'il a entendu venant de moi, de mon épouse, de sa gardienne, et avec le temps, les mots qu'il a commencé à prononcer. C'est ainsi que grâce à cette technologie et ces données et avec l'aide d'une machine qui nous a donné la capacité de transcrire la parole, nous avons jusqu'à présent transcrit bien au-delà de sept millions de mots issus de nos enregistrements domestiques. Permettez-moi maintenant de vous servir de guide pour une première incursion dans ces données.
Je suis certain que vous avez tous déjà vu des vidéos à intervalles présentant une fleur qui s'épanouie au fil d'un espace temps accéléré. J'aimerais maintenant que vous viviez l'expérience de l'épanouissement d'une forme langagière. Mon fils, peu de temps après son premier anniversaire, disait « gaga » pour exprimer de l'eau. Durant les six mois qui ont suivi, il a lentement appris, par approximation, à employer la forme correcte, « eau » Nous allons survoler la moitié d'une année en 40 secondes environ. Pas de vidéo ici, vous pouvez donc vous concentrez sur le son, l'acoustique d'une nouvelle espèce de cheminement : de « gaga » à « eau ».
(Audio) Bébé : Gagagagagaga Gaga gaga gaga guga guga guga wada gaga gaga guga gaga wader guga guga water water water (eau) water water water (eau) water water (eau) « eau ».
D.R. : Il l'a eu, n'est-ce pas?
En fait, il n'a pas seulement appris le mot « eau ». Au cours de 24 mois, les 2 premières années de sa vie, sur lesquelles nous nous sommes réellement penchés, nous avons dressé cette carte de tous les mots qu’il a appris en ordre chronologique. Et parce que nous avons avons complètement transcrit les données, nous avons répertorié chacun des 503 mots qu'il a appris à prononcer avant son deuxième anniversaire. Il a appris tôt à parler. Nous avons voulu savoir pourquoi. Pourquoi certains mots sont-ils nés avant d'autres? Il s'agit là d'un des premiers résultats issus de notre étude il y a de ça un peu plus d'un an, qui nous a vraiment surpris. Voici comment interpréter ce graphique apparemment simple : sur l'axe verticale, on retrouve une indication de la complexité des énoncés en fonction de leur longueur. Et l'axe vertical représente le temps.
Et nous avons aligné toutes les données en nous appuyant sur l'idée suivante : chaque fois que mon fils apprenait un mot, nous réalisions un retour en arrière et examinions les paroles qu'il avait entendues et qui contenait ce mot. De plus, nous représentions sous forme graphique la longueur relative des énoncés. Et ce que nous avons constaté est ce curieux phénomène, selon lequel le parent ou le gardien adoptait systématiquement un langage simplifié au minimum, rendant le langage aussi simple que possible, pour en augmenter progressivement la complexité. Et ce qui est incroyable est que ce bond, ce saut brusque, concordait presque parfaitement avec le moment de la naissance de chaque mot. Mot après mot, systématiquement. Ainsi, il semblerait que les trois personnes significatives, moi, mon épouse et notre gradienne, restructurions systématiquement et, je crois, de façon subconsciente, notre langage pour venir à sa rencontre, à la naissance d'un mot pour ensuite le diriger progressivement vers un langage plus complexe. Les implications de ce phénomène sont nombreuses, j'aimerais cependant en souligner une en particulier, c'est qu'il doit y avoir des boucles de rétroaction incroyables. Bien sûr, mon fils apprend de cet environnement linguistique, mais l'environnement apprend aussi à son contact. Cet environnement, les gens, font partie de ces boucles de rétroaction serrées et créent une sorte d'échaffaudage n'ayant pas été remarqué jusqu'à maintenant.
Il s'agit là d'un regard porté sur le contexte de la parole. Mais qu'en est-il du contexte visuel? Nous voyons maintenant -- imaginez que ceci représente notre maison, comme une vue en coupe d'une maison de poupée. Nous avons utilisé ces caméras ultra-grands angulaires à lentille circulaire et nous avons apporté des corrections visuelles aux images recueillies, ce qui permet de produire des images en trois dimensions. Alors bienvenue chez nous. Voici un moment, un moment capté par plusieurs caméras. La raison motivant cette démarche est de créer l'ultime machine mémorielle, un appareil qui permet de retourner dans le temps et d'y effectuer un survol interactif et, par la suite, d'insuffler la vie dans ce système sous forme de vidéo. Ce que je vais faire c'est de vous présenter une bande accélérée d'une période de 30 minutes. Encore une fois, tout simplement une scène de la vie dans le salon. C'est mon fils et moi sur le plancher. Et vous pouvez voir l'analyse vidéo qui suit nos mouvements. Une ligne rouge suit mon fils alors qu'une ligne verte me suit. Nous sommes maintenant sur le canapé, en train de regarder par la fenêtre les voitures qui passent. Et enfin, mon fils qui joue seul dans un jouet d'aide à la marche.
Nous interrompons maintenant l'action, qui a duré 30 minutes, nous représentons le temps sur l'axe vertical et nous ouvrons à la verticale pour visualiser ces traces d'interaction que nous venons tout juste de quitter. Et nous constatons ces structures étonnantes -- ces petits nœuds formés de deux couleurs de fil que nous appelons zones intenses d'interactions. On appelle le fil décrivant une spirale une zone solo d'interactions. Et nous croyons que ces zones ont une influence sur la façon dont s’acquiert le langage. Ce que nous aimerions faire est de commencer à comprendre l'interaction entre ces schèmes et le langage auquel mon fils est exposé pour voir s'il est possible de prédire comment la structure du moment où les mots sont entendus influence le moment où a lieu leur apprentissage. En d'autres termes, la relation entre les mots et ce à quoi ils se rapportent dans le monde.
Voici l'approche que nous adoptons pour y arriver. Encore une fois dans cette vidéo, les déplacements de mon fils produisent un tracé. Une ligne rouge le suit. Et voilà notre gardienne près de la porte.
(Vidéo) Bonne : Veux-tu de l'eau? (Bébé : Aaaa.) Gardienne : D'accord. (Bébé : Aaaa.)
D.R. : Elle lui offre de l'eau et ainsi s'en vont les deux serpentins vers la cuisine chercher de l'eau. Et ce que nous avons fait est d'utiliser le mot « eau » pour marquer ce moment, cette parcelle d'activité. Ensuite, nous avons recours à la puissance des données et repérons toutes les occurrences où mon fils a entendu le mot « eau » ainsi que le contexte dans lequel il l'a retrouvé. Nous utilisons ce mot pour pénétrer la trame de la vidéo afin d'y découvrir chaque trace d'activité ayant eu lieu en même temps que l'occurrence du mot « eau ». Et ce que ces données révèlent est un paysage. Nous les appelons des panoramots. Voici le panoramot pour le mot « eau », et vous pouvez voir que le principal de l'action se passe dans la cuisine. C'est ce que représente ces gros pics vers la gauche. Il est possible de faire la même chose avec n'importe quel mot pour faire ressortir un contraste. Prenons le mot « bye » comme dans « good bye » (au revoir) Voici maintenant une vue en gros plan de l'entrée de la maison. Puis nous cherchons et trouvons, comme on s'y attendrait, un contraste entre les panoramots où le mot « bye » apparaît de manière beaucoup plus structurée. Nous utilisons donc ces structures afin de commencer à prédire l'ordre de l'acquisition du langage; voilà ce à quoi nous travaillons à l'heure actuelle.
Dans mon laboratoire, dans lequel nous entrons maintenant, à MIT -- il s’agit d’un laboratoire médiatique. Cette méthode est devenue ma façon préférée de créer des images vidéographiques de presque n'importe quel espace. Trois des personnes clés participant à ce projet sont photographiées ici : Philip DeCamp, Rony Kubat et Brandon Roy. Philip a été un collaborateur très proche pour tous les supports visuels présentés ici. Et Michael Fleischman était un autre doctorant associé à mon laboratoire qui a travaillé avec moi sur l'analyse des vidéos domestiques et il a fait l'observation suivante : « tout comme la manière dont nous analysons comment le langage est lié aux événements qui offrent une plateforme commune au langage, cette même idée peut être extrapolée hors de la maison, Deb, et nous pouvons l'appliquer au domaine des moyens d'information. » Notre projet a ainsi emprunté une voie inattendue.
Pensez aux médias de masse comme élément de base commune et vous avez la recette permettant de transposer cette idée dans un tout nouveau contexte. Nous avons commencé à analyser le contenu télévisé en appliquant les mêmes principes -- par l'analyse de la structure des événements d'un signal de télévision -- des épisodes d'émission, des messages publicitaires, de tous les éléments qui composent la structure de l'événement. Et maintenant, grâce à des antennes paraboliques, nous captons et analysons une bonne part de toutes les émissions télévisées à l'antenne aux États-Unis. Et nous n'avons pas à équiper les salons de microphones pour avoir accès aux conversations des gens, il suffit de se mettre à l'écoute des fils de syndication grand public de médias sociaux.
Nous récupérons ainsi environ trois milliards de commentaires par mois. C'est alors que la magie commence. Il y a d'abord la structure de l'événement, formant la base commune sur laquelle portent les mots, qui est générée par le flux télévisé, puis les conversations qui portent sur ces sujets. Au moyen d'une analyse sémantique -- il s'agit bel et bien de données réelles issues de notre traitement des données qui vous sont présentées -- chaque ligne jaune représente la création d'un lien entre un commentaire in vivo et une pièce de la structure d'un événement générée par le signal de télévision. Et la même idée peut maintenant être développée pour former le panoramot que voici. Cependant, les mots ne sont maintenant plus recueillis dans mon salon. Ce sont plutôt le contexte, les activités collectives, constituant le contenu télévisé qui oriente les conversations. Et ce que nous voyons ici, ces gratte-ciel, constituent des commentaires qui sont reliés au contenu télévisé. Même concept, mais du point de vue de la dynamique communicationnelle dans une sphère très différente.
Par exemple, fondamentalement, plutôt que de mesurer le contenu en fonction du nombre de téléspectateurs, cette démarche nous fournit les données de base nous permettant d'étudier les propriétés interactives du contenu. Tout comme nous pouvons examiner les cycles et les dynamiques de rétroaction au sein d'une famille, il est maintenant possible de généraliser à partir des mêmes concepts et de les appliquer à des groupes de personnes beaucoup plus larges. Voici un sous-ensemble de données tirés de notre base de données -- seulement 50 000 parmi plusieurs millions -- et le graphique social qui les relie par l'entremise de sources publiques disponibles. Et si vous les représentez sur un plan, le contenu serait représenté sur un second plan. Nous avons ainsi les émissions et les événements sportifs et les messages publicitaires et tous les maillons des structures qui les relient, qui forment un graphique du contenu. N'oublions pas de mentionner l'importante troisième dimension. Chacun des maillons que vous voyez ici représente un lien établi entre les propos de quelqu'un et une parcelle du contenu. Et il y a, encore une fois, des dizaine de millions de ces liens servant à tisser la toile des graphiques sociaux et à établir leur relation avec le contenu. Nous pouvons maintenant commencer à étudier la structure par des moyens fort intéressants.
Par exemple, si nous traçons le trajet d'une parcelle de contenu qui incite quelqu'un à afficher un commentaire, que nous suivons la trajectoire de ce commentaire, pour ensuite examiner le graphique social complet qui a été activé et que nous revenons sur nos pas pour mieux voir la relation entre le graphique social et le contenu, une structure très intéressante apparaît. Nous appelons ce phénomène une clique de coobservation, un salon virtuel en quelque sorte. Des dynamiques fascinantes entre en jeu ici. Ce n'est pas un sens unique. Une parcelle de contenu, un événement, suscite le commentaire d'un personne. Cette personne parle à d'autres personnes. Ce qui en inscite d'autres à se connecter aux médias de masse. Ce sont ces cycles qui perpétuent le comportement dans son ensemble.
Voici un autre exemple très différent, une autre vraie personne dans notre base de données, et nous trouvons au moins des centaines, sinon des milliers de ces exemples. Nous avons donné un nom à cette personne. C'est une pro-amateur, ou pro-am, un critique médiatique qui a beaucoup d'influence et qu'un grand nombre de partisans suivent -- très influent -- et ces gens ont tendance à discuter de ce qui est diffusé à la télé. Cette personne constitue donc un lien clé entre les médias de masse et les médias sociaux.
Un dernier exemple issu de ces données : parfois, c'est une parcelle du contenu qui se démarque du reste. Si nous étudions cette parcelle de contenu, prenons le discours sur l'état de l'Union du président Obama qui a eu lieu il y a à peine quelques semaines, et que nous examinons ce que nous avons découvert dans ce même ensemble de données, à la même échelle, les propriétés de mobilisation que démontre cette parcelle de contenu sont vraiment remarquables. Une nation éclatant en conversation en temps réel en réponse à ce qui est diffusé. Et bien sûr, parmi toutes ces lignes circulent des conversations non structurées. Nous pouvons scruter le contenu et obtenir le pouls d'une nation en temps réel, une perception en temps réel des réactions sociales dans les différents circuits du graphique social qui sont activés par le contenu.
En somme, l'idée est la suivante : à mesure que nous instrumentons progressivement notre milieu et que nous nous dotons de la capacité de collecter des données et d'établir des liens entre ce que disent les gens et le contexte de leurs conversations, il devient possible de voir apparaître de nouvelles structures et dynamiques sociales demeurées jusque-là inconnues. C'est un peu comme bâtir un microscope ou un télescope et de révéler de nouvelles structures reliées à notre comportement vis-à-vis de la communication. Et je crois que les incidences de ce phénomène sont profondes, que ce soit dans les domaines scientifique, commercial, gouvernemental ou peut-être surtout, pour nous en tant qu'individus.
Mais revenons à mon fils. Quand je préparais cette conférence il regardait par-dessus mon épaule, et je lui ai montré les clips que j'allais vous montrer aujourd'hui. Je lui ai demandé sa permission, il me l'a accordée. Puis je me suis mis à réfléchir : « N'est-ce pas merveilleux, toute cette base de données, tous ces enregistrements, que je vais remettre, à toi et à ta soeur? » Celle-ci est née deux ans après mon fils. « Et vous deux allez pouvoir remonter dans le passé et revivre des moments dont vous ne pourriez jamais, avec votre mémoire biologique, possiblement vous souvenir aussi bien qu’à présent. » Et il est demeuré silencieux pendant un moment. Puis j'ai pensé : « Qu'est-ce que je dis? Il a cinq ans. Il ne comprendra pas de quoi je parle. » Et comme cette pensée traversait mon esprit, il a levé le regard vers moi et a dit : « Alors quand je vais être grand, je vais pouvoir le montrer à mes enfants? » Et j'ai pensé à moi-même : « Remarquable! Ça c'est fort. »
Alors, je veux vous présenter un dernier moment mémorable dans le vie de notre famille. C'était la première fois que mon fils faisait plus de deux pas de suite et nous avons enregistré ce moment sur film. Et j'aimerais que vous portiez attention à une chose en particulier pendant que je vous guide au fil de ce moment. C'est un environnement encombré, c'est la vraie vie. Ma mère est dans la cuisine, elle prépare un repas, et je me rends compte, dans le corridor, que c’est sur le point d’arriver, il va faire plus de deux pas. Vous m'entendez l'encourager, sachant ce qui est sur le point de se produire. Puis la magie s'installe. Écoutez très attentivement. Après environ trois pas, il constate que quelque chose de merveilleux est en train d'arriver. Et la boucle de rétroaction la plus étonnante de toutes se manifeste, il prend une inspiration et il dit tout bas « wow » et instinctivement je lui fait écho. Retournons donc dans le temps au moment où s'est produit ce moment mémorable.
(Vidéo) D.R. : Hey. Viens ici. Es-tu capable? Oh la la. Es-tu capable? Bébé : Oui. D.R. : Maman, il marche.
You can share this video by copying this HTML to your clipboard and pasting into your blog or web page. This video will play with subtitles.
You either have JavaScript turned off or have an old version of the Adobe Flash Player. To view this rating widget you
need to get the latest Flash player.
If your browser allows only "trusted sites" to execute Javascript, you should add the "googleapis.com" domain to your whitelist to allow our Flash detection to work properly.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation.
Deb Roy, chercheur à MIT, désirait comprendre la manière dont son jeune fils acquérait le langage. Il a donc équipé sa maison entière de caméras vidéo qui ont enregistré chaque moment (ou presque) du quotidien de son fils. Il a ensuite analysé 90 000 heures de vidéo domestique, ce qui lui a permis d’observer la transformation progressive de « gaaaa » en « eau ». Une recherche étonnante, dont les abondantes données ont des implications importantes sur notre compréhension de la façon que nous avons d’apprendre.
Deb Roy studies how children learn language, and designs machines that learn to communicate in human-like ways. On sabbatical from MIT Media Lab, he's working with the AI company Bluefin Labs. Full bio »
Translated into French, Canadian by Johanne Benoit
Reviewed by Shadia Ramsahye
Comments? Please email the translators above.
10:17 Posted: Feb 2011
Views 1,298,015 | Comments 264
22:42 Posted: Sep 2008
Views 483,240 | Comments 94
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign Out.