Follow TED
Be the first to know about new TEDTalks, TED news and other announcements.
Click on any phrase to play the video from that point.
Erez Lieberman Aiden: Iedereen weet dat één beeld meer zegt dan 1000 woorden. Maar wij in Harvard vroegen ons af of dit wel echt klopte. (Gelach) Dus verzamelden we een team van experts, van Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica en zelfs onze trotse sponsors, The Google. We overpeinsden dit gedurende vier jaar. We kwamen tot een verrassende conclusie. Dames en heren, een beeld is niet alleen meer waard dan 1000 woorden. Wij hebben beelden gevonden die 500 miljard woorden waard zijn.
Jean-Baptiste Michel: Hoe kwamen we tot deze conclusie? Erez en ik dachten na hoe we een overzicht konden krijgen van onze cultuur en geschiedenis: de verandering door de tijd. Er zijn vele boeken geschreven over de jaren. Dus dachten we: de beste manier om ervan te leren is die miljoenen boeken allemaal te lezen. Op de schaal van hoe vet dat is, zou dit extreem hoog scoren. Het probleem is de X-as hiervan, hetgeen de praktische as is. Die is bijzonder laag.
Mensen kiezen meestal voor een alternatieve aanpak, namelijk: enkele bronnen zeer grondig lezen. Dat is zeer praktisch, maar niet zo vet. Wat je zou willen, is in het vette en toch praktische deel van dit vlak belanden. Nu zat er vlakbij een bedrijf genaamd Google dat een digitalisatieproject was begonnen dat dit wellicht mogelijk kon maken. Ze hebben miljoenen boeken gedigitaliseerd. Dit betekent dat je rekenkundige methoden kunt gebruiken om al deze boeken te lezen met één muisklik. Dat is zeer praktisch en extreem vet.
ELA: Ik zal even vertellen waar boeken vandaan komen. Sinds mensenheugenis zijn er schrijvers geweest. Deze schrijvers streefden ernaar boeken te schrijven. Dit werd aanzienlijk vergemakkelijkt door de komst van drukpers, enkele eeuwen geleden. Sindsdien is het deze schrijvers 129 miljoen maal gelukt een boek te publiceren. Als deze boeken niet verloren zijn gegaan, staan ze ergens in een bibliotheek, en veel van die boeken zijn uit bibliotheken gehaald en gedigitaliseerd door Google, dat tot op heden 15 miljoen boeken heeft gescand.
Google digitaliseert boeken tot een heel mooi formaat. We hebben de data, plus meta-data. We hebben informatie over waar het gepubliceerd was, wie de auteur was, wanneer het uitkwam. Wij gaan door al die documenten heen en sluiten alles uit wat niet van de hoogste kwaliteit is. Wat we dan overhouden, is een collectie van 5 miljoen boeken, 500 miljard woorden, een rij letters duizend maal langer dan het menselijk genoom -- een tekst die, uitgeschreven, 10 maal tot de maan en terug zou reiken -- een waarachtige scherf van ons culturele genoom. Wat we uiteraard deden ten overstaan van zulk buitensporig hyperbool ... (Gelach) was wat ieder zichzelf respecterend onderzoeker gedaan zou hebben. We namen een pagina uit XKDC, en zeiden: "Pas op! We gaan een poging tot wetenschap doen."
JM: Natuurlijk dachten we: laten we eerst de data produceren waarop mensen wetenschap kunnen loslaten. We dachten: welke data kunnen we produceren? Natuurlijk wil je de volledige tekst van deze 5 miljoen boeken publiceren. Google, en Jon Orwant in het bijzonder, hielden ons het volgende sommetje voor. Je hebt 5 miljoen boeken; dat is 5 miljoen auteurs... ...en 5 miljoen eisers is een gigantische rechtszaak. Ook al zou dat uitermate vet zijn, het is, nogmaals, extreem onpraktisch. (Gelach)
Dus we gingen overstag, en we kozen de praktische aanpak, die iets minder vet was. We zeiden, in plaats van de hele tekst uitgeven, gaan we statistieken uitgeven over de boeken. Neem bijvoorbeeld "A gleam of happiness". Vier woorden; we noemen dat een four-gram. We gaan laten zien hoe vaak een specifiek four-gram verscheen in boeken in 1801, 1802, 1803, tot en met 2008. Dat levert een tijdverloop op van hoe frequent deze specifieke zin gebruikt werd. We doen dat met alle woorden en zinnen die in die boeken voorkomen, wat een lijst van twee miljard zinnen oplevert die laat zien hoe onze cultuur veranderd is.
ELA: Die 2 miljard zinnen noemen we 2 miljard n-grams. Wat vertellen ze ons? De individuele n-grams meten culturele trends. Ik zal een voorbeeld geven. Stel dat ik geluk ervaar, en morgen vertel ik je daarover. Dan kan ik zeggen: "Gisteren ervoer ik geluk." Of: "Gisteren ervaarde ik geluk." Wat moet ik gebruiken? Hoe kom je daar achter?
Sinds een maand of zes, is de meest vooruitstrevende manier om hier achter te komen, bijvoorbeeld, het benaderen van de volgende psycholoog met geweldig haar, en je zegt: "Steve, jij weet alles van onregelmatige werkwoorden. Wat moet ik doen?" Dan zegt hij: "Nou, de meeste mensen zeggen 'ervaarde', maar sommige mensen zeggen 'ervaarde'." Je weet ook, min of meer, dat als je 200 jaar teruggaat in de tijd en deze staatsman met even geweldig haar, vraagt: (Gelach) "Tom, wat moet ik zeggen?'" Dan zou hij zeggen: "Nou, in mijn tijd ervoeren de meeste mensen, maar sommigen ervaarden." Nu ga ik wat rauwe data laten zien. Twee kolommen uit de lijst met 2 miljard gegevens. Wat je ziet, is de jaarlijkse frequentie van 'ervoeren' en 'ervaarden' doorheen de tijd. Dit zijn slechts twee van de twee miljard kolommen. Dus de hele dataset is een miljard maal vetter dan deze dia.
JM: Er zijn veel andere beelden die 500 miljard woorden waard zijn. Bijvoorbeeld dit beeld. Als je enkel griep neemt, zie je pieken op tijdstippen waarvan je weet dat grote griepepidemieën wereldwijd levens kostten.
ELA: Mocht je nog niet overtuigd zijn: zeewaterniveaus stijgen, evenals CO2 in de lucht, en de globale temperatuur.
JM: Kijk ook even naar dit n-gram, dat Nietzsche vertelt dat God niet dood is, hoewel je kunt zeggen dat hij betere pr nodig heeft.
ELA: Je komt bij behoorlijk abstracte concepten met dit soort dingen. Ik zal je bijvoorbeeld de geschiedenis laten zien van het jaar 1950. Tijdens het grootste deel van de geschiedenis, kon 1950 niemand iets schelen. In 1700, 1800, en 1900 interesseerde het niemand. In de jaren '30 en '40, interesseerde het niemand. Opeens, midden jaren '40, ontstond er rumoer. Mensen beseften dat 1950 er aan ging komen, en het zou belangrijk kunnen zijn. (Gelach) Maar niets liet mensen zo warmlopen voor 1950 als het jaar 1950. (Gelach) Mensen liepen geobsedeerd rond. Ze bleven maar praten over alle dingen die ze deden in 1950, alle dingen die ze van plan waren in 1950, alle dromen die ze wilden verwezenlijken in 1950. In feite was 1950 zo fascinerend dat mensen jaren later nog steeds praatten over alle verbazingwekkends dat gebeurd was, in '51, '52, '53. Uiteindelijk in 1954, werd er iemand wakker die zich realiseerde dat 1950 nu wat achterhaald was. (Gelach) Opeens was de zeepbel gebarsten.
Het verhaal van 1950 is het verhaal van elk jaar dat gemeten is, met een kleine draai, want nu hebben we deze mooie grafieken. Omdat we die hebben, kunnen we dingen meten. We kunnen vragen: "Hoe snel is de zeepbel gebarsten?" Dat blijken we zeer precies te kunnen meten. Vergelijkingen en grafieken werden gemaakt, en het netto resultaat is dat we zien dat de bel steeds sneller barst naarmate de tijd vordert. We raken sneller uitgekeken op het verleden.
JM: Nu wat carrière-advies. Diegenen van jullie die beroemd willen worden, kunnen leren van de 25 beroemdste politieke figuren, schrijvers, acteurs enzovoort. Om snel beroemd te worden, zou je acteur moeten zijn, want dan stijgt je bekendheid nog vóór je dertigste -- je bent nog jong, helemaal geweldig. Als je wat langer kunt wachten, zou je schrijver moeten zijn, want dan stijg je tot grote hoogten, zoals Mark Twain, bijvoorbeeld: extreem beroemd. Maar als je de absolute top wilt bereiken, moet je kunnen wachten, en, uiteraard, politicus worden. Hier word je beroemd vlak voor je zestigste, en daarna word je nog veel beroemder. Wetenschappers worden doorgaans ook beroemd op hogere leeftijd. Bijvoorbeeld, biologen en natuurkundigen zijn vaak bijna zo beroemd als acteurs. Een fout die je niet moet maken, is wiskundige worden. (Gelach) Als je dat doet, denk je wellicht: "Mooi, ik ga mijn beste werk doen als begin twintiger." Maar dat kan niemand wat schelen.
ELA: Er zijn meer ontnuchterende aspecten aan de n-grams. Hier is bijvoorbeeld het traject van Marc Chagall, een kunstenaar geboren in 1887. Het lijkt het normale traject van een beroemd persoon. Hij wordt steeds beroemder, behalve als je in het Duits kijkt. Daar zie je iets volledig bizars, wat je bijna nooit ziet, namelijk dat hij eerst heel beroemd wordt, en dan opeens sterk daalt, met een dieptepunt tussen 1933 en 1945, voordat hij weer stijgt. Wat we hier uiteraard zien, is het feit dat Marc Chagall een Joodse kunstenaar was in Nazi-Duitsland.
Deze signalen zijn zo sterk dat we niet hoeven te weten dat iemand werd gecensureerd. We kunnen het uitvissen met wat simpele signaalverwerking. Hier is een eenvoudige methode. Een redelijke aanname is dat iemands roem in een bepaalde periode ruwweg het gemiddelde moet zijn van zijn roem ervoor en erna. Dat is wat we zouden verwachten. Dat vergelijken we met de roem die we observeren. Dan delen we het één door het ander, om iets te produceren dat we een suppressie-index noemen. Als de suppressie-index heel, heel, heel klein is, dan kon het zijn dat je tegengewerkt wordt. Als hij erg groot is, zou er propaganda in het spel kunnen zijn.
JM: Je kunt ook kijken naar de distributie van suppressie-indexen over hele populaties. Dus bijvoorbeeld, hier: deze suppressie-index is voor 5000 mensen genomen uit Engelse boeken zonder suppressie -- dat is mooi gecentreerd rond 1. Wat je verwacht, observeer je ook. Dit is de distributie in Duitsland -- heel anders, het is verschoven naar links. Mensen praatten er tweemaal minder over dan normaal. Maar veel belangrijker: de distributie is veel breder. Er zijn veel mensen in de linkerkant van de distributie, waarover tienmaal minder gepraat wordt dan normaal. Maar ook mensen helemaal rechts, die schijnen te profiteren van propaganda. Dit beeld is het kenmerk van censuur in boeken.
ELA: Culturomica noemen we deze methode. Het lijkt op genomica. Maar genomica is een lens op biologie door het raam van de opeenvolging van basen in het menselijk genoom. Culturomica lijkt hierop. Het is de toepassing van massale datacollectie-analyse op de studie van de menselijke cultuur. In plaats van door de lens van een genoom, hier door de lens van gedigitaliseerde stukjes historische data. Het mooie aan culturomica is dat iedereen het kan doen. Waarom kan iedereen het? Iedereen kan het omdat drie kerels, Jon Orwant, Matt Gray en Will Brockman bij Google, het prototype zagen van de Ngram Viewer, en zeiden: "Dit is zo leuk. We moeten dit beschikbaar maken voor de mensen." In de twee weken voordat onze publicatie uitkwam, codeerden ze een versie van de Ngram Viewer voor het grote publiek. Dus ook jij kunt ieder woord of iedere zin intoetsen en diens Ngram meteen zien -- en tevens voorbeelden inkijken van de boeken waarin je Ngram voorkomt.
JM: De eerste dag is het meer dan een miljoen maal gebruikt. en het is echt de beste van alle zoekopdrachten. Mensen willen op hun best zijn, hun beste voetje voor zetten. Maar in de 18e eeuw gaven mensen daar niet om. Ze wilden niet op hun best zijn, maar op hun beft. Dit is uiteraard een vergissing. Ze streefden niet naar middelmatigheid, maar de S werd toen anders geschreven, als een F. Dit heeft Google destijds niet opgepikt, dus we gaven dit aan in het wetenschapsartikel. Maar het is dus een herinnering dat, ook al is dit allemaal erg leuk, wanneer je deze grafieken interpreteert, je erg moet oppassen, en de wetenschappelijke basisprincipes moet toepassen.
ELA: Mensen hebben dit voor allerlei leuke dingen gebruikt. (Gelach) We hoeven eigenlijk niet te praten, we laten gewoon alle dia's zien en houden onze mond. Deze persoon was geïnteresseerd in de geschiedenis van frustratie. Er zijn verschillende soorten frustratie. Als je je teen stoot, is dat "argh" met één A. Als de Aarde wordt verwoest door Vogons om plaats te maken voor een galactische omleiding, is dat een "aaaaaaaargh" met acht A's. Deze persoon bestudeerde alle "arghs", van één tot en met acht A's. Nu blijkt dat de minder frequente "arghs" corresponderen met meer frustrerende dingen -- behalve, vreemd genoeg, begin jaren '80. We denken dat dit iets te maken heeft met Reagan.
JM: Er zijn vele toepassingen voor deze data, maar het belangrijkste is dat historische data worden gedigitaliseerd. Google heeft nu 15 miljoen boeken gedigitaliseerd. Dat is 12% van alle boeken die ooit uitgegeven zijn. Dat is een behoorlijk deel van onze cultuur. Er is nog veel meer in de cultuur: er zijn manuscripten, kranten, er zijn dingen zonder tekst, zoals kunst en schilderijen. Deze staan allemaal op onze computers, op computers over de wereld. Wanneer dat gebeurt, zal het ons begrip van ons verleden, ons heden, en onze cultuur transformeren.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation, or join one of these:
Heb je wel eens gespeeld met Ngram Viewer van Google Labs? Het is een verslavende tool die je in staat stelt woorden en ideeën te zoeken in een databank van 5 miljoen boeken uit diverse eeuwen. Erez Lieberman Aiden en Jean-Baptiste Michel laten zien hoe het werkt, en tonen enkele verrassende dingen die we kunnen leren van 500 miljard woorden.
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio »
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio »
Translated into Dutch by Axel Saffran
Reviewed by Els De Keyser
Comments? Please email the translators above.
Ladies and gentlemen, a picture is not worth a thousand words. We found some pictures that are worth 500 billion words.” (Erez Lieberman Aiden)
20:06 Posted: Sep 2008
Views 221,290 | Comments 44
18:18 Posted: May 2011
Views 511,551 | Comments 69
05:35 Posted: May 2011
Views 295,324 | Comments 113
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign out.