Erez Lieberman Aiden: Alle ved at et billede siger mere end tusind ord Men på Harvard spurgte vi os selv, om det egentlig er sandt. (Latter) Så vi samlede et hold eksperter, både fra Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica og sågar vores stolte sponsor... The Google. Og vi har funderet over dette i cirka fire år. Og vores konklusion er overraskende. Mine damer og herrer, et billede siger ikke mere end tusind ord. Det viste sig faktisk at nogle billeder siger mere end 500 milliarder ord.
Jean-Baptiste Michel: Hvordan når vi denne konklusion? Erez og jeg tænkte på, hvordan man kunne få overblik over menneskets kultur og historie - - og ændringen over tid. Der skrevet så mange bøger gennem tiderne. Så vi tænkte at man kan lære mest af alle disse bøger ved at læse dem alle sammen. Hvis der er en skala for, hvor fantastisk det er må det selvfølgelig ligge meget, meget højt (Awesome). Problemet er, at der også er en X-akse, og det aksen for, om det også er praktisk. Den er meget, meget lav.
Folk bruger som regel en anden tilgang, Man tager nogle få kilder og læser dem meget omhyggeligt. Dette er meget praktisk, men ikke særlig fantastisk. Det bedste må være at nå til dette fantastiske men alligevel praktiske område. Et firma på den anden side af floden - Google - startede et digitaliseringsprojekt for nogle år siden og det kan måske gøre denne tilgang mulig. De har digitaliseret millioner af bøger. Man kan således bruge computerbaserede metoder til at læse alle bøgerne med et enkelt klik. Det er meget praktisk og ekstremt fantastisk.
ELA: Nu skal I høre, hvor bøger stammer fra. Der har altid eksisteret forfattere. Disse forfattere har bestræbt sig på at skrive bøger. Og det blev væsentligt nemmere da trykpressen blev opfundet for nogle hundrede år siden. Siden da, er det lykkedes forfattere at udgive bøger 129 millioner gange. Hvis disse bøger ikke er gået tabt for historien, findes de på et bibliotek et sted, og mange bøgerne er blevet taget fra hylderne og er blevet digitaliseret af Google, som til dato har scannet 15 millioner bøger.
Når Google digitaliserer en bog, får den et rigtig fint format. Nu har vi både data og metada. Vi har f.eks. oplysninger om, hvor den blev udgivet, hvem forfatteren var, og hvornår den blev udgivet. Og vi går gennem alle disse arkiver og udelukker alle data, der ikke er af højeste kvalitet. Det, der er tilbage, er en samling på fem millioner bøger, 500 milliarder ord, en tegnstreng, der er tusind gange længere end menneskets arvemasse. Hvis teksten blev skrevet ud, ville den nå herfra til månen og tilbage igen 10 gange! - Et sandt brudstykke af vores kulturelle arvemasse. Det vi gjorde, da vi stod over for så vanvittige sammenligninger... (Latter) var, hvad enhver forskere med respekt for sig selv ville have gjort. Vi gjorde som i tegneserien XKCD, og sagde "Gør plads! Vi prøver med videnskab".
JM: Først tænkte vi selvfølgelig, "Vi gør bare data tilgængelige, så andre kan bruge videnskab på dem." Nu tænker vi "Hvilke data kan vi lægge ud?" Egentlig vil vi gerne tage bøgerne og lægge teksten fra alle fem millioner bøger ud. Men Google - og særligt Jon Orwant - fortalte om en ligning, vi skulle lære. Vi har altså fem millioner forfattere altså fem millioner, der gerne vil sagsøge os. Så selvom det ville være virkelig, virkelig fantastisk, ville det også være helt ekstremt upraktisk. (Latter)
Igen lod vi os overtale og fulgte den praktiske tilgang, der var lidt mindre fantastisk. I stedet for at lægge den fulde tekst ud ville vi gøre statistikker om bøgerne tilgængelige. Et eksempel er "A gleam of happiness" - Et glimpt af lykke Det er fire ord - det vi kalder et fire-gram Vi vil nu fortælle jer, hvor mange gange et bestemt fire-gram optrådte i bøger i 1801, 1802, 1803, og helt op til 2008 Det giver os en tidsserie, der viser hvor hyppigt denne ene sætning er blevet brugt over tid. Det gør vi for alle ord og udtryk i disse bøger. Det giver os en stor tabel med to milliarder linjer som viser hvordan kulturen har ændret sig.
ELA: Disse to milliarder linjer som vi kalder to milliarder n-grammer... Hvad fortæller de os? De enkelte n-grammer måler kulturelle tendenser. Lad mig give et eksempel. Jeg vil sige, at jeg trives, i morgen siger jeg så, hvor godt jeg havde det. Jeg ville sige "I går trivedes (throve) jeg". Man kan også bruge "thrived" i stedet for "throve". Hvilket af de to ord skal jeg bruge? Hvor skulle jeg vide det fra?
Indtil for seks måneder siden var den anerkendte metode på dette område at du f.eks. kunne få fat i denne psykolog med lækkert hår og spørge ham: "Steve, du er ekspert i uregelmæssige verber. Hvad skal jeg gøre?" Og han ville sige: "De fleste mennesker bruger "thrived" men nogle siger "throve". Og du vidste også - mere eller mindre - at hvis du gik 200 år tilbage i tiden og spurgte denne statsmand med ligeså lækkert hår: (Latter) "Tom, hvad ville du sige?" Han ville sige: "På min tid brugte de fleste "throve, mens andre brugte "thrived". Så nu vil jeg bare vise jer rå data. To rækker i denne tabel ud af to millarder poster. Den viser hyppigheden pr. år af "thrived" og "throve" over tid. Det her er kun to ud af to milliarder rækker. Så hele datasættet er en milliard gange mere fantastisk end dette slide.
JM: Der er jo mange andre billeder, der siger mere end 500 milliarder ord. For eksempel dette. Hvis vi bare ser på influenza, vil I se høje udslag på de tidspunkter, hvor I vidste at der var store globale influenzaepidemier.
ELA: Hvis du ikke er overbevist, stiger vandstanden i havene - det gør CO2-indholdet i atmosfæren og den globale temperatur også.
JM: Prøv også at kaste et blik på dette n-gram, og det fortæller Nietzsche, at Gud ikke er død, selvom du måske også synes, han har brug for en bedre ///presseagent.
ELA: Man kan få nogle ret abstrakte begreber med disse ting. Lad mig f.eks. fortælle jer historien om året 1950. I den største del af vores historie har ingen interesseret sig en pind for 1950. I 1700 og 1800 og 1900 var ingen interesseret. Op gennem 30'erne og 40'erne var ingen interesseret. Pludselig, midt i 40'erne, blev der hvisket i krogene. Folk indså at 1950 var noget, der ville ske, og det kunne være noget stort. (Latter) Men det der gjorde folk allermest interesseret i 1950 var året 1950. (Latter) Folk var som besat. De kunne ikke lade være med at tale om alt det, de lavede i 1950, alt det de planlagde at skulle gøre i 1950, og alle drømmene om, hvad de ville opnå i 1950. Faktisk var 1950 så fascinerende at folk i flere år efter bare blev ved med at tale om alle de utrolige ting, der skete - i 1951, 1952 og 1953. Omsider i 1954 var der en der vågnede op og indså at 1950 var blevet noget passé. (Latter) Og uden videre sprang boblen.
Og historien om 1950 er historien om alle de år, vi har registreret, med et lille tvist, fordi vi nu har disse fine grafer. Og fordi vi har disse fine grafer, kan vi nu måle ting. Vi kan sige "Hvor hurtigt springer boblen?" Og de viser sig, at vi kan måle dette meget præcist. Der blev udledt ligninger, og der opstillet grafer, og nettoresultatet er at det viser sig, at boblen springer hurtigere og hurtigere for hvert år der går. Vi mister interessen for fortiden hurtigere.
JM: Og nu et godt karrieretip: For de af jer, der vil være berømte, kan vi lære af de 25 mest berømte politiske personligheder, forfattere, skuespillere osv. Så hvis du vil være berømt tidligt, skal du være skuespiller, fordi berømmelsen så begynder at stige, nrå du er sidst i 20'erne – Du er stadig ung, og det er virkelig skønt. Men hvis du kan vente lidt, skal du blive forfatter, fordi så opnår meget stor berømmelse, som f.eks. Mark Twain: Ekstremt berømt. Men hvis du vil helt til toppen, skal du udskyde den tilfredsstillelse, det er at blive berømt - og selvfølgelig blive politiker. Her vil du blive berømt, når du er i slutningen af 50'erne, og blive meget, meget berømt derefter. Videnskabsfolk plejer også at blive berømte, når de er meget ældre. For eksempel biologer og fysikere bliver næsten ligeså berømte som skuespillere. En fejl, du ikke skal begå, er at blive matematiker. (Latter) Hvis du gør det, tænker du måske "Herligt! Jeg leverer mit bedste arbejde, når jeg er i 20'erne" Men tænk engang... stort set ingen lægger mærke til det.
ELA: Der er mere nøgterne observationer blandt n-grammerne. Her er f.eks. Marc Chagalls livsforløb, som kunster født i 1887. Og dette ligner det normale forløb for en berømt person. Han bliver mere og mere berømt, bare ikke hvis vi ser på tysk. På tysk ser vi noget ganske bizart, noget man stort set aldrig ser, og det er, at han bliver ekstremt berømt hvorefter berømmelsen falder brat og er på nulpunktet mellem 1933 og 1945, hvorefter berømmelsen vender tilbage. Og de vi selvfølgelig kan se er at Marc Chagall var jødisk kunstner i nazi-Tyskland
Disse signaler er faktisk så stærk, at vi ikke behøver at vide, at en person er blevet censureret. Vi kan faktisk regne det ud ved hjælp af meget grundlæggende behandling af signalerne. Her er en simpel måde at gøre det på. Det er rimeligt at forvente at en persons berømmelse i en given periode vil være nogenlunde gennemsnittet af berømmelsen før og berømmelsen efter perioden. Så det er nogenlunde, det vi forventer. Og vi sammenligner med den berømmelse, vi kan aflæse. Og så dividerer vi bare den ene med den anden så vi får noget, vi kalder et undertrykkelsesindeks. Hvis undertrykkelsesindekset er meget, meget, meget lavt, er der stor sandsynlighed for at du er undertrykt. Hvis det er meget højt, får du måske hjælp af propaganda.
JM: Nu kan man faktisk se på fordelingen af undertrykkelsesindekser over hele populationer. For eksempel her: Dette undertrykkelsesindeks er for 5.000 personer taget fra engelske bøger uden nogen kendt undertrykkelse. Det ville være på denne måde, tæt centreret om ét. Det man kan aflæse, er grundlæggende som forventet. Dette er fordelingen, som den ses i Tyskland. Meget anderledes... den er forskudt til venstre. Folk talte dobbelt så lidt om det, som de burde. Men vigtigere er, at fordelingen er meget bredere. Der er mange personer, der ender ude til venstre i fordelingen, som der bliver talt 10 gange så lidt om, som der burde. Men der er også personer ude til højre, som synes at være hjulpet af propaganda. Dette er kendetegnende for censur i bogregisteret.
ELA: Denne metode kalder vi "culturomics". Det er lidt ligesom genforskning Genomics - genforskning - er et nærbillede af biologi hvor man ser på sekvenser af baser i arvemassen. Culturomics minder om dette. Det er en analyse af en kæmpe samling data anvendt på studiet af menneskets kultur. I stedet for at bruge arvemassen som perspektiv, bruges digitaliserede stykker af historisk materiale. Det gode ved culturomics er at alle kan gøre det. Hvorfor kan alle gøre det? Alle kan gøre det, fordi disse tre herrer, Jon Orwant, Matt Gray og Will Brockman hos Google, så prototypen af Ngram Viewer, og sagde, "Det er så sjovt, at vi må gøre det tilgængeligt for alle." På nøjagtig de to uger inden offentliggørelsen af vores rapport kodede de en version af Ngram Viewer til almen brug. Du kan så skrive et vilkårligt ord, du er interesseret i og straks se det tilhørende n-gram, og du kan gennemse eksempler på alle bøger som dit n-gram optræder i.
Dette blev brugt over en million gang første dag, og dette er den bedste af alle søgninger. Så folk ønsker at yde deres bedste. Men i det 18. årh. var folk ligeglade med alt det. De ville ikke gøre bedste, de ville være "beft". Dette var selvfølgelig bare en fejl. Man stræbte ikke efter middelmådighed, men tidligere skrev man S anderledes, nærmest som et f. Det opdagede Google selvfølgelig ikke dengang, så vi skrev det i den videnskabelige artikel. Dette minder os om, at selvom det er rigtig sjovt, at fortolke disse grafer, skal man være forsigtig og overholde de videnskabelige standarder.
Folk har brugt dette til mange sjove formål. (Latter) Vi behøver faktisk ikke tale, vi viser bare alle slides og tier stille. Denne person var interesseret i frustrationens historie. Der er forskellige typer frustration. Hvis slår tåen, er der ét A i "argh". Hvis Jorden udslettes af Vogonerne for at gøre plads til en intergalaktisk ekspresrute, er det et "aaaaaaaargh" med otte A'er. Personen undersøger alle udgaver af "argh" fra ét til otte A'er. Og det viser sig at de mindst hyppige "argh" vedrører vedrører ting, der er mere frustrerende men sjovt nok ikke i de tidlige 80'ere. Vi tror det kan være noget med Reagan.
Disse data kan bruges til mange ting, men grundlaget er, at historien bliver digitaliseret. Google er begyndt at digitalisere 15 millioner bøger. Det er 12 % af alle bøger, der er udgivet. Det er en god klump af menneskets kultur. Kultur er meget mere: manuskripter, aviser noget er ikke tekst, f.eks. kunst og malerier. Disse vil alle findes på vores computere, på computere i hele verden. Og når det sker, ændrer det den måde vi forstår vores fortid, vores nutid og menneskets kultur.
You can share this video by copying this HTML to your clipboard and pasting into your blog or web page. This video will play with subtitles.
You either have JavaScript turned off or have an old version of the Adobe Flash Player. To view this rating widget you
need to get the latest Flash player.
If your browser allows only "trusted sites" to execute Javascript, you should add the "googleapis.com" domain to your whitelist to allow our Flash detection to work properly.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation.
Har du leget med Ngram Viewer i Google Labs? Dette vanedannende værktøj lader dig søge efter ord og idéer i en database med 5 millioner bøger fra flere århundreder. Erez Liebermann Aiden og Jean-Baptiste Michel viser os, hvordan det virker, og nogle af de overraskende ting, vi kan lære af 500 milliarder ord.
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio »
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio »
Translated into Danish by Bjarne Poulsen
Reviewed by Jonas Tholstrup Christensen
Comments? Please email the translators above.
20:06 Posted: Sep 2008
Views 286,029 | Comments 52
18:18 Posted: May 2011
Views 684,087 | Comments 75
05:35 Posted: May 2011
Views 365,328 | Comments 118
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign Out.