Erez Lieberman Aiden: Tothom sap que una imatge val més que mil mots. Però a Harvard ens preguntàvem si és de veres. (Rialles) Així doncs vam formar un grup d'experts, incloent-hi Harvard, el MIT, The American Heritage Dictionary, La Enciclopèdia Britànica i fins i tot el nostre orgullós espònsor, Google. I ens ho vam rumiar durant vora quatre anys. I vam arribar a una conclusió sorprenent. Senyores i senyors, una imatge no val més que mil mots. De fet, vam trobar algunes imatges que valen més que 500.000 milions de mots.
Jean-Baptiste Michel: Així doncs com vam arribar a aquesta conclusió? Erez i jo buscàvem maneres de trobar una imatge general de la cultura i història humanes: com canvien amb el temps. S'han escrit molts i molts llibres al llarg de la història. Pensàvem que la millor manera d´aprendre d'ells és llegir-se tots aquests milions de llibres. Ara, és clar, si hi ha una escala per a la magnitud de tot això, cal que vagi extremadament per dalt. El problema és que també hi ha un eix d'abscisses per a això, el qual és l'eix pràctic. És molt, molt baix.
Ara la gent tendeix a fer servir un enfocament alternatiu, que és prendre poques fonts i llegilr-les amb molta cura. Això és molt pràctic, però no tan sorprenent. El que realment volem fer és aconseguir la part sorprenent, i pràctica d'aquest espai. Resulta que hi havia una companyia a l'altra vorera del riu anomenada Google que havia encetat un procés de digitalització fa alguns anys que potser possibilitaria aquest enfocament. Han digitalitzat milions de llibres. El que això vol dir és que hom podria usar mètodes informàtics per llegir tots els llibres amb un clic del ratolí. Això és molt pràctic i molt i molt sorprenent.
ELA: Us diré ara una mica sobre l'origen dels llibres. Des de temps immemorials, hi ha hagut autors. S'han esforçat en escriure llibres. Això esdevingué molt més fàcil amb el desenvolupament de la impremta fa alguns segles. Des de llavors, els autors han guanyat 129 milions vegades, tot publicant llibres. Si aquests llibres no es perden en la nit dels temps, aleshores hi són en algun lloc d'una biblioteca, i molts d'ells han estat deixats en préstec a les biblioteques i digitalitzats per Google, qui ha escanejat 15 milions de llibres fins avui.
Quan Google digitalitza un llibre, li donen un format bonic de veres. Ara tenim les dades i, a més a més, les metadades. Tenim informació sobre coses com on ha estat publicat, qui era l'autor, quan fou publicat. I el que fem és esbrinar tots aquests registres i excloure tot allò que no siguin les dades de més qualitat. El que ens queda és una col·leció de cinc milions de llibres, 500.000 milions de mots, una tirallonga de lletres mil vegades més llarga que el genoma humà -- un text que, un cop escrit, faria el camí d'anada i tornada a la lluna més de 10 vegades -- un veritable fragment del nostre genoma cultural. És cert que el que vam fer al enfrontar-nos a aquesta hipèrbole indignant ... (Rialles) fou allò que qualsevol investigador que es precïi hauria fet. Vam agafar una plana del còmic XKCD, i diguérem, "Atura't. Provarem de fer ciència."
JM: És clar, hi pensem, posem les dades per aquí perquè la gent faci ciència amb elles. I pensem, quines dades podem publicar? Evidentment, hom vol prendre els llibres i publicar el text sencer de cinc milions de llibres. Google, i Jon Orwant en particular, ens van dir una petita equació que calia que aprenguéssim. Així doncs hi ha cinc milions, és a dir, cinc milions d'autors i cinc millions de demandes judicials és un procés descomunal. Així doncs, encara que això seria molt i molt sorprenent, una vegada més, seria molt i molt poc pràctic. (Rialles)
Llavors, gairebé ens vam ensorrar, i optàrem per l'enfocament pràctic, que no era tan sorprenent. Ens vam dir, en lloc de publicar el text sencer, publicarem estadístiques al voltant dels llibres. A tall d'exemple "A gleam of happiness." Té quatre paraules; ho anomenem un quatre-grams. Us direm quantes vegades va aparèixer un quatre-grams en particular en els llibres de 1801, 1802, 1802, fins a l'any 2008. Això ens dóna una sèrie temporal sobre la freqüència amb què una frase concreta ha estat usada al llarg del temps. Ho fem amb tots els mots i frases que apareixen en aquells llibres, i ens dóna una gran taula de 2000 milions de línies que ens parla sobre la manera com la cultura ha canviat.
ELA: Així doncs 2000 milions de línies, ho anomenem 2000 milions de n-grams. Què ens diu tot això? Doncs que els n-grams mesuren les tendències culturals. Us posaré un exemple. Suposem que estic esforçant-me, demà vull contar-vos el que vaig fer ahir. Podria dir-vos, "Ahir, em vaig esforçar." Altrament, puc dir, "Ahir, m'esforcí." Quina forma cal que faci servir? Com saber-ho?
Fa com sis mesos, el més novedós en aquest camp era que, posem per cas, hom aniria al psicòleg amb cabells fabulosos i li preguntaria, "Steve, tu que ets un expert en verbs irregulars. Què cal que digui?" I et diria, "la majoria de la gent diu em vaig esforçar, però alguns diuen m'esforcí." I hom sap que, més o menys, si ens remuntem 200 anys en la història i preguntem al següent estadista també amb cabells fabulosos, (Rialles) "Tom, què cal que digui?" Diria, "Bé, en la meua època, la majoria deia m'esforcí, i alguns em vaig esforçar." El que ara us mostraré són dades en brut. Dues línes en aquesta taula de 2000 milions d'entrades. El que esteu veient és la freqüència any rere any de "em vaig esforçar" i "m'esforcí". Això és sols dues línies dels 2000 milions. Doncs totes les dades plegades són 1000 milions de cops més sorprenents que aquesta diapositiva.
JM: Hi ha moltes altres imatges que valen més que 500.000 milions de paraules. Per exemple, aquesta. Si prenem en consideració la grip hom veurà pics allà on se sap que grans epidèmies de grip eren mortíferes a escala mundial.
ELA: Si encara no estiguéssiu convençuts, el nivell del mar està pujant, igual que el CO2 de l'atmosfera i el rescalfament global.
JM: Potser us interessi fer una ullada a aquest n-gram, per dir-li a Nietzsche que Déu és mort, tot i que potser esteu d'acord que potser necessita un altre publicista.
ELA: Hom pot arribar a alguns conceptes prou abstractes amb això. Per exemple, us contaré la història de l'any 1950. Pel que fa a gran part de la història, a ningú li importava un rave el 1950. El 1700, el 1800, el 1900, a ningú li importaven un rave. Els anys 30 i 40, a ningú li importava un rave. De sobte, a mitjans dels anys 40, va començar a haver-hi un rumor. La gent s'adonà que 1950 anava a succeir, i que potser seria gran. (Rialles) Però no-res va fer que la gent s'hi interessessi. tant com l'any 1950. (Rialles) La gent s'hi estava obsessionant. No podien deixar de parlar-ne sobre allò que havien fet en 1950, tot allò que planejaven fer en 1950, tots els somnis al voltant d'allò que volien aconseguir en 1950. De fet, el 1950 va ser tant fascinant que durant anys després, la gent va continuar parlant sobre les coses meravelloses que havien passat, en 1951, 52, 53. Al capdavall en 1954, algú es va despertar i es va adonar que el 1950 havia, d'alguna manera, passat de moda. (Rialles) I simplement així, la bombolla va esclatar.
I la història del 1950 és la història de cada any que tenim enregistrat, amb un petit canvi, perquè ara tenim aquests fantàstics gràfics. I com que tenim aquests fantàstics gràfics, podem mesurar les coses. Podem afirmar, "A quina velocitat esclata la bombolla? I resulta que podem mesurar-ho amb molta precisió. Vam resoldre equacions, generar gràfics. i el resultat nítid és que trobem que la bombolla esclata més i més ràpidament amb cada any que passa. El passat deixa d'interessar-nos més ràpidament.
JM: Ara un petit consell per a la vida professional. Per a aquells de vosaltres qui vulgueu ser famosos, podem aprendre de les 25 figures polítiques més famoses, autors, actors, etc. Així, si algú vol esdevenir famós aviat, caldria que fos actor, perquè la fama comença a crèixer quan tens gariebé 30 anys -- encara ets jove, això és bonic de veres. Ara si pots esperar una mica més, caldria que fossis un autor, perquè llavors t'aixecaràs a alçades molt elevades, com Mark Twain, per exemple: molt i molt famós. Però si vols assolir el cim, cal que endarrereixis la gratificació i, és clar, esdevinguis polític. En aquest cas seràs famós quan tinguis gairebé 60 anys, i seràs molt i molt famós després. Els científics tendeixen a ser famosos quan són encara més grans. Com, per exemple, els biòlegs i els físics tendeixen a ser tan famosos com els actors. Una errada que cal evitar és convertir-se en matemàtic. (Rialles) Si ho fas, potser pensis, "molt bé, faré la meua gran obra quan tingui 20 i escaig." Però sabeu què, a ningú li importarà un rave.
ELA: Hi ha més notes alliçonadores entre els n-grams. A tall d'exemple, heus aquí la trajectòria de Marc Chagall, un artista nascut en 1887. I això sembla la trajectòria normal de una persona famosa. Es fa més i més famós, excepte si recerques en alemay. Si recerques en alemay, veus quelcom estrany del tot, quelcom que garibé no veus mai, que és que esdevé molt i molt famós i llavors, sobtadament, decau tot tocant fons entre 1933 i 1945, abans de repuntar de nou. I, és clar, el que veiem és el fet que Marc Chagall era un artista jueu a l'Alemanya nazi.
Aquests signes són realment tan forts que no cal que sapiguem que algú fou censurat. Podem deduir-ho fent servir un bàsic procesament de signes. Aquí teniu una manera simple de fer-ho. Una expectativa raonable és que la fama d'algú en un període donat de temps hauria de ser, més o menys, el promedi de la seva fama anterior i la seva fama posterior. Doncs això és el que esperem. I comparem això amb la fama que observem. I dividim l'una entre l'altra per obtindre quelcom que anomenem índex de supressió. Si l'índex de supressió és molt i molt petit, és més que probable que t'estiguin suprimint. I si és molt gran, potser és gràcies a la propaganda.
JM: Aquí podeu veure realment la distribució dels índex de supresió de poblacions senceres. Així doncs per exemple, aquí -- l'índex de supressió és de 5.000 persones preses en llibres en anglés on no hi ha supressió coneguda -- seria d'aquesta manera, en essència centrat estretament al voltant del u. El que ens esperaríem és el que observem. Aquesta és la distribució vista en Alemanay -- molt diferent, està inclinada envers l'esquerra. La gent en parlava dues vegades del que caldria esperar. Però encara més important, la distribució és molt més àmplia. Hi ha molta gent que acaben en l'extrem esquerrà d'aquesta distribució dels quals es parla unes 10 vegades menys del que caldria esperar. I, d'una altra banda, molta gent en el extrem contrari qui semblen rebre el benefici de la propaganda. Aquesta imatge és l'epítom de la censura en el registre de llibres.
ELA: cultròmica és com hem anomenat aquest mètode. És com la genòmica. Tret que la genòmica és una lent vers la biologia a través de la finestra de la seqüència de les bases en el genoma humà. La cultròmica és similar. És l'aplicació de l'anàlisi de corpus massius de dades a l'estudi de la cultura humana. Aquí, en lloc de fer servir la lent del genoma, es fa a través de la lent de registres històrics digitalitzats. El bo de la cultròmica és que tothom pot practicar-la. Perquè pot practicar-la tothom? Gràcies a tres tipus, Jon Orwant, Matt Gray i Will Brockman a Google, van veure el prototipus del Ngram Viewer, i van dir-se, "Això és molt divertit. Hem de posar-ho a l'abast de tothom." Així que en sols dues setmanes -- les dues setmanes prèvies a la publicació de la nostra recerca -- van codificar una versió del Ngram Viewer per al gran públic. I llavors hom pot teclejar qualsevol mot o frase en què hom estigui interessat i veure el seu n-gram immediatament -- també navegar per exemples de diversos llibres on aquest n-gram apareix.
JM: Va ser utilitzat més d'un milio de vegades el primer dia, i això és la millor de les consultes. La gent vol el bo i millor, engrescar-s'hi amb ganes. Però sembla ser que en el segle XVIII, a la gent li importava un rave tot això. No volien el bo i millor (best), volien el bo i millor (beft). El que passava és, és clar, que això és una errada. No és que s'esforcessin per la mediocritat, és simplement que la S s'escrivia diferent, una mena de F. Òbviament Google no ho va veure aleshores, així que vam notificar-ho en el següent article científic que vam escriure. Resulta que això és sols un recordatori que, tot i ser molt divertit, quan interpretes aquests gràfics, cal ser molt curós, i cal que s'adoptin els estàndards bàsics de les ciències.
ELA: La gent ho ha fet servir per a tot tipus de propòsits. (Rialles) En realitat, no parlarem, simplement mostrarem les diapositives i estarem callats. Aquesta persona estava interessada en la història de la frustració. Hi ha diversos tipus de frustració. Si et fas mal al dit del peu, això és un "argh" amb una A. Si el planeta Terra és anihilat pels Vogons per fer lloc per una circumval·lació interstel·lar Això és un "aaaaaaaargh" amb vuit As. Aquesta persona estudia tots els "arghs," des de una A a vuit As. I resulta que els "arghs" menys freqüents són, és clar, els que corresponen a les coses més frustrants -- excepte, curiosament, a principis dels anys 80. Pensem que potser estigui relacionat amb Reagan.
JM: Hi ha molts usos d'aquestes dades. però el més important és que els arxius històrics estan sent digitaliltzats. Google ha començat a digitalitzar 15 milions de llibres. Això és el 12 % de tots els llibres que s'han publicat en la història. És un troç important de la cultura humana. Hi ha molt més en la cultura: hi ha manuscrits, periòdics, hi ha coses que no són text, com ara art i quadres. I resulta que tot ho tenim als nostres ordinadors, als ordinadors de tot el món. I quan això succeixi, això transformarà la manera que tenim d'entendre el nostre passat, el nostre present i la cultura humana.
You can share this video by copying this HTML to your clipboard and pasting into your blog or web page. This video will play with subtitles.
You either have JavaScript turned off or have an old version of the Adobe Flash Player. To view this rating widget you
need to get the latest Flash player.
If your browser allows only "trusted sites" to execute Javascript, you should add the "googleapis.com" domain to your whitelist to allow our Flash detection to work properly.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation.
Heu fet servir el Google Labs' Ngram Viewer? És una eina addictiva que et permet cercar mots i idees en una base de dades de 5 milions de llibres de diferents segles. Erez Lieberman Aiden i Jean-Baptiste Michel ens monstren que funciona, i també algunes de les coses sorprenents que podem aprendre amb 5000 milions de mots.
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio »
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio »
Translated into Catalan by Eduardo Otsoa
Reviewed by Fran Ontanaya
Comments? Please email the translators above.
20:06 Posted: Sep 2008
Views 293,005 | Comments 52
18:18 Posted: May 2011
Views 700,190 | Comments 75
05:35 Posted: May 2011
Views 369,607 | Comments 119
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign Out.