Erez Lieberman Aiden: Të gjithë e dinë se një fotografi vlen sa një mijë fjalë. Por ne në Harvard po e vemë në pikëpyetje vërtetësinë e kësaj shprehje. (Të qeshura) Kështuqë ne e kemi mbledh nji ekip profesionistësh, nga Harvard, MIT, Fjalori i Trashëgimisë Amerikane (The American Heritage Dictionary), Enciklopedia Britanika dhe sponsorët tanë të nderuar Google Ne kemi menduar thellë për këtë çështje për katër vite të tëra. Dhe kemi arritur në konkludime befasuese. Zonja dhe Zotërinj, një fotografi nuk vlen sa një mijë fjalë. Në fakt, ne kemi hasur në disa fotografi të cilat vlejnë sa 500 miliardë fjalë.
Jean-Baptiste Michel: Pra si kemi arritur deri te ky konkludim? Erezi dhe une po mendonim për mënyrat si ta gjejmë nji fotografi e cila përfshin kulturën e njerëzimit dhe historinë e njerëzimit: duke ndryshuar nëpër kohë. Gjatë viteve janë shkruar shumë libra. Ne po mendonim, mënyra më e mirë për të mësuar prej tyre është ti lexosh të gjithë këta miliona libra. Tani natyrisht nëse do të mund të masnin me ndonjë shkallë se sa mbresëlënëse do të ishte kjo gjë, sigurisht do ta rendisnim tej, tej lartë. Tani problemin qëndron se aty gjindet nji bosht X, i cili ështe boshti praktik. Kjo është shumë, shumë e ultë.
Tani njerëzit tentojnë të përdorin nji qasje alternative, e cila përfshin grumbullimin e disa burimeve dhe leximin e tyre me kujdes. Kjo gjë është tejet praktike por jo edhe aq mbresëlënëse. Se çka duam të bëjmë është t'arrijmë te pjesa mbresëlënëse e poashtu praktike e kësaj hapësire. Fillimisht kompania e quajtur Google kishte filluar një projekt të digjitalizimit (të të dhënave) disa vite më herët që veç do ta mundësonte këtë qasje. Ata kanë digjitalizuar miliona libra. Kjo do të thotë, duke shfrytëzuar metodat komputative mundemi ti lexojmë të gjithë librat me një shtypje butoni. Kjo gjë është tejet praktike dhe më se mbresëlënëse.
ELA: Më lejoni t'ju rrëfej pak se si kanë ardhur librat. Qysh se nuk mbahet mend kanë ekzistuar autorët. Këta autorë janë përpjekur të shkruajnë libra. Mundimi i tyre është lehtësuar në mënyrë të konsiderueshme me zhvillimin e makinave shtypëse disa shekuj më herët. Që nga at'herë autorë kanë fituar në 129 milionë raste të ndryshme libra të botuar. Tani nëse këto libra nuk janë të humbur nëpër kohëra, ato duhet të jenë diku në ndonjë bibliotekë, dhe shumë nga këto libra janë huazuar nga bibliotekat dhe janë digjitalizuar nga Google, e cila i ka skenuar 15 milionë libra deri sot.
Tani, kur Google digjitalizon një libër, ata e vendosin në një format shumë të mirë. Tani kemi të dhëna (data) dhe poashtu metatëdhëna (metadata). Ne kemi informacione për gjër si: ku është botuar libri, kush ka qenë autori dhe kur është botuar. Se çka bëjmë ne është që i kontrollojmë gjithë të dhënat dhe i përjashtojmë gjithëçka që nuk është e dhënë e kualitetit më të lartë. Neve na mbetet një koleksion i pesë milionë librave, 500 miliardë fjalëve, një varg karakteresh një mijë herë më i gjatë se gjenomi i njeriut -- një tekst i cili po të shkruhej do të zgjatej sa prej këtu gjer në Hënë e prapë mbrapa deri këtu edhe atë 10 herë-- një copë e thyer e gjenomit tonë kulturor. Natyrisht çka kemi bërë ne kur jemi ballafaquar me atë hiperbollë të tmerrshme... (Të qeshura) ishte ajo që çdo hulumtues i respektueshëm do të bënte. Ne morrëm një faqe nga XKCD dhe kemi thënë: "Mbajuni. Ne do të provojmë shkencën."
JM: Natyrisht, ne po mendonim, do ti vendosnim të dhënat ashtu që njerëzit ti përdorin për shkencë ato. Tani po mendonim, cilat të dhëna mund ti nxjerrim? Natyrisht, ju do të dëshironi ti merrni librat dhe ti publikoni tekstin e plotë të pesë milionë librave. Tani Google, dhe Jon Orwant në veçanti na kanë treguar një ekuacion të cilin duhet ta mësojmë. Kështuqë nëse keni pesë milionë autorë dhe pesë milionë paditës formojnë një paditje masive. Edhe pse kjo do të ishte me të vërtetë e mrekullueshme, megjithatë do të ishte tejet jo praktike. (Të qeshura)
Kështu qe ne përsëri u zbrapsëm, dhe u drejtuam me një qasje më praktike e cila ishte më pak mbresëlënëse. Dhe thamë, në vend se ta publikojmë tekstin e plotë, ne do te publikojmë statistikat rreth librave. Për shembull " A gleam of happiness" ("Një dritë e zbehtë e lumturisë"). Përmban katër fjalë, ne mund ta thërrasim një katër-gram. Tani do t'ju rrëfejmë se sa herë një katër-gram i veçantë është shfaqur nëpër libra në vitet 1801. 1802, 1803, e gjer në vitin 2008. Kjo na sjell neve një seri e cila na tregon frekuencën e përdorimit gjatë kohës të një fjalie të veçantë. E kemi bërë këtë gjë për të gjitha fjalët dhe frazat të cilat shfaqen në ato libra, dhe kjo na sjell një tabelë të madhe me dy miliardë linja të cilat na rrëfejnë se si kultura ka ndryshuar.
ELA: Kështu që këto dy miliardë linja, ne i kemi quajtur dy miliardë n-grame. E çka na rrëfejnë ato neve? N-gramet individuale masin trendet kulturore. Ta marr një shembull për t'ju ilustruar. Le të supozojmë se unë jam duke u zhvilluar, dhe të nesërmen do të dëshiroja t'ju rrëfej sa kam arritur. Kështuqë mund të them , "Dje përparova" (Shënim: Mirret shembull trajta e foljeve të rregullta dhe parregullta në gjuhën angleze). Ose mund të thosha, "Dje kam përparuar". Cilën formë do të duhej ta përdorja? Si ta di?
Diku para gjashtë muajsh, arti i kësaj fushe do të ishte, si shembull, të takoni një psikolog me flokë të mrekullueshëm, e ti thoni; "Steve, ti je një ekspert në foljet e parregullta. Çka më duhet të bëj?" Ai do t'ju përgjigjej, "Shumica e njerëzve përdorin shprehjen: kam përparuar, por ka të tillë që përdorin: përparova." Edhe ju e dini, pak a shumë, se po t'ju duhej të ktheheni prapa në kohë për 200 vite dhe ta pyetni deklaruesin e rradhës poashtu me flokë të mrekullueshëm, (Të qeshura) "Tom, si duhet ta them?" Ai do t'ju përgjigjej, " Tani, në kohën time shumica e njerëzve janë zhvilluar, por disa zhvilluan." Tani do t'ju paraqes disa të dhëna të papërpunuara, Dy rreshta prej kësaj tabele prej dy miliardë të dhënash. Se çka po shohim është frekuenca vit për vit e "jam zhvilluar" dhe "u zhvillova" gjatë kohës. Kjo tani është vetëm dy prej dy miliardë rreshtash. Pra i gjithë kompleti i të dhënave është një miliardë herë më i mrekullueshëm se kjo faqe prezentimi.
JM: Tashti ka shumë fotografi që vlejnë sa 500 miliardë fjalë, Si shembull, kjo. Nëse e marrim gripin, do të shihni pika kulminante gjatë kohës kur ju keni qenë në dijeni se epidemitë e mëdha të gripit kanë qenë vdekjeprurëse përgjatë globit.
ELA: Nëse nuk jeni ende të bindur, nivelet e ujërave po rritet, po ashtu edhe niveli i CO2 dhe temperatura globale.
JM: Ndoshta do të duhej ta shiqoni pikërisht këtë n-gram, e kjo vetëm për ti tregu Niçes se Zoti nuk ka vdek. edhe pse edhe ju ndoshta pajtoheni se ai ka nevoje për ndonjë publicist më të mirë.
Ju mund ti qaseni edhe disa koncepteve mjaft abstrajte me këtë metodë. Për shembull, më lejoni t'ju rrëfej historinë e vitit 1950. Për shumicën e historisë askujt s'ju ka bërë vonë për vitin 1950. Në vitin 1700, 1800, 1900, askush nuk është brengosur. Gjatë viteve 30ta dhe 40ta, askush nuk është brengosur. Papritmas, në mesin e viteve 40ta, filloi të bëhet zhurmë. Njerëzit e kuptuan se viti 1950 do të vinte, dhe do të mund të ishte madhështorë. (Të qeshura) Por asgjë nuk i tërhoqi vëmendjen njerëzve në vitin 1950 vetëm se veç viti 1950 në vete. (Të qeshura) Njerëzit shetisnin rreth e rrotul të obsesionuar. Ata nuk mund të ndalonin së foluri për gjërat që kishin bërë në vitin1950, gjërat që kishin planifikuar se do ti bënin në vitin 1950, gjithë ato ëndrra që kishin dëshiruar ti plotësonin në vitin 1950. Në fakt, viti 1950 ishte aq i mahnitshëm sa për vitet që do të vinin, njerëzit do të flisnin për të gjitha gjërat e mrekullueshme që kanë ndodhur, në '51tën, '52tën, '53tën. Më në fund në vitin 1954, dikush u kthjell dhe kuptoi se disi 1950ta është zbehur. (Të qeshura) Dhe kështu, baloni pëlciti.
Dhe tregimi i 1950tës është tregimi i çdo viti të cilin e kemi regjistruar ne, me pak ndryshime, sepse tani i kemi këto diagrame të mira. Dhe sepse i kemi këto diagrame të mira, ne mundemi ti masim gjërat. Ne mund të themi: "Sa shpejt mundet një balon të pëcals?" Dhe siç po duket ne mundemi ta masim atë Ekuacionet janë derivuar, grafiqet janë ndërtuar, dhe rezultati i fundit është se ne kemi konkluduar se baloni pëlcet shpejt e më shpejt me çdo vit që kalon. Ne po humbim interesimin për të kaluarën në mënyrë tejet të shpejtë.
JM: Tani një këshillë sa i përket karrierës. Për ata që kërkojnë famën, mund të mësojmë prej 25 figurave më të famshme të politikës, autorëve, aktorëve e kështu me radhë. Kështuqë pra, nëse doni të bëheni të famshëm qysh herët, duhet të bëheni aktor, sepse atëherë fama fillon t'ju rritet kah mosha 20 vjeçare, ju jeni ende të rinj, çka është e mrekullueshmë. Nëse dëshironi të prisni pak, duhet të bëheni autor, sepse atëherë mund të ngriteni në majat më të larta, si shembull Mark Twain, më se i famshëm. Por nëse doni të arrini majat e majave, duhet të i vononi kënaqësitë dhe natyrisht të bëheni një politikan. Në këtë rast do të bëheni të famshëm kah mosha 50 vjeçare, do të bëheni shumë, shumë të famshëm pastaj. Poashtu edhe shkenctarët duken se bëhen të famshëm kur veçse janë më të moshuar. Si shembull, biologët dhe fizikantët duken se gati bëhen të famshëm sa vetë aktorët. Një gabim nuk duhet ta bëni, e të bëheni matematicient. (Të qeshura) Nëse veç bëheni, ju do të mendoni, "Për mrekulli, do ti realizoj punimet më të mira të miat në moshën 20 vjeçare." Edhe a e dini, se askujt si bëhet vonë për këtë fakt.
ELA: Ne mund të gjejmë shënime më të qarta midis n-grameve. Si shembull, ja trajektorja e Marc Chagall, një artist i lindur në vitin 1887. Dhe kjo duket si një trajektore normale e një personi të famshëm. Ai bëhet gjithëmonë më i famshëm, përveç se nëse shiqoni në gjuhën gjermane. Nëse shiqoni në gjuhën gjermane, do të nuhasni diçka tërësisht bizare, diçka që gati kurrë nuk do të shihni, gjë që është se ai bëhet më se i famshëm e pastaj papritmas merr teposhtëzën, duke përjetuar një pikë të ultë midis viteve 1933 dhe 1945, para se të tërhiqet pastaj. Se çka po vërejmë natyrisht, është fakti që Marc Chagall ishte një artist hebre në një Gjermani Naziste.
Tani, këto sinjale janë shumë të fortë sa që neve nuk na nevojitet te jemi në dijeni se dikush ishte i çenzuruar. Ne në fakt mund ta kuptojmë vetvetiu duke shfrytëzuar procesimin e sinjaleve themelore. Ja si është metoda më e thjeshtë për ta bërë. Pritjet racionale që fama e dikujt gjatë një periudhe kohore do të duhet të jetë përafërsisht mesatarja e famës së tyre para dhe pasi që veç ishin të famshëm. Kjo është çka ne presim. Dhe ne e krahasojmë me famën të cilën e vëzhgojmë. Dhe veç i ndajmë njërën me tjetrën për të prodhuar diçka që ne e quajmë indeksi i shuarjes. Nëse ky indeks i shuarjes është tejet, tejet, tejet i vogël, atëherë ju veçse jeni të shtypur. Nëse ky indeks është i madh, ndoshta jeni duke përfituar nga propaganda.
JM: Tani ju mund të shihni shpërndarjen e indekseve te shuarjeve nëpër popullatën e gjerë. Pra si shembull këtu-- ky indeks i shuarjes është për 5,000 njerëz të përzgjedhur nëpër libra anglez ku nuk ka pasur shtypje të njohur-- do të dukej diçka si kjo, pra e përqëndruar ngushtë në një. Se çka prisni në parim është se çka vëzhgoni. Kjo shpërndarje e parë në Gjermani-- shumë e ndryshme, është zhvendosur në të majtë. Njerëzit kanë folur rreth saj dy herë më pak se është dashur. Por çka është më me rëndësi, shpërndarja është më e gjerë. Janë gjendur shumë njerëz të cilët kanë përfunduar në skajin e anës së majtë të shpërndarjes të cilët kanë folur 10 herë më pak se është dashur. Por në anën tjetër shumë njerëz në skajin e anës së djathtë siç duket kanë përfituar nga propaganda. Kjo fotografi është vula dalluese e çenzurës në librin e shënuar.
Pra kulturomikë e quajmë ne këtë metodë. Diçka e ngjashme me gjenomikën. Përveç se gjenomika e vë nën thjerrëz biologjinë nëpërmjet dritares së ndërtueme në sekuenca në bazë të gjenomit njerëzor. Kulturomika është e ngjashme. Paraqet aplikimin e analizës së të dhënave masive të mbledhura paraprakisht për të studiuar kulturën njerëzore. Tani këtu në vend se të shiqojmë nëpërmjet thjerrëzës së një gjenomi, shiqojmë nëpërmjet thjerrëzës së pjesëve të digjitalizuara të regjistrave historik. Mashështia e kulturomikës është se çdokush mund ta bëj. Pse çdokush mundet? Gjithëkush do të ketë mundësi, sepse tre djem, Jon Orwant, Matt Gray dhe Will Brockman në Google, kur e kanë e parë prototipin e Ngram Viewer, thanë, "Kjo duket shumë zbavitëse. Do të duhet të jetë e disponueshme për njerëzit." Për rrafsh dy javë--dy javë para se të publikohej artikulli ynë-- ata kodifikuan një version të Ngram Viewer për publikun e gjerë. Dhe ju mund të shtypni ndonjë fjalë apo frazë e cila ju intereson dhe ta shiqoni n-gram e tij menjiherë-- poashtu të shfletoni shembuj prej librave të ndryshëm në të cilat n-grami juaj shfaqet.
JM: Tani ky apllikacion është shfrytëzuar një milionë herë në ditë e parë të tij, dhe kjo ështe më e mirë prej të gjitha kërkimeve. Kështuqë njerëzit duan të jenë më e mira e vetvetes, le të vënë hapin më të mirë përpara. Por siç do të shihet njerëzit në shekullin e XVIII-të nuk janë brengosur shumë për atë gjë. Njerëzit nuk kanë dashur të jenë në të mirën (fjala në angl. best) e tyre por në të mifën e tyre ( beft, një shkronjë e shkruar gabimisht, fraza mbetet pa kuptim). Se çka ka ndodhur, natyrisht, ky është një gabim. Nuk ishte ajo që u përpjek për mediokritet, por shkronja S shkruhej pak më ndryshe, diçka si shkronja F. Tani natyrisht, Google nuk mund ta haste në atë kohë, kështu që ne e raportuam në artikullin që po shkruanim. Por ajo doli të ishte vetëm një rikujtues se edhe pse kjo është shumë zbavitëse, kur i intepretoni këto grafiqe, duhet të keni shumë kujdes, dhe ti përvetësoni standardet themelore shkencore.
ELA: Njerëzit e kanë shfrytëzuar këtë aplikacion për qëllime të ndryshme zbavitëse. (Të qeshura) Në fakt, ne nuk do të flasim më, do t'ju paraqesim të gjitha faqet e prezentimit dhe do të jemi të qetë. Ky person ishte i interesuar në historinë e frustrimit. Ekzistojne lloje të ndryshme të frustrimit. Nëse zeni në thua, në pasthirrmën tuaj "ah" gjendet vetëm një A. Nëse planeti Tokë do të shkatërrohej tërësisht nga jashtëtokësorët Vogonë për të liruar hapësirë për një bajpas ndëryjor, në "Aaaaaaaah" do të gjindeshin tetë A-ja. Ky person studio të gjitha pasthirrmat "ah", prej me një deri tetë A-ja. Dhe siç u pa "ah"-et më pak të shpeshta janë natyrisht ato të cilat korrespondojnë me gjërat më frustruese-- përveç çuditërisht në vitet e fillimit të 1980tës. Ne mendojmë se kjo ka të bëj diçka me Reagan.
JM: Këto të dhëna mund të shfrytëzohen në mënyra të ndryshme, por çka duam të themi është se shënimet historike po digjitalizohen. Google ka fillu digjitalizimin e 15 milionë librave. Kjo është vetëm 12 përqind e të gjithë librave të botuar deri sot. Paraqet një copë të konsiderueshme të kulturës njerëzore. Kuptohet ka shumë më shumë gjëra në kulture si: dorëshkrimet, shtypi ditor, gjërat që nuk përmbajnë tekst, si arti dhe pikturat. E gjithë këto ndodhen në kompjuterët tanë, në kompjuterët nëpër botë. E kur gjithë këto ndodhin, do të transformojnë mënyrën se si ne e kuptojmë te kaluarën, të tashmen tonë si dhe kulturën njerëzore.
You can share this video by copying this HTML to your clipboard and pasting into your blog or web page. This video will play with subtitles.
You either have JavaScript turned off or have an old version of the Adobe Flash Player. To view this rating widget you
need to get the latest Flash player.
If your browser allows only "trusted sites" to execute Javascript, you should add the "googleapis.com" domain to your whitelist to allow our Flash detection to work properly.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation.
A keni pasur rastin ta provoni Ngram Viewer prej Google labs? Është një mjet pas të cilit mund vareni e që ju lejon kërkimin e termeve-fjalëve si dhe ideve nga një bazë të dhënash prej 5 milionë librash nëpër shekuj. Erez Lieberman Aiden dhe Jean-Baptiste Michel na e rrëfejnë se si funksionin ky mjet si dhe befasitë të cilat ne mundemi ti mësojmë prej 500 milionë fjalëve.
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio »
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio »
Translated into Albanian by Albana Deralla
Reviewed by Dita Bytyci
Comments? Please email the translators above.
20:06 Posted: Sep 2008
Views 286,429 | Comments 52
18:18 Posted: May 2011
Views 685,140 | Comments 75
05:35 Posted: May 2011
Views 365,693 | Comments 118
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign Out.