Follow TED
Be the first to know about new TEDTalks, TED news and other announcements.
Click on any phrase to play the video from that point.
Erez Lieberman Aiden: Herkes bilir ki bir resim 1000 kelimeye değerdir. Ama Harvard'daki bizler bunun gerçekten doğru olup olmadığını merak ediyorduk. (Gülüşmeler) Böylece, Harvard, MIT, American Heritage Sözlüğü, Britannica Ansiklopedisi, ve gururlu sponsorlarımız Google'ın da arasında bulunduğu uzmanlardan oluşan bir ekip hazırladık. ve 4 yıl kadar bunun üzerinde düşündük. Ve şaşırtıcı bir sonuca vardık. Bayanlar baylar, bir resim 1000 kelimeye değer değil. Hatta, biz 500 milyar kelimeye değer resimler bulduk.
Jean-Baptiste Michel: peki bu sonuca nasıl vardık? Erez ve ben, insan kültürünün ve insanlık tarihinin zamanla değişiminin genel bir tablosunu oluşturmak istiyorduk. Yıllar içinde o kadar çok kitap yazılmış ki. Biz de düşündük ki. onlardan öğrenmenin en iyi yolu tüm bu milyonlarca kitapları okumak. Tabiki eğer bunun ne kadar süper bir şey olduğunu gösteren bir grafik varsa, bu çok çok yüksek bir sıralamaya sahip olmalı. Problem şu ki, bir de X ekseni var, ki o da kullanışlılık ekseni. Bu da çok çok düşük bir seviyede.
Şimdi insanlar alternatif bir yaklaşım kullanmaya meyilli, bu da bir kaç kaynağı almak ve onlar dikkatlice okumak. Bu inanılmaz kullanışlı, ama o kadar süper değil. Gerçekte yapmak istediğiniz şey süper ama kullanışlı olan bu alana gelmek. Öğrendik ki bir kaç sene önce bir dijitalizasyon projesi başlatan bu yaklaşımı mümkün kılabilecek nehrin ötesinde Google adında bir şirket varmış. Mİlyonlarca kitabı dijitalize hale getirdiler. Yani bu şu anlama geliyor: biri bu kitapların hepsini okumak için bir klikle bilgisayarlı methodları kullanabilir. Bu çok kullanışlı ve inanılmaz süper.
ELA: Sizlere biraz kitapların nereden geldiğinden bahsedeyim. Zamanın başlangıcından beri, yazarlar vardı. Bu yazarlar kitap yazmak için çabalayıp durdular. Bir kaç yüzyıl önce matbaa makinesinin geliştirilmesiyle bu gittikçe kolaylaştı. O zamandan beri, 129 milyon farklı vesilelerle kitaplar yayınlayarak, yazarlar kazandı. Şimdi ise bu kitaplar tarih arasında kaybolup gitmediyse bir kütüphanenin tekinde ve bu kitapların çoğu kütüphanelerden getirtiliyor, ve günümüze kadar 15 milyon kitabı taramış olan, Google tarafından dijitalize hale getiriliyorlar.
Şimdi Google bir kitabı dijitalize hale getirdiğinde, onu çok güzel bir formatla sunuyorlar. Şimdi elimizde veri var ve meta veri var. Kitabın nerede basıldığı, yazarın kim olduğu ne zaman basıldığı gibi şeyler hakkında bilgimiz var. Yaptığımız ise bütün bu bilgileri taramak ve yüksek kaliteli olmayan tüm verileri ayıklamak. Elimizde kalan şey ise 5 milyon kitabın 500 milyar kelimenin toplamı, kültürel genomumuzun gerçek bir parçası, açık açık yazıldığında, buradan aya kadar, 10 kez gidip gelebilecek, insan genomundan 1000 kere daha uzun olan bir karakterler dizisi. Böyle aşırı abartılı bir durumla karşı karşıya kaldığımızda yaptığımız şey (Gülüşmeler) kendine saygısı olan her araştırmacının yapacağı şeydi. XKDC'den bir sayfayı aldık, ve "Sıkı durun, bilim yapmayı deneyeceğiz" dedik.
JM: Tabii ki, şöyle düşündük, bilimle ilgilenen insanlar için elimizdeki datayı ortaya koyalım. Düşünmeye başladık, hangi datayı yayınlayabiliriz? Tabii ki, bu kitapları alıp bu 5 milyon kitabın tam metinlerini yayınlamak istiyorsunuz. Google'dakiler, özellikle Jon Orwant, bize öğrenmemiz gereken bir denklemden bahsettiler. Şimdi elinizde 5 milyon yazar var ve 5 milyon davacı devasa bir toplu dava demek. Yani bu her ne kadar çok çok süper bir şey olsa da, tekrar edelim, çok ama çok kullanışsız. (Gülüşmeler)
Ve tekrardan, boyun eğdik, ve o kadar süper olmayan kullanışlı yaklaşımı kullandık. Tam metini yayınlamak yerine, kitaplar hakkında istatistikleri yayınlayalım dedik. "Bir Pırıltı Mutluluk" 'u ele alalım. 3 kelime; biz buna üç-gram dedik. Size bu üç-gram'ın 1801, 1802, 1803 ten baslayip 2008'e kadar olan kitaplarda kaç defa geçtiğini söyleyeceğiz. Bu, bize bu cümlenin zaman içinde kaç defa tekrarladığını gösteren bir zaman dizini sunacak. Bu yöntemi, bu kitaplardaki tüm kelime ve deyimlere uygularsak sonunda elimizde kültürümüzün ne şekilde değistigini gösteren iki milyar satırlık bir tablo ortaya çıkacak.
ELA: Peki, bu iki milyar satır, bunlara iki milyar n-gram diyelim. Bize ne söylüyorlar? Yalın n-gramlar, kültürel trendleri ölçmeye yarıyor. Bir örnek vermeme izin verin. Diyelim ki ben çok başarılı oldum. ve ertesi gün size ne kadar başarılı olduğumu söylemek istedim. Diyebilirim ki, ben dün "başardım." (throve) Ya da diyebilirim ki "başardım". (thrived) Hangisini kullanmalıyım? Nasıl bileceğiz?
Bundan yaklaşık altı ay önce bu sorunun yanıtını öğrenmek için mesela bu muhteşem saçlara sahip psikoloğa gider ve derdiniz ki, "Steve, sen düzensiz fiil çekimi konusunda tam bir uzmansın. Hangisini ( throve veya thrived) kullanmam gerekir?" O da size derdi ki "Bak insanların çoğu 'thrived' diyor, ama bazıları 'thrıve' da diyorlar." Ve şunu da biliyorsunuz ki, eğer bundan 200 yıl önceye gidebiliyor olsanız ve aynı derece müthiş saçlara sahip bu devlet adamına aynı soruyu sorsanız, (Gülüşmeler) "Tom, hangisini kullanmalıyım?" deseniz O size " Bak, benim zamanımda çoğu insan 'throve' diyordu, ama bazıları 'thrived' da der." diyecektir. Öylese şimdi sizle ham veriyi paylaşacağım. Bu tablodaki iki sıra, iki milyar kayıt demek. Burada gördüğünüz zaman içinde "thrived" ve "throve" kelimelerinin yıllık frekansı. Burada gördüğünüz, iki milyar satırdan sadece iki tanesi. Yani aslında veri setinin tamamı bu slaytta gördüşünüzden milyar kez daha müthiş.
JM: Şimdi, 500 milyar kelime eden çok farklı başka resimler de var. mesela bu gördüğünüz. Eğer sadece grip virüsünü alırsanız, dünyada insanların ölümüne neden olan bir grip salgını olduğu zamanlarda pik yaptığını görürsünüz.
ELA: Eğer hala deniz seviyesinin yükseldiğine ve atmosferik CO2 ve yerkürenin ısısının arttığına ikna olmadıysanız buna bakabilirsiniz.
JM: Ya da bu diğer n-grama bakarsanız, Nietzsche'ye Tanrıinın ölmediğini söyleyebilirsiniz, ama siz de kabul edeceksiniz ki daha iyi bir halkla ilişkiler uzmanına ihtiyacı var.
ELA: Bu tip birşeyi kullanarak epey soyut kavramlara varabilirsiniz. mesela izin verin size 1950 yılının hikayesini anlatayım. Tarih boyunca 1950 yılı kimsenin pek de umrunda olmadı. 1700'ler, 1800'ler veya 1900'lerde kimsenin umrunda değildi. 30'lar ve 40'larda da öyle. Kimse takmadı. Birden, 40'lı yılların ortasında, bir uğultu ortaya çıkmaya başladı. İnsanlar 1950'nin yaklaştığını fark ettiler, ve bu büyük bir olaydı. (Gülüşmeler) Ama 1950'lerde hiçbir şey insanları 1950 yılı kadar çok ilgilendirmedi. (Gülüşmeler) İnsanlar kafayı yemişlerdi, 1950'de yaptıkları şeykeri anlatmaktan başka hiçbir şey yapmadan ortalıkta dolanıyorladı, 1950'de yapmayı planladıkları şeyler, 1950'de kavuşmayı umdukları bütün hayalleri. Aslında, 1950 öylesine inanılmazdı ki, geçtikten yıllarca sonra bile, bu müthiş yıl ve onda olup bitenlerden bahsettiler. 1951, 52, 53 yıllarında. Sonunda 1954 yılında biri uyandı ve nihayet insanlar 1950'nin geçip gitmiş olduğunu fark ettiler. (Gülüşmeler) Birdenbire, patlayan bir balon gibi.
Ve 1950 yılının hikayesi aslında yaşadığımız her yılın hikayesi. Ufak tefek farklılıklar, çünkü artık bu güzel grafiklere sahibiz. Bunlara sahip olduğumuz için bazı şeyleri ölçümleyebiliyoruz. Böylece şunu sorabiliyoruz, "Balonun patlaması ne kadar sürer?" ve görünen o ki artık bunu oldukça hassas şekilde ölçebiliyoruz. Formüller yazıyor, grafikler çiziyoruz, ve net sonuç şu ki her geçen yıl bu baloncuklar daha kolay sönüyor. Her geçen yıl geçmişe olan ilgimizi daha büyük bir hızla kaybediyoruz.
JM: Siz ufak bir kariyer önerisi. Eğer aranızda ünlü olmayı planlayanlar varsa, bu 25 ünlü politik figürden, yazardan ve aktörden birşeyler öğrenebilirsiniz. Eğer genç yaşta ünlü olmak isterseniz, aktör olmalısınız, çünkü onlar 20'li yaşların sonunda ünlü olmaya başlıyorlar -- hala genç bir yaş, süper. Eğer biraz daha bekleyecek olursanız, o zaman yazar olmalısınız, çünkü o zaman çok ama çok ünlü olabilirsiniz. Mark Twain gibi mesela: çok çok ünlü. Ama en tepeye ulaşmak istiyorsanız, o zaman ünlü olmak için daha beklemeli ve elbette ki poitikacı olmalısınız. Böylece 50 yaş civarında ünlü olabilir, ve hayatınızın sonrasını çok ama çok ünlü geçirebilirsiniz. Bilimadamlar çok daha geç yaşlarda ünlü oluyorlar. Mesela biyologlar ve fizikçiler neredeyse aktörler kadar ünlü olabilirler. Ama yapacağınız en büyük hata Matematikçi olmak olacaktır. (Gülüşmeler) Eğer bunu yaparsanız, şöyle düşünebilirsiniz, " Şahane, 20'li yaşlarda en önemli çalışmalarımı yapacağım." Ama bilin bakalım ne olacak: kimse sizi umursamayacak.
ELA: n-gramlardan elde edebileceğiniz daha fena veriler de var. Mesela, Marc Chagall'ın trajedisini ele alalım. 1887 yılında doğmuş bir sanatçı. Bu gördüğünüz ünlü bir insanın normal grafiğini gösteriyor. her geçen gün daha ünlü oluyor, ama eğer Almanca kayıtlara bakarsanız, Almanca kayıtlarda çok acaip birşey göreceksiniz, daha önce pek görmediğiniz birşey. Çok çok ünlü olurken, birden bire adeta yok oluyor. 1933-1945 yılları arasında birden bire düşüyor, daha sonra da tekrar yükseliyor. Ve burada gördüğümz şeyin açıklaması da Marc Chagall'ın Nazi Almanyası'nda Yahudi bir sanatçı olmaından kaynaklanıyor.
Bu işaretler öylesine güçlü ki birinin sansürlendiğini önceden bilmenize gerek yok. Bunu basit veri işleme yolu ile kendiniz bulabilirsiniz. İşte bunu yapmanın basit bir yolu. Bir kimsenin herhangi bir zamandaki ün miktarı, kabaca ünlü olmadan önceki ve ünlü olduktan sonraki ün miktarlarının ortalaması olmalıdır. Görmeyi beklediğimiz şey budur. Ve bu veriyi gözlemlediğimiz ünle karşılaştırırız. Sonra bunları birbirine bölerek baskılama indeksi dediğimiz bir rakam buluruz. Eğer baskılama indeksi çok çok küçük bir rakamsa, baskılanmış olma ihtimaliniz çok yüksektir. Eğer çok büyükse o zaman da propogandayla pomplanmış olma ihtimaliniz vardır.
JM: Şimdi, eğer toplumların genel baskılanma indekslerinin dağılımına bakacak olursanız, mesela burada -- 5000 kişinin baskılama indeksleri var, bilinen bir baskılama olmayan İngilizce kitaplar bunlar -- buna benzer birşey olacaktır, ortada yoğunlaşıyor. Kısaca görmeyi beklediğiniz şey ile gördüşünüz aynıdır. Almanya'da gördüğümüz dağılım ise bu -- çok farklı, sola doğru kaymış durumda. İnsanlar bunlar hakkında konuşmuş olmaları gerekenin yarısı kadar konuşmuşlar, daha da önemlisi, dağılım çok daha geniş. Dağılımın en solunda yer alan pek çok insan var, bunlar haklarında beklenenden 10 kat daha az konuşulmuş olan insanlar. Ama en sağda da başkaları var. Bunlar da propoganda'dan faydalanmış kimseler. Bu şekil, kitaplardaki sansürün fotoğrafı.
ELA: Biz bu yönteme Kültüromik adını verdik. Biraz Genomik gibi. Ancak genomik insan genomundaki baz dizilimi aracılığı ile biyoloji bilimine bir pencere açıyor. Kültüromik de buna benziyor. İnsan kültrünü incelemek için yapılan çok yoğun bir veri toplama analizi uygulaması. Burada, genomdaki pencere yerine dijital hale getirilmiş tarihsel verilerin penceresinden bakıyoruz. Kültüromik ile ilgili müthiş olan şey bunu herkesin yapabiliyor olması. Nasıl herkes yapabilir? herkes yapabilir, çünkü üç kişi Google'da çalışan Jon Orwant, Matt Gray ve Wıll Brockman, Ngram prototipine baktılar ve dediler ki, " Bu çok eğlenceli birşey. Bunu herkesin ulaşabileceği hale getirmemiz lazım." Ve iki hafta içinde -- bizim makalemiz yayınlanmadan iki hafta önce -- herkesin kullanımına açık bir Ngram versiyonu programladılar. ve artık siz de ilginizi çeken bir kelime ya da deyim yazarak ona ait n-gramı hemen görebilirsiniz -- ve sizin n-gramınızın yer aldığı kitapları tarayabilirsiniz.
JM: Bu uygulama, hayata geçtiği ilk gün ir milyonda defadan fazla kullanıldı, ve bu bence en güzel sorgulardan biri. İnsanlar iyi bir şey yapmak istediklerinde "ellerinden geleni yaptılar" ama görünen o ki, 18. yüzyılda bunu pek umursamıyorlardı. O zaman "ellerinden geleni" değil, "evlerinden geleni" yapmak istediler. Aslında olan şu, be elbette bir hata. Gayret etmeyi bırakmadılar, sadece o dönemde L harfi daha farklı yazılıyordu, V'ye beziyordu biraz. Elbette, Google bunu o zaman yakalayamadı, bu nedenle bunu yazdığımız makaleye ekledik. Ama görünen o ki, bu her ne kadar eğlenceli birşey olsa da, bize şunu anımsattı bu grafikleri anlamlandırırken çok dikkatli olmanız gerekiyor. ve mutlaka bilimsel yöntemdeki temel standartları gözetmelisiniz.
ELA: İnsanlar bunu her türlü eğlenceli şey için kullanıyorlar. (Gülüşmeler) Aslında bundan sonra konuşmamız gereksiz, size sadece bazı slaytları üzerinde konuşmaksızın göstereceğiz. Bu kişi, düşkırıklığının, sıkıntının tarihçesi ile ilgileniyormuş. Düşkırıklığının birkaç çeşidi vardır. Eğer ayak parmağınızı bir yere çarpacak olursanız bu tek A harfli bir "Ah" demek. Eğer gezegenimiz dünya gezegenler arası otoyol yapmak isteyen Vogonlar tarafından işgal edilecek olursa, bu sekiz A değerinde bir "Aaaaaaaah" eder. Bu kişi bütün "Ahéları incelemiş. Tek A'lıdan sekiz A'lısına dek. Ve görmüş ki, daha can sıkıcı şeylere ait "Ah"lar daha az sıklıkla ortaya çıkıyor, ama 80'li yılların başları hariç. Biz bu durumun Reagan ile ilgili olduğunu düşünüyoruz.
JM: Bu verilerin pek çok kullanım alanı var ama nihayetinde, bunlar tarihsel kayıtların dijital veriler hakine çevrilmesi. Google, 15 milyon kitabı dijital hale getirdi. Bu, bugüne dek basılmış kitapların %12'si demek. İnsanlığa ait kültür birikimin kayda değer bir kısmı. Kültüre ait daha pek çok veri var: yazmalar, gazeteler, yazılı olmayan şeyler, sanat ve tablolar gibi. Bunların hepsi dünyanın dört bir yanındaki bilgisayarlarımıza geçebilir. Ve bu olduğunda, insanlığın geçmişi, bu günü ve tüm yarattığı kültüre bakış açımız tamamen değişecek.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation, or join one of these:
Google Labs'ın Ngram Görüntüleyicisini hiç denediniz mi? Size yüzyıllara yayılmış 5 milyon kitabın arasından kelimeleri ve fikirleri aramanızı sağlayan bağımlılık yaratan bir araç. Erez Lieberman Aiden ve Jean-Baptiste Michel bizlere nasıl çalıştığını ve 500 milyar kelimeden öğrenebileceğimiz bazı ilginç şeyleri gösteriyorlar.
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio »
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio »
Translated into Turkish by Isil Arican
Reviewed by Sancak Gülgen
Comments? Please email the translators above.
Ladies and gentlemen, a picture is not worth a thousand words. We found some pictures that are worth 500 billion words.” (Erez Lieberman Aiden)
20:06 Posted: Sep 2008
Views 221,325 | Comments 44
18:18 Posted: May 2011
Views 511,721 | Comments 69
05:35 Posted: May 2011
Views 295,386 | Comments 113
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign out.