Luis von Ahn
1,796,171 views • 16:39

Kaçınız buna benzer şekli bozulmuş bir karakter dizisini okumanızı gerektiren bir web formu doldurmak zorunda kaldınız? Kaçınız bunu gerçekten ama gerçekten sinir bozucu buluyor? Pekala, harika. Bunu ben icat ettim. (Gülüşmeler) Ya da icat edenlerden biriydim.

Bu şeye CAPTCHA deniyor. Ve bunun orada olmasının nedeni formu dolduran kişinin, sizin, formu milyonlarca defa göndermeye programlanmış bir bilgisayar programı değil, insan olduğunuzdan emin olmak. İşe yarıyor çünkü insanlar, en azından görme engelli olmayan insanlar, şekli bozulmuş dalgalı karakterleri okumakta sorun yaşamıyorlar, fakat bilgisayarlar bunu henüz yapamıyorlar. Örneğin, Ticketmaster'ın durumunda, bu şekli bozuk karakterleri yazmanızın nedeni, bilet karaborsacılarının ikişer defa milyonlarca bilet alabilen bir program yazmalarını engellemek.

CAPTCHA'lar bütün İnternet'te kullanılıyor. Ve çok sık kullanıldıklarından, birçok kez kullanıcının karşısına rastgele karakterlerin düzgün sıralanmış olarak çıkması olağan. Örneğin bu Yahoo'nun kayıt sayfası. Kullanıcının karşısına çıkan rastgele karakterler şunlardı W,A,I,T (bekle), tabi ki bu aynı zamanda bir kelime. Ama işin en iyi kısmı Yahoo'nun yardım masasına 20 dakika sonra gelen mesaj. Yazı: "Yardım edin! 20 dakikadır bekliyorum ama hiçbir şey olmuyor." (Gülüşmeler) Bu kişi beklemeleri gerektiğini düşünmüş. Bu tabi ki, bu zavallı kişininki kadar kötü değil.

(Gülüşmeler)

CAPTCHA Projesi burada Carnegie Mellon'da 10 yıl önce yaptığımız birşey, ve her yerde kullanılıyor. Şimdi size bundan birkaç yıl sonra yaptığımız bir projeden bahsedeyim, ki bu CAPTCHA'nın bir çeşit evrimleşmiş hali. Bu projeye reCAPTCHA diyoruz, burada Carnegie Mellon'da başlattığımız birşey, sonra bunu yeni kurulmuş bir şirkete çevirdik. Ve yaklaşık bir buçuk yıl sonra, aslında Google bu şirketi satın aldı.

Size bu projenin neyi başlattığını anlatayım. Bu proje arka arkaya gelen kavrayışlarla başladı: Anlaşıldı ki dünyanın her yerinde insanlar hergün yaklaşık 200 milyon CAPTCHA yazıyor. Bunu ilk duyduğumda, kendimle gerçekten gurur duydum. Şöyle düşündüm, araştırmamın yarattığı etkiye bakın. Ama sonra kendimi kötü hissetmeye başladım. Olay şu, her bir CAPTCHA yazışınızda, aslında hayatınızın 10 saniyesini harcıyorsunuz. Ve bunu 200 milyonla çarptığınızda, şu sonuç çıkıyor, tüm insanlık hergün bu sinir bozucu CAPTCHA'ları yazarak günde yaklaşık 500,000 saat harcıyor. Sonra kendimi kötü hissetmeye başladım.

(Gülüşmeler)

Ve sonra düşünmeye başladım, tabi ki, CAPTCHA'lardan vazgeçemeyiz, çünkü Web güvenliği bir şekilde onlara dayanıyor. Ama sonra bu uğraşıyı insanlığa faydalı olacak bir şekilde kullanabilir miyiz diye düşünmeye başladım? Görüyorsunuz, olay bu. Bir CAPTCHA yazarkenki 10 saniye içinde, beyniniz muhteşem birşey yapıyor. Beyniniz henüz bilgisayarların yapamadığı birşeyi yapıyor. Peki size bu 10 saniye içinde bu faydalı işi yaptırabilir miyiz? Başka bir deyişle, henüz bilgisayarların çözemediği, bir kişinin her CAPTCHA çözüşünde bu sorunun da bir kısmını çözmesini sağlayan 10 saniyelik küçük parçalara bölebileceğimiz büyük sorunlar var mı? Ve bunun cevabı "evet", ve şu an bunu yapıyoruz.

Şunu bilmiyor olabilirsiniz ama bugünlerde CAPTCHA'yı yazarken sadece insan olduğunuzu doğrulamakla kalmıyor, aynı zamanda aslında bize kitapları dijitalleştirmemizde yardımcı oluyorsunuz. Size nasıl çalıştığını anlatayım. Kitapları dijitalleştirmeye çalışan çok fazla proje var. Google'ın var.The Internet Archive'in var. Amazon, şimdi Kindle ile, kitapları dijitalleştirmeye çalışıyor. Temelde şöyle çalışıyor eski bir kitapla başlıyorsunuz. Bunlardan daha önce gördünüz, değil mi? Kitap gibi? (Gülüşmeler) Bir kitapla başlıyorsunuz ve sonra onu tarıyorsunuz.

Şimdi bir kitabı taramak kitabın her sayfasının dijital fotoğrafını çekmek gibi birşey. Kitabın her sayfası için bir resim veriyor size. Bu kitabın her sayfası için bir yazılı resim. Süreçteki bir sonraki adımda bilgisayarın bu resimdeki tüm kelimeleri deşifre etmesi gerekiyor. Bunun için OCR isimli bir teknoloji kullanıyor, optik karakter tanımlaması için, yazının fotoğrafı gerekiyor ve yazıyı çözmeye çalışıyor. Sorun şu ki OCR mükemmel değil. Özellikle mürekkebin solduğu ve sayfaların sarardığı daha eski kitaplarda, OCR tüm kelimeleri tanıyamıyor. Örneğin, 50 yıl önce yazılmış şeylerde, bilgisayar kelimelerin yaklaşık yüzde 30'unu tanıyamıyor. Bu yüzden şunu yapıyoruz, bilgisayarın tanıyamadığı bütün kelimeleri alıyoruz ve insanların İnternette bir CAPTCHA yazarken bunları bizim için okumalarını sağlıyoruz.

Yani bir daha ki sefere bir CAPTCHA yazdığınızda, yazdığınız kelimeler aslında dijitalleştirilmekte olan kitapların bilgisayarın tanıyamadığı kelimeleri olacak. Ve artık günümüzde bir yerine iki kelimenin olmasının nedeni şu, görüyorsunuz, kelimelerden biri sistemin kitaptan bulduğu bir kelime, ne olduğunu bilmiyordu ve bunu size sunacak. Ama bunu cevabını bilmediği için bunu sizin için puanlayamaz. Bu yüzden size bir kelime daha veriyoruz, bilgisayarın cevabını bildiği bir kelime. Size hangisinin hangisi olduğunu söylemiyoruz ve ikisini de yazmanızı istiyoruz. Ve eğer sistemin çoktan cevabını bildiği doğru kelimeyi yazarsanız, sizi insan olarak kabul eder, ve ayrıca diğer kelimeyi de doğru yazdığınızı düşünür. Ve bu süreci 10 farklı kişi için tekrar edersek ve hepsi yeni kelimenin ne olduğu konusunda hem fikir olursa, bir kelimeyi daha doğru bir şekilde dijitalleştirmiş oluyoruz.

Yani sistem bu şekilde işliyor. Ve aslında, bunu yapmaya başlayalı üç ya da dört yıl geçti, birçok websitesi insanların vakitlerini harcadıkları eski CAPTCHA'yı insanların kitapları dijitalleştirmeye yardımcı olduğu yeni CAPTCHA ile değiştirmeye başladı. Örneğin, Ticketmaster. Yani Ticketmaster'dan her bilet alışınızda bir kitabı dijitalleştirmeye yardım ediyorsunuz. Facebook: Her yeni arkadaş eklediğinizde veya birini dürttüğünüzde, bir kitabı dijitalleştirmeye yardım ediyorsunuz. Twitter ve yaklaşık 350,000 başka site reCAPTCHA'yı kullanıyor. Ve aslında, reCAPTCHA'yı kullanan sitelerin sayısı o kadar fazla ki, bir günde dijitalleştirdiğimiz kelimelerin sayısı gerçekten çok fazla. Günde yaklaşık 100 milyon, ki bu da yılda yaklaşık iki buçuk milyon kitaba eşdeğer. Ve bu insanların İnternette CAPTCHA'ları yazmasıyla her seferde tek kelime ile oluyor.

(Alkış)

Tabi ki, günde çok fazla kelime yazdığımız için, komik şeyler olabiliyor. Bu gerçekten doğru çünkü insanlara rastgele seçilmiş İngilizce kelimeleri yan yana veriyoruz. Çok komik şeyler olabiliyor. Örneğin, bu kelimeyi sunduk. "Christians" (Hristiyanlar) kelimesi, bunda bir sorun yok. Ama bunu rastgele seçilen başka bir kelimeyle sunduğunuzda, kötü şeyler olabilir. Başımıza bu geliyor. (Yazı: kötü hristiyanlar) Daha da kötüsü, bunu gösterdiğimiz sitenin adı Tanrı'nın Krallığının Elçiliği'ydi. (Gülüşmeler) Oops. (Gülüşmeler) İşte gerçekten kötü olan başka bir tanesi. JohnEdwards.com (Yazı: Kahrolası liberal) (Gülüşmeler) Yani hergün solcu ve sağcıları aşağılamaya devam ediyoruz.

Tabi ki, sadece insanları aşağılamakla kalmıyoruz. Olay şu, iki rastgele seçilmiş kelime sunduğumuz için, ilginç şeyler olabiliyor. Hatta bu durum on binlerce insanın katıldığı bir İnternet etkinliğine neden oldu, buna CAPTCHA sanatı deniyor. Eminim bir kaçınız bunu duymuştur. Bu şekilde oluyor. Düşünün ki İnterneti kullanıyorsunuz ve bir şekilde tuhaf olduğunu düşündüğünüz bir CAPTCHA görüyorsunuz, bu CAPTCHA gibi. (Yazı: görünmez tost makinesi) Sonra yapmanız gereken şey bunun ekran resmini çekmek. Sonra tabi ki, CAPTCHA dolduruyorsunuz çünkü bize bir kitabı dijitalleştirmede yardım ediyorsunuz. Ama sonra, önce ekran resmi çekiyorsunuz, ve sonra onunla alakalı birşey çiziyorsunuz. (Gülüşmeler) İşte bu şekilde çalışıyor. Bunlardan on binlerce var. Bazıları çok sevimli. (Yazı: avucumun içinde) (Gülüşmeler) Bazıları daha komik. (Yazı: Kafası güzel kurucular) (Gülüşmeler) Ve bazılarında, paleontolojik shvisle gibi, Snoop Dogg kullanılıyor.

(Gülüşmeler)

Pekala, bu benim favori reCAPTCHA rakamım. Bu tüm projeyle ilgili en sevdiğim şey. Bu reCAPTCHA sayesinde bir kitabın en az bir kelimesini dijitalleştirmede yardımcı olan net kişi sayısı: 750 milyon, bu, dünya nüfusunun yüzde 10'undan biraz fazla, bu kadar kişi bilgiyi dijitalleştirmemize yardım etti. Ve bunun gibi rakamlar araştırma gündemimi harekete geçiriyor. Beni araştırmaya sevk eden şey şu: Eğer insanların büyük ölçekli başarılarına bakarsanız, insanlığın tarihi açıdan beraber yaptıkları gerçekten büyük şeyler — örneğin, Mısır piramitlarini ya da Panama Kanalını inşa etmek ya da Ay'a adam göndermek — bunlarla ilgili garip bir gerçek var, ve bu da şu, bunların hepsi aynı sayıda insanla yapıldı. Çok garip; hepsi yaklaşık 100,000 insanla yapıldılar. Ve bunun nedeni, İnternetten önce, 100,000 insanı bir araya getirmek, onlara ödeme yapmayı bir kenara bırakın, kesinlikle imkansız. Ama şimdi İnternetle, size bilgiyi dijitalleştirmemize yardım eden 750 milyon insanın katıldığı bir projeyi gösterdim. Yani beni araştırmaya sevk eden soru şuydu, eğer 100,000 kişiyle bir adamı Ay'a gönderebiliyorsak, 100 milyon kişiyle ne yapabiliriz?

Bu soruyu temel alarak, üzerinde çalıştığımız çok farklı projeler geliştirdik. Size beni en çok heyecanlandıranından bahsedeyim. Bu yaklaşık bir buçuk yıldır üzerinde çok da ses çıkarmadan çalıştığımız bir proje. Site henüz açılmadı. Adı Duolingo. Henüz açılmadığı için, şişt! (Gülüşmeler) Evet, size güvenebilirim. Proje bu. Şu şekilde başladı. Mezun olmuş bir öğrencime bir soru yöneltmemle başladı, Severin Hacker'a. Evet, bu Severin Hacker. Mezun olan öğrencime bir soru yönelttim. Bu arada, beni doğru duydunuz; soyadı Hacker (Bilgisayar korsanı) Ona şu soruyu sordum: Nasıl 100 milyon insana Web'i ücretsiz olarak her anadile çevirtebiliriz?

Bu soruyla ilgili söylenebilecek çok şey var. Öncelikle, Web'i çevirmek. Şu an Web çok fazla dile bölünmüş durumda. Büyük kısmı İngilizce. Eğer hiç İngilizce bilmiyorsanız, kullanamazsınız. Başka diller de büyük ölçüde kullanılıyor, ve eğer bu dilleri bilmiyorsanız, kullanamazsınız. Web'in tamamını en azından büyük bir kısmını çevirmek istiyorum, her anadile. Yapmak istediğim bu.

Bazılarınız şöyle diyebilir, neden bunun için bilgisayar kullanmıyoruz? Neden makine çevirisini kullanamıyoruz? Makine çevirisi bu günlerde oradan buradan bazı cümleleri çevirmeye başlıyor. Neden bunu tüm Web'i çevirmek için kullanamıyoruz? Sorun şu ki, bu sistem henüz yeterince iyi değil, ve muhtemelen önümüzdeki 15 ila 20 yıl içinde de olmayacak. Çok fazla hata yapıyor. Hata yapmadığında bile, çok fazla hata yaptığı için, doğruluğuna güvenmeli misiz bilmiyorsunuz.

Size makine ile çevrilmiş birşeyin örneğini göstereyim. Aslında bu foruma yazılmış bir yazı. JavaScript hakkında soru sormaya çalışan bir kişiymiş. Japoncadan İnglizceye çevrilmiş. Sadece okuyacağım. Bu kişi bilgisayar kullanarak çeviri yaptığı için özür dilerek başlıyor. Bir sonraki cümle sorunun giriş kısmı olacak. Birşeyi açıklıyor. Unutmayın, bu JavaScript hakkında bir soru. (Yazı: Çoğu zaman, keçi zamanı kusma hatası yüklüyor.) (Gülüşmeler) Sonra sorunun ilk kısmı geliyor. (Yazı: Kaç kere rüzgar gibi, bir kazık ve ejderha?) (Gülüşmeler) Sonra sorunun en sevdiğim kısmı geliyor. (Yazı: Bu babanın taşlarına hakaret mi?) (Gülüşmeler) Ve sonra son kısım, ki bu tüm yazının en sevdiğim kısmı. (Yazı: Lütfen aptallığın için özür dile. Sana çok teşekkür var) (Gülüşmeler) Tamam, yani bilgisayar çevirisi henüz yeterince iyi değil. Soruya geri dönelim.

Yani tüm Web'i çevirmek için insanlara ihtiyacım var. Şimdi soracağınız bir sonraki soru şu olabilir, neden bunun için insanları işe almıyoruz? Tüm Web'i çevirmek için profesyonel çevirmenleri işe alabilirdik. Bunu yapabilirdik. Malesef, son derece pahalı olurdu. Örneğin tüm Web'in, Wikipedia'nın küçük, çok küçük bir kısmını başka bir dile, İspanyolcaya çevirmek. Wikipedia'nın İspanyolcası var, ama İngilizce olanına kıyasla çok küçük bir oranda. İngilizce olanın yaklaşık yüzde 20'si kadar. Eğer kalan yüzde 80'i İspanyolcaya çevirmek isteseydik, 50 milyon dolara malolurdu — ve bu en çok sömürülen, dış kaynakları kullanılan bir ülkenin şartlarında. Yani çok pahalı olurdu. Bizim yapmak istediğimiz şeyse 100 milyon insana Web'i her anadile tercüme ettirmek, bedavaya.

Eğer yapmak istediğiniz şey buysa, iki oldukça büyük engelle karşılaşacağınızı çabucak fark ediyorsunuz. İlki iki dile de hakim kişilerin azlığı. Bize tercüme yapmakta yardımcı olmaya yetecek kadar iyi iki dil kullanabilen 100 milyon kişi var mıdır bilmiyorum. Bu büyük bir sorun. Karşılaşacağınız bir diğer problem ise motivasyon eksikliği. İnsanları Web'i bedavaya tercüme etmeleri için nasıl motive edebiliriz? Normalde, bunun için insanlara ödeme yaparsınız. Peki onları bunu bedavaya yapmaya nasıl motive ederiz? Bunu düşünmeye başladığımızda, bu iki konu bizi engelledi. Ama sonra fark ettik ki, aslında bu iki sorunu aynı çözüm yoluyla aşabiliriz. Bir taşla iki kuş vurmanın bir yolu var. Ve bu da tercüme yapmayı milyonlarca insanın yapmak isteyeceği bir hale, ve ayrıca iki dile hakim olamama sorununa çözüm bulmaya, ve dil eğitimine dönüştürmek.

Bugün görüyoruz ki, 1.2 milyardan fazla insan yabancı dil öğreniyor. İnsanlar gerçekten yabancı bir dil öğrenmek istiyor. Ve sadece okulda yapmak zorunda oldukları için değil. Örneğin, yalnızca Amerika Birleşik Devletleri'nde, yeni bir dil öğrenmek için yazılımlara 500 dolardan fazla para veren beş milyondan fazla kişi var. Yani insanlar gerçekten yeni bir dil öğrenmek istiyor. Son bir buçuk yıldır yeni bir websitesi üzerinde çalışıyoruz — adı Duolingo — ana fikir insanların Web'i eş zamanlı tercüme ederek ücretsiz olarak yeni bir dil öğrenmesi. Ve temelde yaparak öğreniyorlar.

Şu şekilde işliyor eğer başlangıç seviyesinde biliyorsanız çok çok basit cümleler veriyoruz. Tabi ki Web'te çok fazla kolay cümle var. Çok, çok basit cümleler veriyoruz beraberinde de her kelimenin anlamını. Tercüme ederek ve başkalarının nasıl tercüme ettiğini görerek, dili öğrenmeye başlıyorsunuz. Ve siz dili ilerlettikçe, çok daha karmaşık cümleleri tercüme etmenizi istiyoruz. Ama her zaman yaparak öğreniyorsunuz.

Bu metodla ilgili çılgınca olan şeyse gerçekten işe yarıyor olması. Herşeyden önce insanlar gerçekten yeni bir dil öğrenmek istiyor. Sistemi kurmayı bitirdik ve şu an test ediyoruz. İnsanlar gerçekten bu yöntemle bir dil öğrenebilirler. Ve neredeyse en iyi dil öğrenme yazılımında olduğu kadar iyi öğreniyorlar. Yani insanlar gerçekten bir dil öğreniyor. Ve hem iyi hem de ilginç bir yöntemle öğreniyorlar. Çünkü görüyorsunuz, insanlar gerçek içeriklerle öğreniyorlar. Uydurma cümleler yerine kendiliğinden ilginç olan gerçek içeriklerle öğreniyorlar. Yani insanlar gerçekten bir dil öğreniyorlar.

Ve şaşırtıcı bir şekilde, bu siteyi kullananların çevirileri, daha başlangıç seviyesinde olmalarına rağmen, profesyonel çevirmenlerin çevirileri kadar iyi, ki bu çok şaşırtıcı. Size bir örnek göstereyim. Bu Almancadan İngilizceye çevrilmiş bir cümle. Üstteki Almanca. Ortadaki bu çeviri için kelime başına 20 sent alan profesyonel bir İngilizce çevirmen tarafından yapılan İngilizce çeviri. Alttaki ise Duolingo kullanıcıları tarafından yapılan bir çeviri, bu siteyi kullanmaya başlamadan önce hiçbiri Almanca bilmiyordu. Görüyorsunuz, neredeyse mükemmel. Tabi ki,çevirilerin profesyonal çevirmenlerinkiler kadar iyi olabilmesi için burada biraz hile yapıyoruz. Tek bir profesyonel çevirmenin kalitesine ulaşmak için birçok yeni başlayanın çevirisini birleştiriyoruz.

Çevirileri birleştirsek bile, site oldukça çabuk çevirebiliyor. Göstereyim, bu Wikipedia'yı İngilizceden İspanyolcaya ne kadar hızlı çevirebileceğimizin hesabı. Unutmayın, bu 50 milyon dolar değerinde. Wikipedia'yı İspanyolcaya çevrmek isteseydik, bunu 100,000 aktif kullanıcıyla beş hafta içinde yapabilirdik. Ve bir milyon aktif kullanıcıyla ise yaklaşık 80 saatte yapabilirdik. Grubumun şimdiye kadar üzerinde çalıştığı tüm projelerin milyonlarca kullanıcısı olduğu için, bu projeyle son derece hızlı bir şekilde çevirebileceğimizi düşünüyoruz.

Duolingo ile ilgili beni en çok heyecanlandıran şey dil eğitimi için adil bir iş modeli ihtiyacını karşılıyor olması. Olay şu: Dil eğitiminin mevcut iş modelinde öğrenci para ödüyor, ve özellikle, öğrenci Rosetta Stone'a 500 dolar ödüyor. (Gülüşmeler) Bu mevcut iş modeli. Bu iş modeliyle ilgili sorun şuydu dünya nüfusunun yüzde 95'inin 500 doları yok. Yani bu fakirler için son derece adaletsiz bir durum. Tamamiyle zenginlerden yana bir durum. Şimdi bakın, Duolingo'da, Öğrenirken aynı zamanda değer yaratıyorsunuz, birşeyler çeviriyorsunuz — örneğin, birini çeviri yapmak için görevlendirebilirdik. Bu şekilde finanse edebilirdik. İnsanlar öğrenirken değer yarattıkları için, para ödemek zorunda değiller, zamanlarıyla ödeme yapıyorlar. Ama bunda büyüleyici olan şey, zamanlarıyla ödeme yapıyorlar, ama bu aynı zamanda dil öğrenirken bir şekilde harcamak zorunda oldukları zaman. Duolingo'nun güzel yani adil bir iş modeli sunuyor olması — fakirlere karşı ayırım yapmayan bir model olması.

İşte site bu. Teşekkürler. (Alkış) İşte site burada. Site henüz açılmadı, ama oraya gidip, özel betamızın bir parçası olmak için üye olabilirsiniz, muhtemelen yaklaşık üç, dört haftaya kadar faaliyete geçecek. Bu Duolingo'yu henüz açmadık.

Bu arada, burada konuşan benim, ama aslında Duolingo bazılarının burada olduğu gerçekten müthiş bir takımın çalışması. Teşekkürler.

(Alkış)