Koliko vas je pri izpolnjevanju spletnih obrazcev moralo razbrati tak popačen niz znakov? Kolikim se zdi to res zoprno? Prav, krasno. To sem torej izumil jaz. (Smeh) Bil sem eden od izumiteljev.
Ta reč se imenuje CAPTCHA. Njen namen je, da zagotovi, da obrazec izpolnjuje človek in ne kak računalniški program, sprogramiran, da nepretrgoma oddaja obrazce. Stvar deluje, ker ljudje, vsaj tisti, ki niso slabovidni, brez težav prepoznajo te popačene znake, računalniški programi pa tega še ne zmorejo tako dobro. Na strani Ticketmaster z vpisom teh skrivljenih znakov preprečite preprodajalcem vstopnic, da bi ustvarili program, ki bi jih lahko po dve naenkrat kupil na tisoče.
CAPTCHE se uporabljajo širom spleta. Zaradi pogostosti pojavljanja je rezultat vrstnega reda znakov, ki se izpiše, pogosto precej ponesrečen. Tu je primer s strani za prijavo na Yahoo. Naključni znaki, ki jih je moral uporabnik vpisati, so W, A, I, T, kar seveda tvori besedo (počakaj). Še bolj zanimivo pa je sporočilo, ki so ga na Yahoojevi podpori uporabnikom prejeli 20 minut kasneje. Besedilo: "Na pomoč! Čakam že več kot 20 minut, a se ne zgodi nič." (Smeh) Ta uporabnik je torej mislil, da mora čakati. Še slabše jo je odnesla ta oseba. ("Ponovno zaženi")
S projektom CAPTCHA smo pri Carnegie Mellon začeli pred dobrim desetletjem in odtlej je v splošni uporabi. Želel pa bi vam predstaviti projekt, ki smo ga začeli nekaj let kasneje, neke vrste nadgradnjo CAPTCHE. Projekt se imenuje reCAPTCHA, z njim smo začeli pri Carnegie Mellon, nato pa je prerasel v mlado podjetje. Pred letom in pol je Google podjetje tudi prevzel.
Naj vam predstavim projekt. Osnova je bilo spoznanje, da se približno 200 milijonov CAPTCH vsakodnevno vtipka po vsem svetu. Ko sem to slišal, sem bil ponosen nase. Vesel sem bil, da je moje delo imelo tak vpliv. Nato pa sem se začel počutiti slabo. Vsakič ko vtipkate CAPTCHO, namreč izgubite 10 sekund svojega časa. Če to pomnožite s 200 milijoni, vidite, da človeštvo vsak dan zapravi 500.000 ur med tipkanjem teh zoprnih CAPTCH. Počutil sem se slabo.
A kljub temu jih ne moremo kar prenehati uporabljati, saj na njih temelji varnost spleta. Hotel sem najti način, kako bi ta trud uporabnikov spremenili v nekaj dobrega za človeštvo. Gre namreč za to. Ko tipkate CAPTCHO, vaši možgani teh 10 sekund počnejo nekaj neverjetnega. Nekaj, česar računalniki še niso sposobni. Kako lahko vaš trud teh 10 sekund uporabimo za nekaj koristnega? Z drugimi besedami, ali obstaja kakšna ogromna težava, ki je računalniki še ne morejo rešiti, lahko pa jo razdelimo na 10-sekundne delčke, da lahko vsakdo, ki razbere in vtipka CAPTCHO, hkrati reši delček te težave? Odgovor je "da" in s tem se trenutno ukvarjamo.
Morda še ne veste, da se dandanes ob vsakem vnosu CAPTCHE ne le istovetite kot ljudje, pač pa tudi pomagate pri digitalizaciji knjig. Naj razložim, kako deluje. Veliko projektov se ubada z digitalizacijo knjig. Taka sta tudi Google ter Internet Archive. Tudi Amazon preko Kindla dela na digitalizaciji knjig. To poteka tako, da začnemo s staro knjigo. Saj poznate te stvari, kajne? Knjige? (Smeh) Vzamemo torej knjigo in jo skeniramo.
To izgleda tako, kot bi posneli digitalno fotografijo vsake strani v knjigi. Dobimo torej podobo vsake strani, podobo z besedilom celotne knjige. Pri naslednjem koraku mora biti računalnik zmožen dešifrirati vse besede na tej podobi. Pri tem mu pomaga tehnologija OCR za optično prepoznavanje znakov, ki posname sliko besedila in ga poskuša razbrati. A tehnologija OCR ni popolna. Še posebej pri starejših knjigah z zbledelim črnilom in porumenelimi stranmi je mnogo besed, ki jih OCR ne prepozna. Pri besedilih, starejših od 50 let, računalnik ne razbere skoraj 30 odstotkov besed. Naše delo je, da zberemo vse besede, ki jih računalnik ne prepozna, in jih posredujemo ljudem, da jih preberejo in vtipkajo preko CAPTCHE na spletu.
Ko boste naslednjič vnašali CAPTCHO, bo to beseda iz knjige v postopku digitalizacije, ki je računalnik ni uspel razbrati. Dandanes pa CAPTCHE tvorita dve besedi in ne ena, in ena od njiju je beseda, ki jo je sistem potegnil iz knjige, je ni prepoznal in jo posredoval vam. A ker je ne pozna, ne ve, ali je vaš vnos pravi. Zato vam damo še drugo besedo, za katero sistem pozna odgovor. Vi ne veste, katera je katera, in vnesti je potrebno obe. In če prav vnesete besedo, na katero sistem že pozna pravilen odgovor, sklepa, da ste človek, in vam zaupa, da boste pravilno vnesli tudi drugo. Če ta postopek ponovimo pri 10 različnih ljudeh in vsi enako vnesejo pomen nove besede, s tem dobimo novo pravilno digitalizirano besedo.
Tako torej deluje ta sistem. Odkar smo s tem začeli pred tremi ali štirimi leti, je mnogo spletnih strani zamenjalo stare CAPTCHE, ki so zapravljale čas ljudi, za nove CAPTCHE, s katerimi digitaliziramo knjige. Tak je tudi Ticketmaster. Vsakič ko kupite vstopnice na Ticketmastru, pomagate pri digitalizaciji knjig. Vsakič ko na Facebooku dodate ali dregnete prijatelja, digitalizirate knjige. Twitter in še 350.000 drugih spletnih strani uporablja reCAPTCHE. Število strani z reCAPTCHO je že tako veliko, da je ogromno tudi število besed, ki se dnevno digitalizirajo, in sicer okrog 100 milijonov na dan, kar na letni ravni znese okrog 2,5 milijona knjig. Do tega pride le z eno besedo naenkrat, z vnašanjem CAPTCH na spletnih straneh.
Seveda pa se s pojavom tolikih besed v enem dnevu dogajajo tudi čudne stvari. Še posebej zdaj, ko uporabnikom posredujemo dve naključno izbrani angleški besedi hkrati. Včasih so kombinacije zelo zabavne. Lep primer je ta beseda. Pomeni "kristjani" in do tu še ni posebnosti. Če pa jo postavite zraven povsem naključno izbrane besede, je lahko rezultat ponesrečen. Nastane lahko to. (Besedilo: slabi kristjani) Še slabše postane, ko ugotovimo, da se je bila ta kombinacija pojavila na strani Ambasade božjega kraljestva. (Smeh) Ups. (Smeh) Tu je še en tak primer. JohnEdwards.com (Besedilo: Prekleti liberalec) (Smeh) Na ta način dnevno žalimo leve in desne.
Seveda pa ne gre le za žalitve. Ker gre za kombinacije dveh naključno izbranih besed, se dogajajo zanimive stvari. To je spodbudilo nastanek obsežnega spletnega fenomena, pri katerem sodeluje na desettisoče ljudi, imenovanega CAPTCHA umetnost. Gotovo je kdo od vas že slišal zanjo. Deluje pa tako. Zamislite si, da med uporabo spleta naletite na CAPTCHO, ki se vam zdi zanimiva, kot je na primer ta. (Besedilo: nevidni opekač) Nato naredite posnetek zaslona, ki jo prikazuje. Seveda sledi vnos CAPTCHE, saj pomagate digitalizirati knjigo. Najprej torej naredite posnetek zaslona, nato pa poskušate narisati njen pomen. (Smeh) Tako to poteka. Obstaja na desettisoče takih podob. Nekatere so zelo ljubke. (Besedilo: stisnil sem) (Smeh) Nekatere so bolj zabavne. (Besedilo: zadeti ustanovitelji) (Smeh) Ali pa ta, paleontološki shvisle, kjer nastopa Snoop Dogg.
Ta številka mi je pri reCAPTCHI najbolj všeč in me pri celotnem projektu najbolj navdušuje. To je število ljudi, ki so nam preko reCAPTCHE pomagali digitalizirati vsaj eno besedo iz knjige, 750 milijonov ljudi, dobrih 10 odstotkov svetovnega prebivalstva, nam je pomagalo digitalizirati človeško znanje. Številke, kot je ta, spodbujajo moje raziskovalne načrte. Vprašanje, ki vodi mojo raziskavo, je sledeče: pri velikopoteznih dosežkih človeštva, resnično velikih stvareh, ki so v zgodovini združevale človeštvo, kot je na primer gradnja piramid v Egiptu, Panamskega prekopa, ali človeška odprava na Luno, je zanimivo, da je pri vseh sodelovalo približno enako število ljudi. Zanimivo je, da so vse združevale okrog sto tisoč ljudi. Razlog za to je, da je bila v času pred spletom uskladitev več kot sto tisoč ljudi, kaj šele plač za njihovo delo, praktično nemogoča. Z uporabo spleta pa lahko izvedemo projekte, kot je ta, ki združuje 750 milijonov ljudi v postopku digitalizacije človeškega znanja. Pri mojem delu me zanima, če lahko sto tisoč ljudi pošlje človeka na Luno, kaj šele lahko stori sto milijonov?
Na tem vprašanju temelji še mnogo drugih projektov, s katerimi se ukvarjamo. Predstavil vam bom projekt, ki me najbolj navdušuje. Na njem smo na pol potiho delali zadnje leto in pol. Nismo ga še zagnali. Imenuje se Duolingo. Ker še ni zunaj, pšššt! (Smeh) Kot da vam lahko zaupam. To je ta projekt. Začel pa se je tako. Zastavil sem vprašanje svojemu študentu, Severinu Hackerju. To je Severin Hacker. Zastavil sem mu torej vprašanje. Mimogrede, prav ste slišali, piše se Hacker (heker). Vprašanje se je glasilo: kako pripraviti sto milijonov ljudi, da prevedejo spletne vsebine v vse velike jezike, in to brezplačno?
Pri tem vprašanju je treba povedati veliko stvari. Prvič, prevajanje spleta. Trenutno je splet razdeljen na veliko jezikov. Velik del je v angleščini. A če angleščine ne znate, vam ne koristi. Tu je še velik del spleta v drugih jezikih, a če jih ne poznate, vam ne koristi. Želel bi torej prevesti cel ali vsaj večino spleta v vsak veliki jezik. To torej želim doseči.
Nekateri boste rekli, zakaj ne morejo tega storiti računalniki? Zakaj ne moremo uporabiti strojnih prevodov? Strojno prevajanje dandanes že prevaja določene stavke. Zakaj ne bi mogli strojno prevesti celotnega spleta? Težava je, da je tak način prevajanja še zelo pomanjkljiv in ne bo zadovoljiv še naslednjih 15 do 20 let. Dela veliko napak. In tudi če ne naredi napake, mu zaradi prejšnjih napak ne zaupamo več popolnoma.
Naj vam pokažem primer strojnega prevoda. Gre za objavo na forumu. Nekdo je želel postaviti vprašanje o JavaScriptu. Gre za prevod iz japonščine v angleščino. Kar preberite. Ta oseba se opraviči, da se je poslužila strojnega prevoda. Naslednji stavek bo uvod v vprašanje. Tu nekaj razlaga. Ne pozabite, vprašanje zadeva JavaScript. (Besedilo: Pogosto kozji čas namestitev napake je bruhanje.) (Smeh) Nato pride prvi del vprašanja. (Besedilo: Kolikokrat kot veter, drog in zmaj?) (Smeh) Sledi pa meni najljubši del vprašanja. (Besedilo: Ta žalitev očetovih kamnov?) (Smeh) Zadnji del pa je najboljši. (Besedilo: Prosim oprosti za tvojo neumnost. Tam je veliko hvala.) (Smeh) Strojno prevajanje torej še ni zadovoljivo. Vrnimo se k vprašanju.
Potrebujemo ljudi za prevod celotnega spleta. Morda se sprašujete, zakaj preprosto ne moremo najeti ljudi za to? Lahko bi plačali poklicne prevajalce, da bi prevedli splet. Lahko bi. Na žalost bi bilo to nepredstavljivo drago. Vzemimo prevod majcenega delčka celotnega spleta, Wikipedije, v drug jezik, španščino. Wikipedija obstaja v španščini, a je njen obseg majhen v primerjavi z angleško različico. Predstavlja okrog 20 odstotkov angleške. Če bi hoteli prevesti ostalih 80 odstotkov v španščino, bi to stalo najmanj 50 milijonov dolarjev, in še to v najbolj izkoriščevalski in zatiralski državi. Bilo bi torej izjemno drago. Namesto tega želimo dobiti 100 milijonov ljudi, ki bi splet prevajali v vsak večji jezik brezplačno.
Pri takem cilju se moramo zelo hitro soočiti z dvema velikima preprekama, dvema velikima ovirama. Prva je pomanjkanje dvojezičnih ljudi. Nisem prepričan, da obstaja 100 milijonov uporabnikov spleta z zadostnim dvojezičnim znanjem, da lahko prevajajo. To je velika težava. Druga pa je pomanjkanje spodbude. Kako bomo spodbudili ljudi, da brezplačno prevajajo splet? Običajno tako delo zahteva plačilo. Kako naj jih torej spodbudimo k neprofitnemu delu? Ko smo začeli razmišljati o tem, sta nas ti težavi ovirali. Nato pa smo se domislili načina, kako ju odpraviti z le eno rešitvijo. Načinom, kako ubiti dve muhi na en mah. Prevajanje smo spremenili v nekaj, kar milijoni ljudi želijo delati, in kar hkrati odpravlja pomanjkanje dvojezičnih ljudi, in to je učenje jezika.
Izkazalo se je, da se danes več kot 1,2 milijarde ljudi uči tujega jezika. Ljudje se res želijo naučiti novih jezikov. In ne le zato, ker jih v to silijo v šoli. Le v ZDA, na primer, je pet milijonov ljudi plačalo več kot 500 dolarjev za nakup programa za učenje tujega jezika. Ljudje se resnično želijo naučiti novega jezika. Zadnje leto in pol smo torej delali na novi spletni strani, imenovani Duolingo, vodilna zamisel pa je brezplačno učenje novega jezika, ob katerem se hkrati prevaja splet. Uporabniki se učijo s prakso.
Deluje tako, da tudi začetniki dobijo izjemno preproste stavke, ki jih je na spletu seveda obilo. Dobite torej zelo preproste stavke skupaj s pomeni za vsako besedo. Ko jih prevedete in preverite prevod drugih, se s tem učite novega jezika. Ko napredujete, dobite v prevod bolj zapletene stavke. V vsakem primeru pa se učite s prakso.
Najbolj noro pri tej metodi pa je, da dejansko deluje. Prvič, ljudje se resnično učijo jezika. Program smo že postavili, sedaj ga testiramo. Ljudje se z njim resnično lahko naučijo jezika. In uspeh je primerljiv z uporabniki vodilnih programov za učenje. Ljudje resnično osvojijo nov jezik. A ne samo osvojijo, pač pa postane še bolj zanimivo. Pri Duolingu se namreč učimo na podlagi resničnih vsebin. V nasprotju z umetno ustvarjenimi stavki se tu ljudje učijo na resničnih stavkih, kar je bistveno bolj zanimivo. Jezika se torej uspešno naučijo.
A morda je bolj presenetljivo, da so prevodi, ki jih dobimo od uporabnikov, čeprav gre za začetnike, po kakovosti primerljivi s prevodi poklicnih prevajalcev, kar je res presenetljivo. Naj vam pokažem primer. Ta stavek je bil preveden iz nemščine v angleščino. Zgornji odstavek je v nemščini. V sredini je angleški prevod poklicnega prevajalca za angleščino, ki je računal 20 centov na besedo. Spodaj pa je prevod uporabnikov Duolinga, od katerih nihče ni znal nemško, preden so začeli uporabljati to stran. Kot vidite, je praktično popoln. Mi pa z zvijačo naredimo prevode primerljive s prevodi poklicnih prevajalcev. Prevode več začetnikov združimo in tako dosežemo kakovost enega poklicnega prevajalca.
In čeprav združujemo prevode, stran prevaja precej hitro. Naj vam pokažem naše ocene, kako hitro bi lahko prevedli Wikipedijo iz angleščine v španščino. Ne pozabite, da govorimo o vrednosti 50 milijonov dolarjev. Če bi torej želeli prevesti Wikipedijo v španščino, bi v petih tednih to dosegli s 100.000 aktivnih uporabnikov, oz. v 80 urah z milijonom aktivnih uporabnikov. Ker so projekti naše ekipe doslej zbrali že milijone uporabnikov, upamo, da nam bo ta projekt omogočil izjemno hitro prevajanje.
Pri Duolingu me najbolj navdušuje to, da predstavlja pravičen poslovni način učenja jezikov. Gre namreč za to: sedanje poslovne prakse učenja jezikov delujejo tako, da učenec plača za uporabo, in sicer 500 dolarjev za program Rosetta Stone. (Smeh) Taka je trenutna poslovna praksa. Pri tem pa je težava, da 95 odstotkov svetovnega prebivalstva nima 500 dolarjev. Je torej izjemno nepravična do revnejših in namenjena bogatim. Duolingo pa je zasnovan tako, da med učenjem pravzaprav ne koristite le sebi, pač pa tudi prevajate, za kar bi nekdo drug računal. S tem ovrednotimo vaše učenje. Ker ima rezultat učenja za nas vrednost, jim ne izstavimo računa, saj plačajo s svojim časom. Čudovito pri tem je, da unovčijo čas, ki bi ga itak porabili za učenje jezika. Prednost Duolinga je, da predstavlja pravičen posloven način, ki ne zapostavlja revnejših ljudi.
To je ta stran. Hvala vam. (Aplavz) To je torej naslov strani. Nismo je še zagnali, a kljub temu se lahko vpišete in se pridružite naši razvojni različici, ki naj bi se zagnala v treh ali štirih tednih. Duolingo torej še ni na voljo.
Mimogrede, o njem govorim le jaz, Duolingo pa je delo izjemne ekipe, katere del je z nami. Hvala še enkrat.
You can share this video by copying this HTML to your clipboard and pasting into your blog or web page. This video will play with subtitles.
You either have JavaScript turned off or have an old version of the Adobe Flash Player. To view this rating widget you
need to get the latest Flash player.
If your browser allows only "trusted sites" to execute Javascript, you should add the "googleapis.com" domain to your whitelist to allow our Flash detection to work properly.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation.
Po ponovni zasnovi formul CAPTCHA, s katerimi vsak naš vnos pomaga pri digitalizaciji knjig, se je Luis von Ahn spraševal, kako še lahko izkoristimo majcene prispevke spletnih uporabnikov za velike skupne cilje. Na TEDxCMU predstavi nov velikopotezen projekt, Duolingo, ki milijonom po svetu omogoča učenje novega jezika preko prevajanja spleta na hiter, učinkovit in brezplačen način.
Luis von Ahn builds systems that combine humans and computers to solve large-scale problems that neither can solve alone. Full bio »
Translated into Slovenian by Lenka Tušar
Reviewed by Klavdija Cernilogar
Comments? Please email the translators above.
18:18 Posted: May 2011
Views 685,657 | Comments 75
05:29 Posted: Aug 2011
Views 813,130 | Comments 168
13:07 Posted: Jun 2010
Views 577,408 | Comments 227
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign Out.