Koľkí z vás už vypĺňali formulár na internete a museli ste prečítať takýto zdeformovaný riadok znakov? Koľkí z vás to považovali za naozaj otravné? OK, výborne. Tak to som vynašiel ja. (Smiech) Alebo som jedným z ľudí, ktorí to vymysleli.
Volá sa to CAPTCHA. Zabezpečuje, aby formuláre vypĺňali ľudia a nie počítačové programy, schopné odoslať formulár miliónkrát. Funguje to, pretože ľudia, aspoň tí, ktorí vidia, tieto zdeformované znaky ľahko prečítajú. Počítačové programy to zatiaľ nedokážu. Napríklad, stránka Ticketmaster používa zdeformované znaky ako ochranu pred priekupníkmi, ktorí by pomocou softvéru mohli kúpiť milióny lístkov, vždy po dvoch kusoch.
CAPTCHA sa používa všade na internete. Keďže je taká rozšírená, často sa stáva, že zobrazený sled náhodných znakov nie je práve najšťastnejší. Toto je príklad z registračnej stránky Yahoo. Zobrazené náhodné znaky boli W, A, I, T, čiže ČAKAJTE. Najlepšia bola správa, ktorú o 20 minút dostali v Yahoo. Text:"Pomoc! Čakám už 20 minút a nič sa nedeje." (Smiech) Tento človek si myslel, že má čakať. Stále lepšie, ako tento úbožiak.
Na projekte CAPTCHA sme pracovali na Carnegie Mellon pred 10 rokmi. Dnes sa používa všade. Teraz vám poviem o projekte, ktorý je o pár rokov mladší, ďalšia evolúcia CAPTCHA. Nazývame ho reCAPTCHA. Začali sme s ním na Carnegie Mellon a potom ho zmenili na startupovú spoločnosť. Asi o rok a pol túto spoločnosť kúpil Google.
Poviem vám, čo tento projekt naštartovalo. Uvedomili sme si, že každý deň ľudia z celého sveta napíšu asi 200 miliónov CAPTCHA. Keď som to počul prvýkrát, bol som na seba hrdý. Pomyslel som si: Pozri aký dopad má tvoj výskum. Ale potom som sa začal cítiť zle. Pretože vždy, keď napíšete CAPTCHA, premrháte 10 sekúnd vášho času. Vynásobte to 200 miliónmi a zistíte, že ľudstvo každý deň premrhá 500 000 hodín písaním otravných CAPTCHA. Preto som sa cítil zle.
Ale CAPTCHA sa nemôžeme len tak zbaviť, pretože na nich záleží bezpečnosť internetu. Uvažoval som, či je spôsob, ako ich využiť na niečo osožné pre ľudstvo. Vec sa má takto: Počas 10 sekúnd, keď píšete CAPTCHA, váš mozog robí niečo úžasné. Niečo, čo ešte počítače nedokážu. Dokážeme tých 10 sekúnd robiť niečo užitočné? Inými slovami, jestvuje problém, ktorý počítače nevedia vyriešiť, a ktorý sa dá rozložiť na 10-sekundové kúsky, aby sa pri každom vyriešení CAPTCHA vyriešil kúsok tohto problému? Odpoveď je áno, a to práve robíme.
Možno neviete, že keď dnes napíšete CAPTCHA, okrem overenia, že ste človek nám pomáhate digitalizovať knihy. Vysvetlím, ako to funguje. Je mnoho projektov, ktorí sa snažia digitalizovať knihy. Jeden má Google. Internet Archive má druhý. Aj Amazon s Kindle sa pokúša digitalizovať knihy. Na začiatku máte starú knihu. Poznáte to, však? Kniha? (Smiech) Túto knihu zoskenujete.
Skenovaním knihy sa vytvorí digitálna fotografia každej strany. Máte obrázok každej strany knihy. Obrázok s textom. V ďalšom kroku musí počítač rozlúštiť všetky slová na tomto obrázku. Používa technológiu OCR, optické rozlišovanie znakov, ktorá z obrázku textu skúša zistiť text. Ale OCR nie je dokonalá. Najmä pri starších knihách s vyblednutým atramentom a zožltnutými stranami OCR nedokáže mnohé slová rozlíšiť. Napríklad, pri veciach starších ako 50 rokov počítač nerozlíši asi 30 percent slov. My zbierame tie slová, ktoré počítač neprečíta, a posúvame ich ľuďom, aby ich prečítali, keď na internete vypĺňajú CAPTCHA.
Najbližšie, keď budete písať CAPTCHA, budete písať slová z kníh, ktoré sa digitalizujú a počítač ich nevedel rozpoznať. Dôvod, prečo dnes máme dve slová miesto jedného je, že jedno z týchto slov je slovo z knihy, ktoré systém nepozná. Preto nemôže vašu odpoveď vyhodnotiť. Preto vám dávame ešte jedno slovo, ktoré systém pozná. Nepovieme vám, ktoré je ktoré. Musíte napísať obidve. Ak napíšete to správne, ktoré systém pozná, bude predpokladať, že ste človek a tiež, že ste napísali správne aj druhé slovo. Keď tento proces zopakujeme s 10 ľuďmi a všetci sa na novom slove zhodnú, máme o jedno správne digitalizované slovo viac.
Takto náš systém funguje. Keďže sme ho spustili pred tromi či štyrmi rokmi, mnoho webstránok prechádza zo starej CAPTCHA, ktorá mrhá časom, na novú CAPTCHA, s ktorou ľudia pomáhajú digitalizovať knihy. Napríklad, Ticketmaster. Vždy keď si kúpite na lístky cez Ticketmaster, pomôžete zdigitalizovať knihu. Facebook: Vždy, keď si pridáte priateľa, alebo niekoho šťuchnete, pomáhate zdigitalizovať knihu. Twitter a ďalších 350 000 stránok používa reCAPTCHA. Stránok, ktoré reCAPTCHA používajú, je tak veľa, že počet digitalizovaných slov za deň je obrovský. Je ich asi 100 miliónov za deň, teda asi dva a pol milióna kníh za rok. To všetko slovo po slove, písaním CAPTCHA na internete.
Tým, že počet slov za deň je taký veľký, dejú sa zvláštne veci. Najmä teraz, keď dávame ľuďom dve náhodné anglické slová vedľa seba. Dejú sa zaujímavé veci. Napríklad, mali sme slovo "Kresťania", čo je celkom v poriadku. Ale v spojení s iným náhodným slovom sa môže stať všeličo. Napríklad toto. (Text: zlí kresťania) Ešte horšie bolo, že stránka, na ktorej sa text ukázal, sa volala Ambasáda Božieho Kráľovstva. (Smiech) Ups. (Smiech) Tu je ďalší veľmi zlý. JohnEdwards.com (Text: Prekliaty liberál) (Smiech) Urážame ľudí napravo i naľavo.
Samozrejme, nerobíme len to. Tým, že prezentujeme dve náhodné slová, dejú sa zaujímavé veci. Naštartovali sme skutočne veľký internetový meme, na ktorom sa podieľajú desiatky tisíc ľudí. Volá sa umenie CAPTCHA. Niektorí z vás o ňom iste počuli. Takto funguje. Uvidíte na internete CAPTCHA, ktorá je zvláštna, ako táto (Text: neviditeľný hriankovač) a urobíte z nej screenshot. Potom CAPTCHA vyplníte, pretože nám pomáhate digitalizovať knihu. Potom, čo spravíte screenshot, k nemu niečo vhodné dokreslíte. (Smiech) Takto to funguje. Sú ich desiatky tisíc. Niektoré si naozaj milé. (Text: Zaťal som) (Smiech) Niektoré sú veselšie. (Text: zhúlení zakladatelia) (Smiech) A niektoré, ako paleontologický švizl, obsahujú Snoop Dogga.
Moje obľúbené číslo týkajúce sa reCAPTCHA je počet ľudí, ktorí nám pomohli zdigitalizovať aspoň jedno slovo pomocou reCAPTCHA: 750 miliónov, o niečo viac ako 10 percent svetovej populácie nám pomohlo s digitalizáciou ľudských vedomostí. Takéto čísla ma motivujú pri výskume. Otázka, ktorá ma motivuje, znie: Ak sa pozriete na veľké úspechy ľudstva, tie naozaj veľké veci, ktoré ľudstvo vytvorilo - napríklad pyramídy v Egypte alebo Panamský prieplav, či človek na Mesiaci - je na nich zaujímavé, že boli vykonané približne rovnakým počtom ľudí. Je to zvláštne; na každej z nich pracovalo asi 100 000 ľudí. To preto, že pred nástupom internetu bolo nemožné koordinovať viac ako 100 000 ľudí, a už vôbec nie ich zaplatiť. Teraz, s internetom, ako som práve ukázal, sme schopní spojiť 750 miliónov ľudí, aby nám pomohli digitalizovať ľudské vedomosti. Takže otázka, ktorá motivuje môj výskum, je, ak s 100 000 ľuďmi dostaneme človeka na Mesiac, čo dokážeme so 100 miliónmi?
Na základe tejto otázky sme rozpracovali viacero projektov. Poviem vám o tom, ktorý ma nadchýna najviac. Potichu na ňom pracujeme už asi rok a pol. Zatiaľ nebol spustený. Nazýva sa Duolingo. Keďže nebol spustený, šššš! (Smiech) Určite si to necháte pre seba. Tento projekt začal otázkou, ktorú som položil môjmu doktorandovi, Severinovi Hackerovi. Toto je Severin Hacker. Položil som mu otázku. Mimochodom, počujete správne; jeho priezvisko je Hacker. Opýtal som sa ho: Ako môžeme primäť 100 miliónov ľudí, aby zadarmo prekladali internet do všetkých svetových jazykov?
K tejto otázke je potrebné povedať viacero vecí. V prvom rade prekladanie internetu. Teraz je internet zložený z viacerých jazykov. Z veľkej časti je v anglickom jazyku. Ak neviete po anglicky, nedostanete sa naň. Ale veľké časti sú v iných jazykoch, a ak neviete tieto jazyky, nemáte doň prístup. Chcel by som preložiť celý, alebo aspoň väčšinu internetu do všetkých svetových jazykov. To je môj cieľ.
Niekto sa môže opýtať, prečo na to nepoužijeme počítače? Prečo nepoužijeme strojový preklad? Strojový preklad sa dnes už používa na rôznych miestach. Prečo ho nemôžeme použiť na preklad celého internetu? Problém je, že ešte nie je dosť dobrý. a pravdepodobne nebude najbližších 15 až 20 rokov. Robí veľa chýb. Dokonca aj keď neurobí chybu, nemôžete mu dôverovať, pretože robí toľko chýb.
Ukážem vám príklad textu preloženého strojom. Je to otázka z fóra. Niekto sa snažil položiť otázku ohľadom JavaScriptu. Bola preložená z japončiny do angličtiny. Prečítajte si. Táto osoba začína ospravedlnením, za to, že otázka je preložená počítačom. Ďalšia veta je úvod k otázke. Niečo sa snaží vysvetliť. Pamätajte, že je to otázka k JavaScriptu. (Text: Na často kôz čas nainštalovať chybu je vývratku.) (Smiech) Potom príde prvá časť otázky. (Text: Koľkokrát ako vietor, pólovým a drak?) (Smiech) Potom príde moja najobľúbenejšia časť otázky. (Text: Túto urážku na otec to kameňov?) (Smiech) A na záver prichádza moja najobľúbenejšia časť. (Text: Prosím ospravedlňte sa za vašu hlúposť. Existuje mnoho ďakujem.) (Smiech) Počítačový preklad teda ešte nie je dosť dobrý. Takže späť k otázke.
Potrebujeme ľudí, aby preložili celý internet. Takže ďalšia otázka môže byť, prečo za to jednoducho nemôžeme ľuďom zaplatiť? Mohli by sme zaplatiť profesionálnym prekladateľom, aby internet preložili. To by sme mohli. Bohužiaľ, bolo by to veľmi nákladné. Napríklad, preklad maličkého zlomku celého internetu, Wikipedia, iba do jedného jazyka, španielčiny. Wikipedia existuje v španielčine, ale je veľmi malá v porovnaní s angličtinou. Je to asi 20 percent veľkosti angličtiny. Ak by sme chceli preložiť 80 percent do španielčiny, stálo by to najmenej 50 miliónov dolárov - aj to v tej najvyužívanejšej krajine, kam by sa to dalo outsourcovať. Teda bolo by to veľmi drahé. Chceme teda primäť 100 miliónov ľudí, aby prekladali internet do všetkých svetových jazykov zadarmo.
S týmto cieľom si rýchlo uvedomíte, že máte v ceste dve dosť veľké prekážky, dva veľké problémy. Prvý je nedostatok ľudí hovoriacich dvoma jazykmi. Ani neviem, či existuje 100 miliónov ľudí, ktorí používajú internet, ktorí sú dosť bilingválni, aby nám pomáhali s prekladom. To je veľký problém. Ďalším problémom je nedostatok motivácie. Ako budeme motivovať ľudí, aby skutočne prekladali internet zadarmo? Väčšinou za niečo také musíte ľudom zaplatiť. Tak ako ich motivovať, aby to robili zadarmo? Tieto dve veci nás brzdili pri počiatočných úvahách. Ale potom sme si uvedomili, že je spôsob ako vyriešiť oba problémy naraz. Existuje spôsob, ako zabiť dve muchy jednou ranou. A to je transformovať preklad na niečo, čo milióny ľudí chcú urobiť, a čo zároveň pomáha s problémom nedostatku dvojjazyčných ľudí, a to je jazykové vzdelávanie.
Dnes máme viac ako 1,2 miliardy ľudí, ktorí sa učia cudzí jazyk. Ľudia sa naozaj chcú učiť cudzie jazyky. A nie len preto, že sú k tomu nútení v škole. Napríklad, len v Spojených štátoch je viac ako päť miliónov ľudí, ktorí zaplatili cez 500 dolárov za softvér, s ktorým sa učia nový jazyk. Takže ľudia sa naozaj chcú naučiť nový jazyk. Posledný rok a pol sme pracovali na novej internetovej stránke. Nazýva sa Duolingo. Hlavná myšlienka je, že ľudia sa učia nový jazyk zadarmo zatiaľ čo súčasne prekladajú internet. A tým sa v podstate učia.
Funguje to tak, že ak ste úplný začiatočník, dáme vám celkom jednoduché vety. Internet je plný veľmi jednoduchých viet. Dáme vám veľmi jednoduché vety spolu s významom jednotlivých slov. Tým, že ich prekladáte a vidíte preklady iných, sa začnete učiť jazyk. Čím ste pokročilejší, tým zložitejšie a komplexnejšie vety dostanete na preloženie. Po celý čas sa práve tým učíte.
Bláznivé na tom je, že to naozaj funguje. Po prvé, ľudia sa naozaj učia jazyk. S výstavbou sme takmer hotový a teraz to testujeme. Ľudia sa takto naozaj môžu naučiť jazyk. Naučia sa ho rovnako dobre ako s najlepším jazykovým softvérom. Takže ľudia sa naozaj učia jazyk. A nielen, že sa ho učia dobre, ale je to aj oveľa zaujímavejšie. Pretože s Duolingom sa ľudia učia na skutočnom obsahu, a nie na vymyslených vetách. Učia sa na skutočnom obsahu, ktorý je vo svojej podstate zaujímavý. Takže ľudia sa naozaj učia jazyk.
Ešte prekvapivejšie je, že preklady, ktoré dostávame od používateľov stránky, dokonca aj od úplných začiatočníkov, sú také presné ako od profesionálnych prekladateľov, čo je veľmi prekvapujúce. Dovoľte mi ukázať vám jeden príklad. Toto je veta, ktorá bola preložená z nemčiny do angličtiny. Hore je nemčina. V strede je anglický preklad od profesionálneho prekladateľa, ktorý za tento preklad dostal 20 centov za slovo. Dole je preklad od užívateľov Duolingo, z ktorých nikto nevedel po nemecky, predtým, ako začal stránku používať. Ako vidíte, je to vlastne dokonalé. Samozrejme, aby boli naše preklady také dobré ako od profesionálnych prekladateľov, používame trik. Spájame preklady viacerých začiatočníkov, aby sme získali kvalitu jedného profesionálneho prekladateľa.
Aj keď preklady kombinujeme, stránka vie prekladať celkom rýchlo. Ukážem vám náš odhad, ako rýchlo by sme mohli preložiť Wikipediu z angličtiny do španielčiny. Pamätajte si, že je to hodné 50 miliónov dolárov. Na preklad Wikipédie do španielčiny, by sme potrebovali päť týždňov so 100 000 aktívnymi užívateľmi. S miliónom aktívnych užívateľov by sme to zvládli za asi 80 hodín. Pretože všetky projekty, na ktorých moja skupina doteraz pracovala, získali milióny užívateľov, veríme, že nám tento projekt umožní prekladať extrémne rýchlo.
Pri Duolingo som najviac nadšený z toho, že ho považujem za spravodlivý obchodný model jazykového vzdelávania. Súčasný obchodný model jazykového vzdelávania je, že študent platí, konkrétne za softvér Rosetta Stone zaplatí 500 dolárov. (Smiech) To je súčasný obchodný model. Problém s týmto obchodným modelom je, že 95 percent svetovej populácie nemá 500 dolárov. K chudobným je extrémne nespravodlivý. Je nastavený pre bohatých. V Duolingo počas učenia vytvárate hodnotu, prekladáte - za tie preklady by sme si mohli pýtať peniaze. Mať z nich zisk. Keďže ľudia v rámci učenia vytvárajú hodnoty, nemusia platiť peniazmi, platia svojim časom. To čarovné na to je, že síce platia svojim časom ale ten čas, by aj tak strávili učením sa jazyka. To pekné na Duolingo je, že poskytuje spravodlivý obchodný model - taký, ktorý nediskriminuje chudobných.
Tu je naša stránka. Ďakujem. (Potlesk) Tu je naša stránka. Ešte nie je spustená, ale môžete sa prihlásiť na testovanie, ktoré začne asi o tri alebo štyri týždne. Duolingo sme ešte nespustili.
Mimochodom, ja som ten, ktorý tu hovorí, ale Duolingo je prácou naozaj úžasného tímu, ktorého niektorí členovia sú tu. Ďakujeme.
You can share this video by copying this HTML to your clipboard and pasting into your blog or web page. This video will play with subtitles.
You either have JavaScript turned off or have an old version of the Adobe Flash Player. To view this rating widget you
need to get the latest Flash player.
If your browser allows only "trusted sites" to execute Javascript, you should add the "googleapis.com" domain to your whitelist to allow our Flash detection to work properly.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation.
Luis von Ahn najprv zmenil CAPTCHA, aby pri každom vyplnení pomáhala digitalizovať knihy, a potom hľadal ďalšie spôsoby, ako využiť malé príspevky mnohých ľudí na internete na všeobecný osoh. Na TEDxCMU porozprával o svojom novom ambicióznom projekte Duolingo, ktorý má miliónom ľudí pomôcť učiť sa cudzie jazyky a zároveň rýchlo a presne prekladať internet - a to zadarmo.
Luis von Ahn builds systems that combine humans and computers to solve large-scale problems that neither can solve alone. Full bio »
Translated into Slovak by Matus Teplicky
Reviewed by Peter Štrba
Comments? Please email the translators above.
18:18 Posted: May 2011
Views 687,964 | Comments 75
05:29 Posted: Aug 2011
Views 814,214 | Comments 168
13:07 Posted: Jun 2010
Views 579,323 | Comments 227
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign Out.