Câți dintre voi a trebuit să completați formulare online în care vi s-a cerut să citiți o secvență de caractere distorsionate precum aceasta? Câți dintre voi ați găsit chestia asta foarte, foarte enervantă? OK, extraordinar. Eu am inventat-o. (Râsete) Sau sunt unul dintre cei care au făcut-o.
Chestia asta se numește CAPTCHA. Motivul pentru care e acolo e să ne asigurăm că voi, cei care completați formularul, sunteți de fapt oameni și nu vreun program de calculator creat pentru a trimite fomularul de milioane și milioane de ori. Motivul pentru care funcționează e că oamenii, cel puțin cei fără probleme de vedere, nu au probleme în a citi aceste litere curbate, distorsionate, în vreme ce programele de calculator pur și simplu n-o pot face la fel de bine încă. De pildă, în cazul Ticketmaster, motivul pentru care trebuie să tastați aceste caractere distorsionate e pentru a-i împiedica pe bișnițari să scrie un program prin care să cumpere milioane de bilete, câte două per tranzacție.
CAPTCHA-urile sunt folosite peste tot pe Internet. Și de vreme ce sunt atât de des folosite, foarte frecvent anumite secvențe de caractere aleatorii care-i apar utilizatorului nu sunt tocmai fericite. Acesta e un exemplu de pe pagina de înregistrare de pe Yahoo. Caracterele aleatoare care s-au nimerit să-i apară utilizatorului au fost W, A, I, T, care - bineînțeles - sunt un cuvânt ("AȘTEAPTĂ"). Dar partea cea mai tare este mesajul primit la centrul de asistență Yahoo după 20 de minute. Text: "Ajutor! Aștept de 20 minute și nu se întâmplă nimic". (Râsete) Acea persoană a înțeles că trebuie să aștepte. Firește, e mai bine decât ce-a primit acest biet utilizator.
Proiectul CAPTCHA a fost făcut aici, la Carnegie Mellon, acum mai bine de 10 ani, și e folosit azi în întreaga lume. Să vă spun acum despre un proiect pe care l-am făcut după câțiva ani, care e un fel de evoluție ulterioară CAPTCHA. E un proiect căruia îi spunem reCAPTCHA, pe care l-am început aici, la Carnegie Mellon, și care a devenit apoi proiect comercial. După aceea, în urmă cu circa un an și jumătate, Google a cumpărat această companie.
Să vă spun cum a început acest proiect. Proiectul a pornit de la următoarea constatare: se pare că circa 200 de milioane de CAPTCHA sunt tastate zilnic de oameni din întreaga lume. Când am auzit asta prima dată am fost foarte mândru de mine. M-am gândit: iată ce impact au avut cercetările mele. Apoi am început să mă simt prost. Iată de ce: de fiecare dată când tastați CAPTCHA, pierdeți de fapt 10 secunde din timpul vostru. Și dacă înmulțiți cu 200 de milioane, aflați că omenirea, în ansamblu, pierde circa 500.000 de ore în fiecare zi tastând aceste CAPTCHA-uri enervante. De aceea am început să mă simt prost.
Și apoi am început să-mi zic, bineînțeles, că nu putem scăpa de aceste CAPTCHA, pentru că securitatea Internetului depinde cumva de ele. Iar apoi am început să mă gândesc dacă există vreo cale de a folosi acest efort pentru ceva care să fie bun pentru omenire. Vedeți, despre asta e vorba. În timp ce tastați CAPTCHA, în acele 10 secunde, creierul dvs. face ceva uluitor. Creierul dvs. face ceva ce computerele încă nu pot. Vă putem pune să faceți ceva folositor în acele 10 secunde? Cu alte cuvinte, există vreo problemă uriașă pentru rezolvarea căreia nu putem folosi calculatoarele, și pe care s-o împărțim în secvențe de 10 secunde astfel încât de fiecare dată când cineva rezolvă un CAPTCHA să rezolve și o mică parte din această problemă? Răspunsul e "da", și de asta ne ocupăm în prezent.
Ceea ce nu știți poate e că azi, când tastați CAPTCHA, nu numai că vă autentificați ca fiind om, ci, în plus, ne ajutați să digitalizăm cărți. Să vă explic cum funcționează. Există o grămadă de proiecte prin care se încearcă digitalizarea cărților. Google are unul. Internet Archive are unul. Amazon, prin intermediul Kindle, încearcă să digitalizeze cărți. În esență, funcționează așa: începeți cu o carte tipărită. Știți ce sunt chestiile astea, nu? Ca niște cărți? (Râsete) Deci începeți cu o carte, pe care o scanați.
A scana o carte este ca și cum ai face o fotografie digitală a fiecărei pagini. Obțineți o imagine pentru fiecare pagină a cărții. Aceasta e o imagine a textului de pe fiecare pagină a cărții. Următorul pas al procesului: calculatorul trebuie să fie capabil să descifreze toate cuvintele din această imagine. Folosește o tehnologie numită OCR, de la "optical character recognition" (recunoaștere optică a caracterelor), prin care se ia o imagine a unui text și se încearcă să se descifreze textul. Problema e că tehnologia OCR nu e perfectă. În special pentru cărțile mai vechi unde cerneala s-a șters și paginile s-au îngălbenit, OCR nu poate recunoaște o grămadă de cuvinte. De exemplu, pentru lucruri scrise cu peste 50 de ani în urmă, calculatorul nu poate recunoaște circa 30% dintre cuvinte. Ceea ce facem noi acum e să luăm toate cuvintele pe care calculatorul nu le poate recunoaște și-i punem pe oameni să le citească în timp ce tastează CAPTCHA pe Internet.
Deci data viitoare când tastați CAPTCHA să știți că acele cuvinte pe care le tastați sunt de fapt cuvinte extrase din cărți care sunt digitalizate și pe care calculatorul nu le poate recunoaște. Motivul pentru care azi avem două cuvinte în loc de unul e pentru că, vedeți voi, unul dintre cuvinte tocmai a fost luat dintr-o carte și calculatorul nu l-a recunoscut, așa că vi-l prezintă dvs. Dar din moment ce nu știe răspunsul, nu poate evalua dacă ați tastat corect. Deci ceea ce facem e să vă dăm încă un cuvânt, unul pentru care sistemul știe răspunsul. Nu vă spunem care e care, deci vă cerem să le tastați pe ambele. Și dacă tastați corect cuvântul, cel pentru care sistemul știe deja răspunsul, acesta presupune că sunteți o persoană și capătă și ceva încredere că ați tastat corect și cel de-al doilea cuvânt. Și dacă repetăm acest proces cu circa 10 oameni diferiți și toți scriu la fel noul cuvânt, vom avea încă un cuvânt digitalizat corect.
Așa funcționează sistemul. În esență, de când am lansat proiectul în urmă cu circa trei ani, o grămadă de site-uri au început să treacă de la vechiul CAPTCHA, cu care oamenii își pierdeau timpul, la noul CAPTCHA, prin care oamenii ajută la digitalizarea cărților. De exemplu Tickmaster. Deci de câte ori cumpărați bilete pe Tickmaster, ajutați la digitalizarea unei cărți. Facebook: de fiecare dată când adăugați un prieten sau dați un "poke", ajutați la digitalizarea unei cărți. Twitter și alte circa 350.000 de site-uri folosesc reCAPTCHA. De fapt, numărul de site-uri care folosesc reCAPTCHA e atât de mare încât numărul cuvintelor pe care le digitalizăm zilnic e cu adevărat impresionant. Sunt circa 100 de milioane pe zi, ceea ce e echivalentul a aproape 2,5 milioane de cărți pe an. Și toate astea se rezolvă cuvânt cu cuvânt, doar prin faptul că oamenii tastează CAPTCHA pe Internet.
Desigur, de vreme ce descifrăm zilnic atâtea cuvinte, se întâmplă și lucruri amuzante. Și asta e cu atât mai adevărat cu cât acum le dăm oamenilor două cuvinte alăturate în engleză selectate aleator. Așa că se întâmplă și lucruri amuzante. De exemplu, am prezentat acest cuvânt. Cuvântul e "creștini", deci nu e nimic în neregulă cu el. Dar dacă-l prezinți alături de un alt cuvânt ales la întâmplare, se pot întâmpla lucruri nefericite. Am ajuns la asta. (Text: creștini răi) Dar e mai rău de atât, pentru că site-ul care a afișat acest text s-a nimerit să se numească Ambasada Împărăției lui Dumnezeu. (Râsete) Ups. (Râsete) Iată altă combinație foarte nefericită. JohnEdwards.com (politician democrat american) (Text: liberal nenorocit) (Râsete) Așadar continuăm să insultăm zilnic oameni în stânga și în dreapta.
Bineînțeles, nu ne limităm doar la a insulta oameni. Chestia e că prezentând câte două cuvinte întâmplător alese, se pot întâmpla și lucruri interesante. Asta a dat naștere la un important meme pe Internet la care zeci de mii de oameni au participat, și care s-a numit Arta CAPTCHA. Sunt sigur că unii dintre voi au auzit de asta. Iată cum funcționează. Imaginați-vă că folosiți Internetul și vedeți un CAPTCHA despre care credeți că e cumva bizar, cum e acest CAPTCHA. (Text: prăjitor de pâine invizibil) Ceea ce trebuie să faceți este să captați imaginea. Apoi, firește, completați CAPTCHA pentru că așa ne ajutați să digitalizăm o carte. Dar înainte de asta captați imaginea de pe ecran după care desenați ceva legat de text. (Râsete) Așa funcționează. Sunt zeci de mii de astfel de chestii. Unele sunt foarte drăguțe. (Text: cu pumnul încleștat) (Râsete) Unele sunt și mai amuzante. (Text: fondatori drogați) (N.B.: stoned - 1. sculptați în piatră; 2. drogați) (Râsete) Și unele dintre ele, cum e "shvisle paleontologic" (N.B. shvisle - cuvânt inventat), îl arată pe Snoop Dogg. (N.B.: cunoscut pentru astfel de cuvinte)
OK, iată care e cifra mea preferată legată de reCAPTCHA. E lucrul care-mi place cel mai mult la acest proiect. Acesta e numărul de utilizatori individuali care ne-au ajutat să digutalizăm câte cel puțin un cuvânt dintr-o carte prin reCAPTCHA: 750 de milioane, adică puțin peste 10% din populația lumii, ne-au ajutat să digitalizăm cunoștințele acumulate. Cifrele de acest fel sunt cele care mă motivează ca cercetător. Chestiunea care îmi motivează munca de cercetare e următoarea: Dacă ne uităm la realizările pe scară largă ale omenirii, aceste lucruri uriașe pentru care oamenii au lucrat împreună din perspectivă istorică, cum ar fi, de pildă, construcția piramidelor în Egipt, sau canalul Panama, sau trimiterea unui om pe Lună, e ceva curios legat de asta, anume că toate astea au fost făcute cam de același număr de oameni. E ciudat; toate au fost făcute de circa 100.000 de oameni. Motivul e acela că, înainte de Internet, a coordona peste 100.000 de oameni, ca să nu mai vorbim de a-i plăti, era practic imposibil. Acum, mulțumită Internetului, tocmai v-am arătat un proiect în care am văzut 750 milioane de oameni contribuind la digitalizarea cunoașterii umane. Întrebarea care-mi motivează cercetările e: dacă putem trimite un om pe lună cu ajutorul a 100.000 de oameni, ce-am putea face cu 100 de milioane?
Pornind de la întrebarea asta, am creat mai multe proiecte diferite la care lucrăm. Să vă povestesc despre cel care mă entuziasmează cel mai mult. E un lucru la care am lucrat aproape în secret cam în ultimul an și jumătate. Nu a fost încă lansat. Se numește Duolingo. Și de vreme ce nu a fost lansat, șșșt! (Râsete) Da, am încredere că așa veți face. Iată proiectul. Și iată cum a început. A început cu mine punând o întrebare unui student de-al meu. Severin Hacker. OK, iată-l pe Severin Hacker. Deci i-am pus studentului meu o întrebare. Ca o paranteză, ați auzit corect; numele lui de familie e Hacker. I-am pus această întrebare: Cum aș putea să fac 100 de milioane de oameni să traducă gratuit Internetul în fiecare dintre limbile importante?
Sunt multe lucruri de spus despre această întrebare. În primul rând, să traduci Internetul. În prezent informațiile de pe Internet se găsesc în limbi diferite. Mare parte din acestea sunt în engleză. Dacă nu știi engleză, nu ai acces la ele. Dar sunt și mari părți în alte limbi, și dacă nu știi acele limbi, nu ai acces la ele. Ce aș vrea e să traduc întregul Internet, sau măcar cea mai mare parte, în fiecare limbă importantă. Asta aș vrea să fac.
Unii dintre dvs. m-ar putea întreba de ce nu folosim calculatoarele pentru traducere. De ce nu putem folosi traducerile automate? Traducerea automată începe să fie azi folosită pentru propoziții, ici și colo. De ce nu o putem folosi pentru a traduce întregul Internet? Ei bine, problema cu asta e că nu e încă destul de bună și probabil nici nu va fi în următorii 15-20 de ani. Face o grămadă de greșeli. Și chiar când nu greșește, de vreme ce face atâtea alte greșeli, nu știi dacă să ai încredere sau nu.
Să vă arăt un exemplu de ceva tradus de calculator. E vorba de o discuție pe un forum. Era cineva care încerca să pună o întrebare despre JavaScript. Era tradus din japoneză în engleză. Vă las să o citiți. Această persoană începe prin a-și cere scuze pentru că a făcut traducerea cu un calculator. Propoziția care urmează va fi un preambul la întrebare. Explică doar ceva. Nu uitați, e o întrebare despre JavaScript. (Text: Adesea, timpul țapului instalează o eroare care e vomă). (Râsete) Apoi vine prima parte a întrebării. (Text: De câte ori ca vântul, un stâlp și dragonul?) (Râsete) Apoi vine partea mea preferată din întrebare. (Text: Asta insultă pietrele tatălui?) (Râsete) Urmează încheierea, care e partea mea favorită din întreaga poveste. (Text: Vă rog sa vă cereți scuze pentru prostia dvs. Există un multe mulțumiri). (Râsete) OK, deci traducerea computerizată nu e încă suficient de bună. Înapoi la întrebare.
Avem nevoie de oameni care să traducă întregul Internet. Următoarea întrebare pe care ați putea-o avea e de nu putem să-i plătim pur și simplu pe oameni pentru asta? Am putea plăti translatori profesioniști pentru a traduce întregul web. Am putea face asta. Din nefericire, ar fi extrem de costisitor. De pildă a traduce o mică, mică parte a web-ului, Wikipedia, într-o altă limbă, spaniola... Wikipedia există și în spaniolă, dar e foarte mică în comparație cu cea în engleză. E circa 20% din mărimea celei în engleză. Dacă am vrea să traducem restul de 80% în spaniolă, ne-ar costa cel puțin 50 de milioane de dolari - și asta dacă am folosi traducători din cea mai exploatată și ieftină țară din lume. Deci ar fi foarte costisitor. Ceea ce vrem să facem e să punem 100 de milioane de oameni să traducă web-ul în fiecare limbă importantă gratuit.
Daca asta îți propui să faci îți dai seama rapid că te vei ciocni de două piedici destul de mari, două mari obstacole. Prima e lipsa de persoane bilingve. Nici măcar nu știu dacă există 100 de milioane de oameni care utilizează web-ul care să știe destul de bine două limbi pentru a ne ajuta să traducem. Asta e o mare problemă. Cealaltă problemă de care ne ciocnim e lipsa de motivație. Cum vei motiva oamenii să traducă gratuit web-ul? În mod normal, trebuie să-i plătești pe oameni să facă asta. Cum îi vei motiva să lucreze fără bani? Când am început să ne gândim, am fost blocați de aceste două obstacole. Dar apoi ne-am dat seama că există de fapt o cale de a rezolva ambele probleme cu aceeași soluție. Există o cale de a împușca doi iepuri deodată. Și aceea e de a transforma traducerea în ceva ce milioane de oameni vor să facă, și asta ajută și rezolvarea problemei lipsei persoanelor bilingve, iar asta e învățarea unei limbi străine.
Aflăm că astăzi sunt peste 1,2 miliarde de oameni care învață o limbă străină. Oameni care vor cu adevărat să învețe o limbă străină. Asta nu se întâmplă pentru că îi forțează cineva la școală. De exemplu, doar în Statele Unite, sunt peste 5 milioane de oameni care au plătit peste 500 de dolari pentru un software de învățare a unei limbi. Deci sunt oameni care vor foarte mult să învețe o altă limbă. În ultimul an și jumătate am lucrat la un nou website - se numește Duolingo - în care ideea de bază e ca oamenii să învețe gratuit o nouă limbă și în același timp să traducă web-ul. În esență, învață făcând.
Modul în care funcționează este: atunci când ești doar începător, vă dăm doar propoziții foarte, foarte simple. Sunt, bineînțeles, o grămadă de propoziții foarte simple pe web. Vă dăm propoziții foarte, foarte simple și alături ce înseamnă fiecare cuvânt. Și pe măsură ce le traduceți, și vedeți și cum le traduc alții, începeți să învățați limba. Pe măsură ce învățați mai mult, vă dăm să traduceți propoziții din ce în ce mai complexe. Și de fiecare dată, făcând asta, învățați.
Partea incredibilă a acestei metode e că funcționează cu adevărat. Întâi de toate, oamenii chiar învață o altă limbă. Suntem aproape gata cu site-ul, acum îl testăm. Oamenii chiar pot învăța o limbă străină cu el. Și o învață aproape la fel de bine ca atunci când ar folosi un software de top. Deci oamenii chiar învață o limbă străină. Și nu doar că o învață, dar e și mult mai interesant. Pentru că, prin Duolingo, oamenii învață pe baza unui conținut real. Spre deosebire de învățarea pe bază de propoziții inventate, oamenii învață prin conținut autentic, care e implicit interesant. Oamenii chiar învață o altă limbă.
Dar poate și mai surprinzător e faptul că traducerile pe care le primim de la cei care folosesc site-ul chiar dacă sunt începători, au aceeași acuratețe ca cele făcute de traducători profesioniști, ceea ce e foarte surprinzător. Să vă arăt un exemplu. Aceasta e o propoziție tradusă din germană în engleză. Cea de sus e germană. În mijloc e traducerea în engleză care a fost făcută de un traducător profesionist pe care l-am plătit cu 20 de cenți pe cuvânt pentru această traducere. În partea de jos e o traducere făcută de utilizatori de Duolingo, niciunul nu știa nici o boabă de germană înainte să înceapă să folosească site-ul. Puteți vedea, e aproape perfect. Firește, folosim un truc aici pentru a face ca traducerile să fie la fel de bune ca cele profesioniste. Combinăm traducerile mai multor începători pentru a obține calitatea unui singur traducător profesionist.
Și deși combinăm traducerile, site-ul traduce de fapt destul de repede. Să vă arăt: aceasta e estimarea noastră despre viteza cu care am putea traduce Wikipedia din engleză în spaniolă. Nu uitați, e o treabă care ar costa 50 de milioane de dolari. Dacă ne propunem să traducem Wikipedia în spaniolă am putea s-o facem în cinci săptămâni cu 100.000 de utilizatori activi. Și am putea s-o facem în circa 80 de ore cu 1 milion de utilizatori activi. Cum în toate proiectele la care grupul meu a lucrat au avut milioane de utilizatori, avem speranța că vom putea traduce acest proiect foarte repede.
Lucrul care mă entuziasmează cel mai mult legat de Duolingo e că sunt convins că oferă un model de afaceri echitabil pentru învățarea limbilor străine. Iată despre ce vorbesc: actualul model de afacere pentru învățarea limbilor străine e că studentul plătește, mai exact plătește 500 de dolari firmei Rosetta Stone. (Râsete) Acesta este modelul de afaceri actual. Problema cu acest model de afaceri e că 95% din populația lumii nu are 500 de dolari. Deci e foarte incorect față de oamenii nevoiași. Și îi favorizează pe cei bogați. În ceea ce privește Duolingo, pentru că în timp ce înveți creezi de fapt valoare, traducând texte, pentru care, de exemplu, am putea plăti pe cineva să facă asta. Așa putem monetiza asta. De vreme ce oamenii creează valoare învățând, nu trebuie să plătească în bani; plătesc oferind timpul lor. Partea minunată aici e că ei plătesc prin timpul lor, un timp care oricum urma să fie folosit pentru a învăța o limbă. Partea frumoasă cu Duolingo e, cred eu, că oferă un model de afaceri echitabil, unul fără discriminări la adresa oamenilor săraci.
Acesta este site-ul. Mulțumesc. (Aplauze) Acesta este site-ul. Încă nu l-am lansat, dar dacă îl vizitați, vă puteți înregistra pentru versiunea beta, care probabil va fi lansată în 3-4 săptămâni. Încă nu am lansat acest Duolingo.
Apropo, eu sunt cel care v-a povestit toate astea, dar de fapt Duolingo e rezultatul muncii unei echipe extraordinare - unii sunt aici, cu noi. Vă mulțumesc.
You can share this video by copying this HTML to your clipboard and pasting into your blog or web page. This video will play with subtitles.
You either have JavaScript turned off or have an old version of the Adobe Flash Player. To view this rating widget you
need to get the latest Flash player.
If your browser allows only "trusted sites" to execute Javascript, you should add the "googleapis.com" domain to your whitelist to allow our Flash detection to work properly.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation.
După ce a reformulat proiectul CAPTCHA, astfel încât oamenii care tastează cuvinte alese aleator să ajute la digitalizarea cărților, Luis von Ahn s-a întrebat cum altfel ar putea folosi aceste mici contribuții făcute de mulți utilizatori de Internet pentru beneficii la scară largă. La TEDxCMU, el vorbește despre cum noul său proiect ambițios, Duolingo, va ajuta milioane de oameni să învețe o nouă limbă traducând Internetul rapid și cu acuratețe - și gratuit în același timp.
Luis von Ahn builds systems that combine humans and computers to solve large-scale problems that neither can solve alone. Full bio »
Translated into Romanian by Mona Dirtu
Reviewed by Florin Bejgu
Comments? Please email the translators above.
18:18 Posted: May 2011
Views 700,768 | Comments 75
05:29 Posted: Aug 2011
Views 822,978 | Comments 173
13:07 Posted: Jun 2010
Views 589,805 | Comments 227
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign Out.