Hány embernek kellett már Önök közül kitöltenie egy webes űrlapot, ahol arra kérték, hogy értelmezzen egy eltorzult karaktersort, mint mondjuk ez itt? Hányan találták ezt nagyon idegesítőnek? Rendben, kiváló. Ezt én találtam fel. (Nevetés) Vagyis egyike voltam azoknak, akik feltalálták.
Ezt nevezik CAPTCHA-nak. És azért van ott, hogy biztosítsa, hogy Ön, vagyis az entitás, aki kitölti az űrlapot valóban egy ember és nem valamilyen számítógépes program, amit azért írtak, hogy milliószor és milliószor kitöltse az űrlapot. Azért működik, mert az emberek, legalábbis a nem-látássérült emberek, könnyedén el tudják olvasni ezeket az eltorzult, girbegurba karaktereket, míg a számítógépes programok még nem igazán képesek erre. Tehát például a Ticketmaster esetében azért kell Önnek begépelnie ezeket az eltorzult karaktereket, hogy megakadályozzuk a jegyüzéreket egy olyan program írásában, mellyel kettesével ugyan, de jegyek millióit vehetnék meg.
CAPTCHA-kat szerte az interneten használnak, és mivel olyan gyakran használják őket, előfordul, hogy a véletlenszerű karakterek konkrét sorrendje, amit a felhasználó lát nem épp a legszerencsésebb. Itt egy példa a Yahoo regisztrációs oldaláról. A véletlenszerű karakterek, amiket a felhasználó látott W, A, I és T voltak, amik persze kiadnak egy szót. ("Várj") De a történet legszebb része az az üzenet, amit a Yahoo ügyfélszolgálata kapott úgy 20 perccel később. "Segítség! Több mint 20 perce várok, és nem történik semmi." (Nevetés) A felhasználó azt hitte várnia kell. Ez persze nem olyan rossz, mint ez a szegény felhasználó.
A CAPTCHA Projektet úgy 10 éve kezdtük itt a Carnegie Melllon Egyetemen (Pennsylvania, USA), és azóta mindenütt használják. Hadd meséljek most egy másik projektről, ami pár évvel később kezdtünk, ami nagyjából a CAPTCHA következő fejlődési állomása. Ezt a projektet úgy hívjuk, hogy reCAPTCHA, és szintén itt a Carnegie Mellon Egyetemen kezdtünk hozzá, majd alapítottunk egy céget a folytatáshoz. Aztán úgy másfél évvel ezelőtt a Google megvette ezt a céget.
Hadd meséljem el mibe kezdett bele ez a projekt. Ez a projekt a következő felismerésből indult: Kiderült, hogy hozzávetőlegesen 200 millió CAPTCHA-t gépelnek be az emberek naponta, szerte a világon. Mikor ezt először hallottam, elég büszke voltam magamra. Azt gondoltam, nézzenek oda micsoda hatása lett a kutatásomnak. Viszont nem sokkal később rossz érzésem támadt. Az a helyzet, hogy minden alkalommal mikor valaki begépel egy CAPTCHA-t, tulajdonképpen veszít 10 másodpercet az életéből, és ha ezt megszorozzuk 200 millióval, azt kapjuk, hogy az egész emberiség úgy 500.000 órát pazarol el naponta arra, hogy ezeket az idegesítő CAPTCHA-kat begépelje. Ekkor kezdtem magam rosszul érezni.
Először arra gondoltam, hogy nem szabadulhatunk meg csak úgy a CAPTCHA-któl hiszen a web biztonsága részben ezektől függ. Aztán azon kezdtem gondolkozni, hogy nem tudnánk-e felhasználni ezt az erőfeszítést valamire, ami hasznos az emberiségnek? Nos... a következőre jöttünk rá. Amikor valaki begépel egy CAPTCHA-t, abban a 10 másodpercben az illető agya valami csodálatos dolgot művel. Az emberi agy olyasmikre képes, amikre a számítógépek még nem. Szóval hogyan hasznosíthatnánk ezeket a 10 másodperceket? Másképpen fogalmazva, létezik-e olyan hatalmas probléma, amit még nem tudunk számítógépekkel megoldani, de fel tudunk darabolni picinyke 10 másodperces szeletekre, amiket egy felhasználó könnyedén meg tud oldani, mialatt megold egy CAPTCHA-t? A válasz "igen", és pontosan ez az amit jelenleg csinálunk.
Talán nem tudják, de ha mostanában begépelnek egy CAPTCHA-t, nem csak hitelesítik magukat, mint emberi lények, de ráadásul segítenek nekünk könyveket digitalizálni. Hadd magyarázzam el hogyan is működik ez. Sok projekt létezik, melyben könyveket próbálnak digitalizálni. A Google-nek is van egy ilyen projektje, és az Internet Archívumnak is. Az Amazon is, most épp a Kindle e-book olvasójához, szintén próbál könyveket digitalizálni. Ez alapvetően úgy történik, hogy fognak egy régi könyvet... Láttak már ilyen dolgokat ugye? Mármint könyveket... (Nevetés) Szóval fognak egy könyvet, és beszkennelik az egészet.
Namármost beszkennelni egy könyvet, olyan mintha a könyv minden oldaláról készítenénk egy digitális fotót. Lesz egy képünk a könyv összes oldaláról, ahol mindegyik képen rengeteg szöveg van. A folyamat következő lépése, hogy a számítógépnek képesnek kell lennie felismerni a képen található összes szót. Ehhez egy OCR nevű technológiát használnak, ami az 'Optical Character Recognition' rövidítése, (optikai karakterfelismerés) ami fog egy képet egy szövegről, és megpróbálja kitalálni, hogy milyen szöveg van benne. A probléma az, hogy az OCR nem tökéletes. Különösen régi könyvek esetén, ahol elmosódott a tinta és megsárgultak a lapok, az OCR sok szót nem képes felismerni. Például ha valamit több mint 50 évvel ezelőtt írtak, a számítógép úgy a szavak 30 százalékát nem képes felismerni. Tehát, amit mi csinálunk az az, hogy fogjuk az összes szót, amit a számítógép nem ismer fel, és embereket veszünk rá, hogy értelmezzék őket, mialatt begépelnek egy CAPTCHA-t az interneten.
Tehát a következő alkalommal mikor begépelnek egy CAPTCHA-t, ezek a szavak, amiket begépelnek valójában digitalizálás alatt álló könyvekből való szavak, amiket a számítógép nem tudott felismerni. Azért láthatnak mostanában két szót egy helyett, mert ezen szavak egyike, egy olyan szó, amit a rendszer épp most szedett ki egy könyvből, mivel nem tudta mi az, és így Önöknek fogja megmutatni. De mivel a rendszer nem tudja mi a szó, így nem képes értékelni a válaszok helyességét. Ezért adunk egy másik szót is, aminek a rendszer ténylegesen tudja a jelentését. Nem mondjuk meg melyik szó melyik, csak arra kérjük, hogy gépelje be mindkettőt. És ha begépelik a megfelelő szót, aminek a rendszer már tudja a jelentését, akkor feltételezi, hogy Önök emberek, és bizalommal feltételezi, hogy a másik szót is helyesen gépelték be. És ha ezt az eljárást megismételjük 10 különböző emberrel, és mindegyikük egyetért az új szó helyes begépelésében, akkor sikerült egy újabb szót pontosan digitalizálnunk.
Tehát így működik a rendszer. És mivel úgy négy vagy öt éve tettük közzé, sok weboldal átállt a régi CAPTCHA-ról, amivel az emberek az idejüket vesztegették, az új CAPTHCA-ra, amivel segítenek nekünk könyveket digitalizálni. Tehát például a Ticketmaster. Minden alkalommal, mikor vesznek egy jegyet a Ticketmasteren, segítenek digitalizálni egy könyvet. Facebook: minden alkalommal mikor megjelölnek valakit ismerősként, vagy megböknek valakit, segítenek digitalizálni egy könyvet. A Twitter is, és körülbelül 350.000 másik weboldal is a reCAPTCHA-t használ. Valójában olyan magas a reCAPTCHA-t használó weboldalak száma, hogy a naponta digitalizált szavak száma igencsak óriási. Körülbelül 100 millió naponta, ami úgy 2.5 millió könyvnek felel meg évente. És mindezt szavanként érjük el, azzal, hogy az emberek CAPTCHA-kat gépelnek az interneten.
Természetesen, mivel ilyen sok szóval dolgozunk naponta, vicces dolgok fordulhatnak elő. És ez most ráadásul különösen igaz, mivel most már két, véletlenszerűen választott angol szót adunk az embereknek egymás mellett. Így valóban vicces dolgok történhetnek. Egyszer például ezt a szót jelenítettük meg. Ez a "Keresztények" szó, semmi baj nincs vele. Azonban ha egy másik véletlenszerűen választott szóval együtt jelenítjük meg, szörnyű dolgok történhetnek. Így láthatjuk például ezt: "rossz keresztények" De a helyzet még ennél is rosszabb, hiszen a weboldal, ahol ezt a két szót mutattuk, éppenséggel az "Isten Királyságának Követsége" nevet viselte. (Nevetés) Hoppá. (Nevetés) Itt egy másik borzasztó eset. JohnEdwards.com (liberális politikus az Egyesült Államokban) "Átkozott liberális" (Nevetés) Szóval naponta sértegetjük az embereket bal és jobb oldalon egyaránt.
Persze nem csak sértegetjük őket. Tudják az a helyzet, hogy mióta két véletlenszerű szót mutatunk, érdekes dolgok tudnak megesni. Igazából a jelenség egy meglehetősen nagy internetes mémmé nőtte ki magát, amiben emberek tízezrei vettek részt, és amit CAPTCHA művészetnek hívunk. Bizonyára néhányan már hallottak róla. A következőképpen működik. Képzeljék el, hogy internetezés közben látnak egy CAPTCHA-t, amit valamiért különlegesnek tartanak, mint például ez a CAPTCHA: "láthatatlan kenyérpirító". Ilyenkor készítenek egy képernyőképet, aztán persze kitöltik a CAPTCHA-t, mert segítenek nekünk könyveket digitalizálni, de aztán... először csinálnak egy képernyőképet, és aztán rajzolnak valami odaillőt. "láthatatlan kenyérpirító" (Nevetés) Ez így működik. Több tízezer van ezekből. Némelyikük nagyon édes: "összeszorítottam" "összeszorítottam" (Nevetés) Némelyik viccesebb. "betépett alapítók" "betépett alapítók" (Nevetés) És némelyiken, mint a "paleontológikus shvizén"-n, még Snoop Dogg is feltűnik.
Oké, ez a kedvenc reCAPTCHA-s számom, vagyis ez az, amit leginkább kedvelek ebben a projektben. Ez a különböző emberek száma, akik segítettek nekünk a reCAPTCHA-n keresztül digitalizálni akár csak egyetlen szavát egy könyvnek. 750 millió ember, ami valamivel több, mint a világ lakosságának 10 százaléka, segített nekünk az emberi tudás digitalizálásában. És ezek azok a számok, amik leginkább motiválják a kutatási céljaimat. A következő kérdés motiválja a kutatásaimat: Ha az emberiség nagyléptékű eredményeit tekintjük, azokat melyek igazán hatalmasak, melyekben az emberiség összefogott egy történelmi tettre, mint például az egyiptomi piramisok megépítése, vagy a Panama Csatorna megépítése, vagy az első ember Holdra juttatása. Van egy közös vonás mindezekben, mégpedig az, hogy mindegyikhez körülbelül ugyanannyi ember munkája kellett, ami elég fura. Mindegyik úgy 100.000 ember munkájával jött létre. És ennek az az oka, hogy az internet előtt 100.000 embernél többet koordinálni, nemhogy megfizetni, lényegében lehetetlen volt. De manapság van internetünk, és épp most mutattam Önöknek egy projektet, melyben 750 millió ember segít nekünk digitalizálni az emberi tudást. Tehát a kérdés, ami a kutatásaimat motiválja az az, hogy ha képesek vagyunk 100.000 emberrel embert juttatni a Holdra, akkor mire vagyunk képesek 100 millió emberrel?
Erre a kérdésre alapozva, rengeteg különböző projekttel foglalkoztunk. Az egyikkel kapcsolatban különösen izgatott vagyok. Az elmúlt másfél évben ezen dolgoztunk, viszonylag csendesen. Hivatalosan még nem indult el. Duolingo a neve. Mivel még nem indult el, pssszt! (Nevetés) Oké, megbízom magukban. Tehát erről szól a projekt, és a következőképp indult. Azzal kezdődött, hogy feltettem egy kérdést az egyik végzős hallgatómnak, Severin Hacker-nek. Oké, ő itt Severin Hacker. Szóval feltettem a kérdést egy végzős hallgatómnak. Egyébként jól hallották, a vezetékneve Hacker. Feltettem neki a kérdést: Hogyan tehetünk szert 100 millió emberre, akik ingyen lefordítják a webet minden nagyobb nyelvre?
Rendben, tehát egy jó pár dolgot el kell mondani a kérdésről. Először is a web lefordítása. Ebben a pillanatban a web számos nyelvre van felosztva. Egy nagy része angol. Ha nem tudnak angolul, nem tudnak hozzáférni. De vannak hatalmas részei más nyelveken is, melyekhez szintén nem fér hozzá, aki nem beszél azokon a nyelveken. Én az egész webet szeretném lefordítani, legalábbis a nagy részét minden nagyobb nyelvre. Ezt szeretném tenni.
Néhányan talán most azt kérdezik, hogy miért nem használunk számítógépeket a fordításhoz? Miért nem használhatunk gépi fordítást? A gépi fordítás manapság már lefordít néhány mondatot itt-ott. Miért nem használjuk arra, hogy lefordítsuk az egész webet? Nos a probléma ezzel az, hogy még nem elég pontos, és valószínűleg nem is lesz az a következő 15-20 évben. Sokat hibázik. És még akkor is, mikor nem téved, mivel olyan sok hibát vét, nem tudhatjuk, hogy megbízhatunk-e benne.
Hadd mutassak egy példát valamire, ami gépi fordítással készült. Igazából ez egy fórum hozzászólás. Valaki a JavaScriptről próbált kérdezni valamit. Japánról lett angolra fordítva. Oké, hagyom, hogy elolvassák. Az író bocsánatkéréssel kezdi amiért a fordítást géppel végezte. A következő mondat a kérdés bevezetője, szóval az író csak magyaráz valamit. Ne feledjék, a kérdés a JavaScript nyelvről szól. "Gyakran a kecske-idő telepítésekor az hiba hányódik." (Nevetés) Aztán jön a kérdés első része. "Milyen sokszor mint a szél, egy rúd és egy sárkány?" (Nevetés) Aztán a kedvenc részem következik. "Ez sérti az apák köveit?" (Nevetés) Aztán jön a lezárás, ami a kedvencem az egész szövegben. "Elnézést kérek a butaságotokért. Nagyon sok köszönet van nektek." (Nevetés) Oké, tehát a gépi fordítás még nem elég jó. Tehát vissza a kérdéshez.
Emberekre van szükségünk, hogy lefordítsuk a webet. A következő kérdés, amit feltehetnének, hogy miért nem fizethetünk ezért az embereknek? Felvehetnénk hivatásos fordítókat, hogy lefordítsák az egész webet. Megtehetnénk. Sajnálatos módon ez elképesztően drága lenne. Vegyük például a web egy aprócska részének, a Wikipédiának a lefordítását egyetlen más nyelvre, spanyolra. A Wikipédia létezik spanyol nyelven is, de igen kicsi az angol nyelvű változathoz képest. Körülbelül az angol változat 20 százaléka. Ha le akarnánk fordítani a másik 80 százalékot spanyolra, az legalább 50 millió dollárba kerülne, még ha a legkihasználhatóbb, legszegényebb országba helyezzük is ki a munkát. Tehát nagyon drága lenne. Amit mi szeretnénk, az 100 millió ember, akik minden nagyobb nyelvre lefordítják a webet, ráadásul ingyen.
Ha ilyesmit szeretnének csinálni, elég hamar be fogják látni, hogy két elég magas lécet is át kell ugraniuk, két igen nagy akadályt. Az első a kétnyelvűek hiánya. Még azt sem tudom, hogy létezik-e egyáltalán 100 millió internethasználó a világon, akik elég jól beszélnek két nyelven ahhoz, hogy segíteni tudjanak. Ez egy nagy probléma. A másik akadály, amibe bele fognak futni, az a motiváció hiánya. Hogyan fogjuk ösztönözni az embereket, hogy ingyen lefordítsák a webet? Általában ezért fizetni kell az embereknek. Hogyan fogjuk rávenni őket, hogy ingyen csinálják? Amikor elkezdtünk gondolkozni az ügyön, ez a két dolog leblokkolt minket. De aztán rájöttünk, hogy valójában van egy módja annak, hogy egyszerre oldjuk meg mind a két problémát. Lehetséges két legyet ütni egy csapásra. Mégpedig azáltal, hogy átformáljuk a fordítást valamivé, amit emberek milliói szeretnének csinálni, és ami megoldja a kétnyelvűek hiányának problémáját is. Ez pedig a nyelvtanulás.
Kiderült, hogy napjainkban több mint 1.2 milliárd ember tanul valamilyen idegen nyelvet. Az emberek nagyon szeretnek idegen nyelveket tanulni. És nem csak azért, mert erre kényszerítik őket az iskolában. Például csak az Egyesült Államokban több mint öt millióan költöttek több mint 500 dollárt nyelvtanulást segítő szoftverre. Tehát az emberek tényleg nagyon szeretnek idegen nyelvet tanulni. Így mi egy új weblapon dolgoztunk az elmúlt másfél évben, melynek Duolingo a neve, melynek az alapötlete az, hogy az emberek ingyen tanulhatnak meg egy nyelvet, miközben a webet fordítják. Tehát tulajdonképpen azzal tanulják, hogy csinálják.
Ez úgy működik, hogy ha valaki teljesen kezdő, akkor nagyon egyszerű mondatokat adunk neki. Természetesen rengeteg nagyon egyszerű mondat van a weben. Mi nagyon egyszerű mondatokat adunk a felhasználónak, a mondatban lévő szavak jelentésével együtt. És ahogy ezeket fordítják, és látják mások miként fordítják őket, az emberek elkezdik megtanulni a nyelvet. És ahogy egyre ügyesebbek lesznek, úgy adunk egyre összetettebb mondatokat. De minden esetben azáltal tanulnak, hogy csinálják.
Az igazán őrült dolog ebben a módszerben az az, hogy ténylegesen működik. Először is a felhasználók ezáltal tényleg megtanulnak egy nyelvet. Nagyjából kész vagyunk a fejlesztéssel és most teszteljük. Az emberek tényleg képesek nyelvet tanulni vele. Méghozzá körülbelül annyira jól mint egy vezető nyelvtanulást segítő szoftverrel. Tehát az emberek tényleg megtanulnak egy nyelvet. És nem csak azonos hatékonysággal tanulják meg, de így sokkal érdekesebb is. Mert a Duolingoval az emberek valós szövegekkel tanulnak, nem nyelvtanuláshoz kreált mondatokkal. Az emberek valós tartalommal tanulnak, ami természeténél fogva érdekes. Szóval az emberek tényleg megtanulnak egy nyelvet.
De ami talán ennél is meglepőbb, a fordítás, amit a felhasználóktól kapunk, annak ellenére, hogy még csak kezdők, a fordítások épp olyan pontosak mint a hivatásos fordítók fordításai, ami eléggé meglepő. Hadd mutassak egy példát. Ezt a mondatot németből fordították angolra. A felső a német. A középső egy angol fordítás, amit egy hivatásos angol fordító készített, akinek szavanként 20 centet fizettünk a fordításért. Az alsó pedig a Duolingo felhasználóinak a fordítása, akik közül egyik sem tudott egy szót sem németül, mielőtt használni kezdték volna a weboldalt. Amint látják, a fordítás tulajdonképpen tökéletes. Persze itt trükközünk egy kicsit, hogy a fordítások olyan jók legyenek mint a hivatásos fordítóké. Több kezdő felhasználó fordítását kombináljuk, hogy elérjük az egyetlen hivatásos fordító által nyújtott minőséget.
De még azzal együtt is, hogy kombináljuk a fordításokat, a weboldal igen gyorsan képes fordítani. Hadd mutassam meg a becslésünket arról, hogy milyen gyorsan tudnánk lefordítani a Wikipédiát angolról spanyolra. Ne feledjék, ez itt 50 millió dollárnyi érték. Tehát ha spanyolra akarjuk fordítani a Wikipédiát, akkor ezt meg tudjuk tenni öt hét alatt, 100.000 aktív felhasználóval. Ugyanezt meg tudjuk tenni 80 óra alatt egymillió aktív felhasználóval. Mivel az összes projektnek, amin a csoportom eddig dolgozott, több millió felhasználója volt, reménytelien hisszük, hogy elképesztően gyorsan fogunk tudni fordítani ezzel a projekttel.
Leginkább amiatt vagyok izgatott a Duolingoval kapcsolatban, hogy szerintem ez egy korrekt üzleti modellt kínál a nyelvoktatáshoz. A helyzet a következő: A nyelvoktatás jelenlegi üzleti modellje szerint a tanuló fizet, mondjuk a Rosetta Stone cégnek 500 dollárt. (Nevetés) Ez a jelenlegi üzleti modell. Ezzel a modellel az a probléma, hogy a Föld lakosságának 95 százalékának nincs 500 dollárja. Tehát ez kimondottan igazságtalan a szegényekkel szemben, és elfogult a gazdagok felé. Namármost a Duolingoval, mivel a tanulással egyidejűleg a felhasználó értéket teremt, azzal hogy dolgokat fordít, amit mi kiszámlázhatunk másoknak mint fordítási díj. Így néz ki az anyagi oldal. Mivel az emberek értéket teremtenek tanulás közben, nem a pénzükkel fizetnek, hanem az idejükkel. De a varázslatos dolog az, hogy olyan idejükkel fizetnek, amit amúgy is azzal töltöttek volna, hogy tanulják a nyelvet. Szóval a Duolingoban az a szép, hogy korrekt üzleti modellt nyújt, ami nem diszkriminálja a szegényeket.
Ez hát a Duolingo. Köszönöm. (Taps) Ez tehát a weboldal. Még nem indítottuk el, de ha ellátogatnak az oldalra, részt vehetnek a privát béta verzióban, ami valószínűleg elindul a következő három-négy hétben. Még nem indítottuk el a Duolingot.
Egyébként, most csak én beszélek itt, de a Duolingo valójában egy fantasztikus csapat munkája, melynek itt látható néhány tagja. Köszönöm.
You can share this video by copying this HTML to your clipboard and pasting into your blog or web page. This video will play with subtitles.
You either have JavaScript turned off or have an old version of the Adobe Flash Player. To view this rating widget you
need to get the latest Flash player.
If your browser allows only "trusted sites" to execute Javascript, you should add the "googleapis.com" domain to your whitelist to allow our Flash detection to work properly.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation.
Miután új célt adott a CAPTCHA-knak, hogy az emberek által begépelt válaszok könyvek digitalizálását segítsék, Luis von Ahn azon töprengett, hogy még hogyan lehetne felhasználni egy nagyobb cél érdekében sok-sok ember picinyke közreműködését az interneten. A TEDxCMU rendezvényen megosztja velünk, hogy az ambíciózus új projektje - a Duolingo - miként fog millióknak segíteni egy új nyelv megtanulásában mialatt a webet fordítják gyorsan és pontosan -- és mindezt ráadásul ingyen.
Luis von Ahn builds systems that combine humans and computers to solve large-scale problems that neither can solve alone. Full bio »
Translated into Hungarian by David Bernhardt
Reviewed by Laszlo Kereszturi
Comments? Please email the translators above.
18:18 Posted: May 2011
Views 684,099 | Comments 75
05:29 Posted: Aug 2011
Views 790,035 | Comments 168
13:07 Posted: Jun 2010
Views 576,282 | Comments 227
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign Out.