Follow TED
Be the first to know about new TEDTalks, TED news and other announcements.
Click on any phrase to play the video from that point.
Колко от вас е трябвало да попълват някаква уеб форма, където сте били помолени да прочетете разкривена последователност от символи, като тези? Колко от вас намират това за наистина, ама наистина досадно? Добре, страхотно. Ами, аз измислих това. (Смях) Или аз бях един от хората, които го направиха.
Това нещо се нарича CAPTCHA. И причината, поради която съществува това е за да се уверим, че този, който попълва формуляра, е всъщност човек, а не някаква компютърна програма, която е написана за да изпрати формуляра милиони и милиони пъти. Причината, поради която това работи, е понеже хората, или поне хората с ненарушено зрение, нямат проблеми да разчетат тези изкривени деформирани символи, докато компютърните програми просто не могат да го направят, все още, толкова добре. Така например, в случая с Ticketmaster, причината, поради която трябва да въвеждате тези изкривени символи е да предотвратите спекулатори да напишат програма, която може да купи милиони билети, по два в даден момент.
CAPTCHA се използват навсякъде из Интернет. И понеже те се използват толкова често, доста често точната последователност от произволни символи, която се показва на потребителя не е толкова щастлива. Това е пример от страницата за регистрация на Yahoo. Случайните символи, които били показани на потребителя били W, A, I, T (ЧАКАЙ), което, разбира се, означава дума. Но най-добрата част е съобщението, което бюрото за помощ на Yahoo получило около 20 минути по-късно. Текст: "Помогнете! Чакам повече от 20 минути и нищо не се случва." (Смях) Този човек си мислил, че трябва да чака. Това, разбира се, не е толкова зле, колкото този беден човек.
Проектът CAPTCHA е нещо, което започнахме преди повече от 10 години тук, в университа "Карнеги Мелън," и се използва навсякъде. Позволете ми сега да ви разкажа за един проект, който започнахме няколко години по-късно, който е нещо като еволюция на CAPTCHA. Това е проект, който нарекохме reCAPTCHA, което е нещо, което започнахме тук в "Карнеги Мелън," което превърнахме в последствие в стартъп компания. И после преди около година и половина, Google всъщност придоби тази компания.
Така че нека ви кажа какво започна този проект. Този проект започна от осъзнаването на следното: оказва се, че около 200 милиона CAPTCHA се въвеждат всеки ден от хора по целия свят. Когато за първи път чух това, бях много горд от себе си. Помислих си, погледнете въздействието, което моето изследване е оказало. Но после започнах да се чувствам зле. Виждате ли, всеки път, когато въведете CAPTCHA, по същество вие губите 10 секунди от времето си. И ако умножите това по 200 милиона, получавате, че човечеството като цяло губи около 500 000 часа всеки ден, въвеждайки тези досадни CAPTCHA. Така че тогава започнах да се чувствам зле.
И тогава започнах да си мисля, добре, разбира се, не може просто да се отървем от CAPTCHA, защото сигурността на уеба зависи до известна степен от тях. Но после започнах да си мисля, дали по някакъв начин можем да използваме това усилие за нещо, което е полезно за човечеството? Виждате ли, това е идеята. Докато се опитвате да напишете CAPTCHA, през тези 10 секунди, мозъка ви прави нещо изумително. Вашият мозък прави нещо, което компютрите все още не могат да направят. Така че можем ли да ви накараме да свършите нещо полезно за тези 10 секунди? Или казано другояче, има ли някакъв огромен проблем, който все още не може да бъде разрешен от компютрите, но който можем да разделим на малки 10-секундни части, такива, че всеки път, когато някой решава CAPTCHA, те решават малко и от този проблем? И отговора на този въпрос е "да," и ние правим това сега.
Така че това, което може да не знаете е, че днес, докато пишете CAPTCHA, вие не само се удостоверявате като човек, но в допълнение, вие всъщност ни помагате да дигитализираме книги. Така че нека да обясня как работи това. Има много проекти, които се опитват да дигитализират книги. Google има един. Internet Archive има друг. Amazon, сега с Kindle, се опитва да дигитализира книги. В основни линии, начина, по който работи това е да започнете с една стара книга. Вие сте виждали такива неща, нали? Книги? (Смях) Така че започвате с книга и после я сканирате.
Сканирането на книга е като правенето на дигитална снимка на всяка страница на книгата. Това произвежда изображение за всяка страница на книгата. Това е изображение с текст за всяка страница на книгата. Следващата стъпка в процеса е, че компютърът трябва да може да дешифрира всички думи в това изображение. Това става с помоща на технология наречена ОРС, оптично разпознаване на символи, което взема изображение с текст и се опитва да разбере какъв е текста. Проблемът е, че ОРС не е съвършено. Особено при по-стари книги, където мастилото е избледняло и страниците са пожълтяли, ОРС не може да разпознае много от думите. Например, за неща, които са написани преди повече от 50 години, компютърът не може да разпознае около 30% от думите. Така че това, което правим сега е, че вземаме всички думи, които компютърът не може да разпознае и караме хората да ни ги прочетат, докато пишат CAPTCHA в Интернет.
Така че следващия път, когато въвеждате CAPTCHA, тези думи, които въвеждате са всъщност думи, които идват от книги, които биват дигитализирани, които компютърът не може да разпознае. И сега причината, поради която имаме две думи днес, вместо една, е понеже, виждате ли, една от думите системата просто извлича от книгата, не знае каква е, и ви я представя на вас. Но понеже не знае отговора, тя не може да го оцени за вас. Така че това, което правим е, че ви даваме друга дума, такава, за която системата знае отговора. Ние не ви казваме коя дума каква е, а ви караме да въведете и двете. И ако въведете правилната дума, за тази, за която системата вече знае отговора, тя предполага, че сте човек, и също получава известна увереност, че сте въвели правилно другата дума. И ако повторим този процес с още 10 различни хора, и всички те са съгласни за това каква е новата дума, тогава ние получаваме още една дума дигитализирана прецизно.
Така че това е начина, по който работи системата. И в общи линии, откакто я пуснахме преди около три-четири години, много сайтове започнаха да се прехвърлят от старата CAPTCHA, където хората си губеха времето към новата CAPTCHA, където хората помагат за дигитализирането на книги. Така например, Ticketmaster. Така че всеки път, когато си купите билети от Ticketmaster, вие помагате да се дигитализира книга. Facebook: Всеки път, когато добавяте приятел или сръчквате някого, вие помагате да се дигитализира книга. Twitter и около 350 хиляди други сайтове използват reCAPTCHA. И всъщност, броят на сайтовете, които използват reCAPTCHA е толкова голям, че броят на думите, които дигитализираме на ден е много, много голям. Това са около 100 милиона на ден, което е еквивалента на около два и половина милиона книги годишно. И всичко това се прави дума по дума, просто като хората въвеждат CAPTCHA в Интернет.
Сега, разбира се, тъй като използваме толкова много думи на ден, смешни неща могат да се случат. И това е особено вярно, защото сега ние даваме на хората две произволно подбрани английски думи една до друга. Така че смешни неща могат да се случат. Например, ние представихме тази дума. Това е думата "християни"; няма нищо лошо в това. Но ако я представите заедно с друга случайно подбрана дума, лоши неща могат да се получат. Така ние получихме това. (Текст: лоши християни) Но това е още по-лошо, защото уебсайта, където показахме това всъщност се нарича "Посолството на кралството на Господ." (Смях) Опа. (Смях) Ето още една наистина лоша. JohnEdwards.com (Текст: Проклет либерал) (Смях) Така че ние продължаваме да обиждаме хората наляво и надясно ежедневно.
Сега, разбира се, ние не просто обиждаме хората. Понеже представяме две произволно избрани думи, интересни неща могат да се случат. Така че това всъщност доведе до наистина голяма Интернет мания, в която участват десетки хиляди хора, която се нарича CAPTCHA изкуство. Сигурен съм, че някои от вас са чували за него. Ето как работи. Представете си, че използвате Интернет и виждате CAPTCHA, която смятате, че е малко особена, като тази CAPTCHA. (Текст: невидим тостер) Тогава това, което трябва да направите е скрийншот с нея. После, разбира се, вие попълвате CAPTCHA, защото ни помагате да дигитализираме книга. Но след това, първо правите скрийншот, а после рисувате нещо, което е свързано с нея. (Смях) Ето така работи това. Има десетки хиляди от тези. Някои от тях са много сладки. (Текст: стиснах го) (Смях) Някои от тях са по-забавни. (Текст: дрогирани основатели) (Смях) И някои от тях, като палеонтологичен швизъл, те съдържат Снууп Дог.
Добре, това е любимото ми число свързано с reCAPTCHA. Това е най-любимото нещо, което ми харесва в целия този проект. Това е броят на различните хора, които са ни помогнали да дигитализираме поне една дума от книга чрез reCAPTCHA: 750 милиона, което е малко над 10% от населението на света, са ни помогнали да дигитализираме човешкото познание. И числа като тези ме мотивират в моите изследвания. Така че въпросът, който мотивира моите изследвания е следния: Ако се вгледате в мащабните постижения на човечеството, тези наистина големи неща, които човечеството е организирало заедно и направило исторически -- като например, изграждането на пирамидите в Египет, или Панамския канал, или изпращането на човек на Луната -- има любопитен факт свързан с всички тях, и той е, че всички те са направени с приблизително същия брой хора. Това е странно, всички те се направени с около 100 000 души. И причината за това е понеже, преди Интернет, координирането на повече от 100 000 души, да не говорим за заплащането им, по същество бе невъзможно. Но сега с Интернет, току-що ви показах проект, в който привлякохме 750 милиона души да ни помогнат да дигитализираме човешкото познание. Така че въпроса, който мотивира моите изследвания е, ако можахме да изпратим човек на Луната със 100 000, какво можем да направим със 100 милиона?
И така, на базата на този въпрос, имаме много различни проекти, над които работим. Нека ви разкажа за един, за който съм най-развълнуван. Това е нещо, над което работехме полу-тайно през последната година и половина. Все още не е стартирало. Нарича се Duolingo. Понеже все още не е стартирало, шшшт! (Смях) Да, мога да се доверя, че ще направите това. Така че това е проекта. Ето как започна. Той започна с въпрос, който зададох на мой дипломант, Северин Хакер. Добре, това е Северин Хакер. И така, аз поставих въпрос на моя дипломант. Между другото, чухте ме правилно; последното му име е Хакер. Така че му поставих този въпрос: Как можем да накараме 100 милиона души да преведат уеба на всеки главен език безплатно?
Добре, има много неща да се кажат по този въпрос. Първо, превеждането на уеба. В момента уеба е разделен на няколко езика. Голяма част от него е на английски език. Ако не знаете английски, не можете да получите достъп до нея. Но има големи части и на други различни езици, и ако не знаете тези езици, не може да получите достъп до тях. Така че бих искал да преведа целия уеб, или поне по-голяма част от него, на всеки по-значим език. Така че това е, което бих искал да направя.
Някои от вас може да кажат: "Защо да не използваме компютри за превода?" Защо не можем да използваме машинен превод? Машинният превод в днешно време започва да превежда някои изречения тук и там. Защо не можем да го използваме, за да преведем целия уеб? Ами проблема с това е, че все още не е достатъчно добър и вероятно няма да бъде за следващите 15 до 20 години. Той извършва доста грешки. Дори и когато не прави грешка, понеже прави толкова много грешки, не знаем дали да му се доверим или не.
Нека ви покажа пример за нещо, което е преведено с машина. Всъщност това е публикация във форум. Това беше някой, който се опитваше да зададе въпрос за JavaScript. Той беше преведен от японски на английски език. Ще ви оставя да го прочетете. Този човек започва да се извинява за факта, че това е преведено с компютър. Така че следващото изречение е преамбюла към въпроса. Така че той просто обяснява нещо. Помнете, това е въпрос за JavaScript. (Текст: Често, козата-време инсталирана грешка е бълвоч.) (Смях) После идва първата част на въпроса. (Текст: Колко пъти като вятъра, стълб и дракона?) (Смях) После идва любимата ми част от въпроса. (Текст: Това е обида за топките на бащата?) (Смях) И после идва краят, който е любимата ми част от цялото това нещо. (Текст: Моля извинете се за вашата глупост. Има много ви благодаря.) (Смях) Добре, значи компютърния превод все още не достатъчно добър. Така че обратно на въпроса.
Ние се нуждаем от хора, за да преведем целия уеб. Сега следващият въпрос, който може да имате е: "Ами, защо не можем просто да платим на хора да направят това?" Бихме могли да платим на професионални преводачи за да преведат целия уеб. Бихме могли да направим това. За съжаление, това би било изключително скъпо. Например, превеждането на една малка, незначима част от цялата мрежа, Wikipedia, на един друг език, испански. Wikipedia съществува на испански, но е много малка в сравнение с големината на английски език. Тя е около 20% от големината на английски език. Ако искахме да преведем останалите 80 процента на испански, това би струвало най-малко 50 милиона долара -- и това е дори при най-експлоатираната, аутсорсвана страна, която съществува. Така че това би било много скъпо. Така че това, което искаме да направим е, че искаме да привлечем 100 милиона души, които да преведат уеба на всеки по-голям език, безплатно.
Сега, ако това е, което искате да направите, доста бързо ще осъзнаете, че ще се натъкнете на две доста сериозни пречки, две големи препятствия. Първото е липсата на двуезични хора. Аз дори не знам дали съществуват 100 милиона души, използващи уеба -- които знаят два езика достатъчно добре, за да ни помогнат с превода. Това е голям проблем. Другият проблем, с който ще се сблъскате, е липсата на мотивация. Как да мотивираме хората да преведат уеба безплатно? Нормално, трябва да се плати на хората да направят това. Така че, как да ги мотивираме да го направят безплатно? Когато започнахме да мислим над това, ние бяхме блокирани от тези две неща. Но после осъзнахме, че всъщност има начин за справянето с тези проблеми, с едно и също решение. Има начин да убием две птици с един камък. И това е да трансформираме превеждането на езика в нещо, което милиони хора искат да правят, и което също помага с проблема за липсата на двуезични хора, и това е езиковото образование.
Оказва се, че днес има над 1,2 милиарда хора, изучаващи чужд език. Хората наистина, ама наистина искат да научат чужд език. И това не е само защото те са принудени да правят това в училище. Например, само в Съединените щати, има над пет милиона души, които са платили над 500 долара за софтуер за учене на нов език. Така че хората наистина, ама наистина искат да научат нов език. Така че това, над което работихме през последната година и половина е един нов уебсайт -- нарича се Duolingo -- където основната идея е хората да научат нов език безплатно, като междувременно превеждат уеба. Така че те се учат чрез вършене на нещо.
Така че начина, по който това работи е, когато сте начинаещ, ние ви даваме много, много прости изречения. Има, разбира се, много доста прости изречения в Интернета. Даваме ви много, много прости изречения, заедно със значението на всяка дума. И като ги превеждате, и като видите как други хора са ги превели, започвате изучаването на езика. И като ставате все по- и по-напреднали, ние ви даваме все повече и по-сложни изречения за превеждане. Но през цялото време, вие се учите чрез вършене.
Лудото нещо при този метод е, че всъщност наистина работи. На първо място, хората наистина, ама наистина научават езика. Ние почти сме приключили с изграждането и сега го тестваме. Хората наистина могат да научат език с него. И те го научават почти толкова добре, колкото при водещия софтуер за изучаване на чужди езици. Така че хората наистина научават език. И не само го научават толкова добре, но всъщност това е доста по-интересно. Защото, виждате ли, с Duolingo, хората всъщност учат с реален материал. За разлика от обучението с измислени изречения, хората се учат с реален материал, което е неизменно интересно. Така че хората наистина се научават език.
Но може би още по-изненадващо е, че преводите, които получаваме от хората, които използват сайта, въпреки че те са просто начинаещи, преводите, които получаваме, са почти толкова точни, колкото тези от професионални преводачи, което е доста изненадващо. Нека ви покажа един пример. Това е изречение, което e преведено от немски на английски език. Отгоре е немския. По средата е превод на английски език, който беше направен от някой, който е професионален преводач на английски, на когото платихме 20 цента на дума за този превод. А в дъното е превода от потребителите на Duolingo, нито един от тях не знаеше немски, преди да започнат да ползват сайта. Можете да видите, че е почти перфектен. Сега, разбира се, ние използваме трик тук, за да направим преводите толкова добри, колкото при професионалните преводачи. Ние съчетаваме преводите на множество начинаещи, за да получим качеството на един професионален преводач.
Но въпреки че комбинираме преводите, сайта всъщност може да превежда доста бързо. Така че, нека да ви покажа, това е преценката ни за това колко бързо може да преведем Wikipedia от английски на испански. Не забравяйте, че това струва 50 милиона долара. Така че, ако искахме да преведем Wikipedia на испански език, можем да го направим за пет седмици със 100 000 активни потребители. И можем да го направим за около 80 часа с един милион активни потребители. Тъй като всички проекти, над които моята група е работила досега, имат милиони потребители, ние се надява, че ще можем да превеждаме изключително бързо с този проект.
Нещото, за което най-много се вълнувам при Duolingo е, мисля, че това осигурява справедлив бизнес модел за езиково обучение. Ето защо е така: Настоящият бизнес модел за езиково обучение е, че студентът плаща, и по-специално, студентът плаща на Rosetta Stone 500 долара. (Смях) Това е настоящият бизнес модел. Проблемът с този бизнес модел е, че 95% от населението на света няма 500 долара. Така че това е изключително несправедливо към бедните. Това е напълно предразположено към богатите. Но сега виждате ли, при Duolingo, понеже докато се учите, вие всъщност създавате нещо стойностно, вие превеждате неща -- за което например, бихме могли да поискаме пари за преводи. Така че ето как бихме могли да печелим от това. Понеже хората създават нещо стойностно, докато се учат, те не трябва да плащат пари, те плащат с времето си. Но магическото нещо тук е, че те плащат с времето си, но това е време, което е трябвало да пропилеят, така или иначе, за изучаване на езика. Така че хубавото нещо на Duolingo е, мисля, че той осигурява справедлив бизнес модел, който не дискриминира бедните хора.
Ето го сайта. Благодаря ви. (Ръкопляскания) Ето го сайта. Все още не сме започнали официално, но ако отидете там, може да се регистрирате да станете част от бета тестовете, които най-вероятно ще започнат след около три или четири седмици. Все още не сме стартирали Duolingo.
Между другото, аз съм този, който говори тук, но всъщност Duolingo е работа на един наистина страхотен екип, някои от които са тук. Така че благодаря.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation, or join one of these:
След като нагодил CAPTCHA, така че всеки отговор написан от човек да помага за дигитализирането на книги, Луис фон Ан се чудел как иначе да се използват малки приноси от мнозина в Интернет за всеобщото добро. На TEDxCMU, той споделя как неговият нов амбициозен проект, Duolingo, ще помогне на милиони да научат нов език, докато превеждат уеба бързо и точно -- и всичко това ще бъде безплатно.
Luis von Ahn builds systems that combine humans and computers to solve large-scale problems that neither can solve alone. Full bio »
Translated into Bulgarian by Anton Hikov
Reviewed by Darina Stoyanova
Comments? Please email the translators above.
Before the Internet, coordinating more than 100,000 people, let alone paying them, was essentially impossible. But now with the Internet, I’ve just shown you a project where we’ve gotten 750 million people to help us digitize human knowledge.” (Luis von Ahn)
18:18 Posted: May 2011
Views 511,105 | Comments 69
05:29 Posted: Aug 2011
Views 642,333 | Comments 155
13:07 Posted: Jun 2010
Views 436,929 | Comments 215
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign out.