Скільком з вас доводилось заповнювати веб-форми, де треба було прочитати спотворену послідовність символів, на зразок цієї? І скільком з вас це здавалось дійсно дратівливим? Добре, чудово. Насправді, я винайшов це. (Сміх) Точніше, я був одним з тих, хто зробив це.
Ця річ називається CAPTCHA. І її головна мета полягає в том, щоб впевнитись, що той, хто заповнює форму, є дійсно людиною, а не комп'ютерною програмою, яка була створена, щоб заповнювати форму мільйони й мільйони разів. Принцип, за яким вона працює, полягає в тому, що люди, принаймні зрячі люди, не мають проблем з прочитанням цих пошкоджених символів, натомість комп'ютерні програми просто не можуть все ще робити це добре. Тож, наприклад, у випадку з Ticketmaster, причина за якою вам необхідно вводити ці покручені символи в тому, щоб запобігти спекулянтам писати програми, які можуть купувати мільйони квитків за раз.
CAPTCHA використовується скрізь в Інтернеті. І через те, що вони використовуються так часто, точні послідовності довільних символів, які бачить користувач, бувають не дуже вдалими. Це приклад зі сторінки реєстрації Yahoo. Довільні символи, які були показані користувачу: W, A, I, T, які дійсно звелись до слова (англ. "чекайте"). Але найкраща частина -- це повідомлення, яке служба підтримки Yahoo отримала 20 хвилин по тому. Повідомлення: "Допоможіть! Я чекав понад 20 хвилин і нічого не відбулось". (Сміх) Ця людина подумала, що треба зачекати. Це звісно не так погано, як у цьому випадку.
Проект CAPTCHA - це те, що ми зробили тут в Університеті Карнегі-Мелон понад 10 років тому, і він використовується усюди. Дозвольте тепер розповісти про проект, який ми зробили декілька років по тому. Це певний крок в еволюції CAPTCHA. Це проект, який ми назвали reCAPTCHA, що ми також розпочали тут у Карнегі-Мелон, а потім перетворили у стартап-компанію. Потім десь через півтора року Google придбав цю компанію.
Тож дозвольте розповісти про цей проект. Цей проект розпочався з наступного усвідомлення. З'ясувалось, що приблизно 200 мільйонів CAPTCHA кодів щодня вводяться людьми по всьому світу. Коли я вперше почув це, я дуже пишався собою. Я думав про вплив, який зробили мої дослідження. Але невдовзі став почуватись гірше Справа в тому, що кожен раз, коли ви вводите CAPTCHA, ви витрачаєте приблизно 10 секунд вашого життя. І, якщо помножити це на 200 мільйонів, то виявиться, що людство витрачає приблизно 500 000 годин щодня, заповнюючи ці дратівливі CAPTCHA коди. Тож я почувався пригніченим.
Потім я почав думати: добре, ми не можемо просто позбутись CAPTCHA, адже безпека Веб залежить від них. Але потім я почав розмірковувати, чи існує шлях, коли ми зможемо використати це для чогось корисного людям? Тож, ось в чому справа. Коли ви вводите CAPTCHA код, упродовж 10 секунд ваш мозок робить щось дивовижне. Ваш мозок робить щось, що комп'ютери не можуть досі зробити. Чи можемо ми дати вам корисну роботу протягом цих 10 секунд? Іншими словами, чи є якась гомогенна проблема, яку комп'ютери ще досі не вміють розв'язувати, але яку б ми могли розбити на маленькі 10-секундні порції, таким чином, що коли хтось вводить CAPTCHA, він розв'язує невеликий шматок цієї проблеми? І відповідь на це: "так". І це те, що ми зараз робимо.
Тож, можливо ви не знаєте, але сьогодні, коли ви вводите CAPTCHA, ви не тільки підтверджуєте, що ви насправді людина, але й додатково допомагаєте нам оцифровувати книги. Дозвольте пояснити, як це працює. Існує багато проектів, які намагаються оцифровувати книги. Google має такий. Інший є в Internet Archive. Зараз Amazon з Kindle намагаються оцифровувати книги. В двох словах це працює так: ви берете стару книгу. Ви бачили ці штуки, так? Книги? (Сміх) Тож ви берете книгу і потім скануєте її.
Сканування книги -- це як зробити цифрові фотографії кожної сторінки книги. Це дає вам зображення кожної сторінки книги. Це зображення з текстом кожної сторінки книги. Наступний крок в процесі -- комп'ютер повинен розшифрувати всі ці слова на зображенні. Тут використовується технологія ОРС, оптичного розпізнавання символів, яка бере зображення тексту і намагається зрозуміти, що ж за текст там представлений. Проблема в тому, що ОРС не є досконалою. Особливо для старих книг, де чорнила потьмяніли, а сторінки пожовтіли. ОРС не може розпізнавати багато слів. Наприклад, для речей, які були написані більше 50 років тому, комп'ютер не може розпізнати приблизно 30 відсотків слів. Те, що ми робимо зараз -- це ми беремо всі ці слова, які комп'ютер не зміг розпізнати і даємо їх людям, щоб ті змогли їх прочитати для нас в той час, коли вводять CAPTCHA в мережі.
Тож наступного разу, коли ви вводите CAPTCHA, ці слова, що вводите, насправді походять з книг, які оцифровуються, що комп'ютер не зміг розпізнати. І причина, чому зараз ми маємо два слова замість одного, полягає в тому, що одне з цих слів -- це слово, яке система щойно взяла з книги та не знає що це за слово, тож вона надає його вам. Але через те, що вона не знає правильної відповіді, вона не може оцінити вашу відповідь. Тож ми даємо інше слово, щодо якого система знає правильну відповідь. Ми не кажемо вам яке з них відоме. Ми просто просимо ввести обидва. І якщо ви вводите правильно слово, яке вже відомо системі, вона вважає вас за людину. А також вона отримає деяку впевненість, що ви правильно ввели інше слово. Якщо ми повторимо цей процес з 10 різними людьми і всі вони погодяться щодо нового слова, тоді ми отримуємо одне нове правильно оцифроване слово.
Тож таким чином ця система працює. Ми запустили її приблизно три-чотири роки тому і багато веб сайтів перейшли зі старої CAPTCHA, де люди просто марнували свій час, до нового CAPTCHA, де люди допомагають оцифровувати книги. Як, наприклад, Ticketmaster. Кожного разу купуючи квиток на Ticketmaster, ви допомагаєте оцифровувати книги. Фейсбук: кожного разу, коли додаєте друга або видаляєте когось, ви допомагаєте оцифровувати книги. Твітер та приблизно 350 000 інших сайтів використовують reCAPTCHA. І насправді, кількість сайтів, які використовують reCAPTCHA настільки велика, що кількість слів, які ми оцифровуємо щодня дійсно дуже-дуже велика. Приблизно 100 мільйонів щодня, що відповідає приблизно 2,5 мільйонам книг на рік. І це все робиться завдяки одному слову за раз людьми, які просто вводять CAPTCHA в мережі.
Тепер, звісно, коли ми робимо стільки слів щодня, можуть відбуватись різні кумедні речі. І це справедливо, тому що ми даємо людям два випадкових англійських слова, які розташовані поруч. Тож з'являються кумедні речі. Наприклад, ми дали це слово. Це слово "Християни"; з ним немає нічого особливого. Але якщо представити його з іншим випадково обраним словом, можуть трапитись погані речі. Тож ми отримали це. (Текст: Погані християни) Найгірше те, що ми показали це на веб сайті, який називався "Посольство Королівства Бога". (Сміх) Ой. (Сміх) Ось ще одне невдале. JohnEdwards.com (сайт сенатора-демократа у США) (Текст: Кляті ліберали) (Сміх) Тож ми продовжуємо обурювати людей щодня.
Звісно, ми не тільки обурюємо людей. Через те, що ми представляємо два випадково обраних слова, можуть траплятись цікаві речі. І це перетворилось на дійсно великий Інтернет мем, в якому приймають участь десятки тисяч людей, що називається "Мистецтво CAPTCHA". Я не певен, що ви чули про нього. Ось як він працює. Уявіть собі, що ви використовуєте Інтернет і ви бачите CAPTCHA, яке вам здається достатньо своєрідним, як це. (Текст: невидимий тостер). Вам лишається зробити екранну копію цього CAPTCHA. Звісно, потім вам потрібно його заповнити, адже ви допомагаєте нам оцифровувати книги. Але перед цим ви спочатку робите екранну копію, а потім малюєте щось пов'язане з нею. (Сміх) Так воно працює. І таких десятки тисяч. Деякі з них дуже дотепні (Текст: стисни його). (Сміх) Деякі навіть смішніші. (Текст: скам'янілі засновники) (Сміх) А деякі з них, як палеонтологічний швісл (сленг: "палеонтологічний, полюбому"), містять Снуп Догга.
Добре, це моє улюблене число reCAPTCHA. Це моя улюблена річ, яка пов'язана з усім проектом. Це кількість різних людей, які допомогли нам оцифровувати хоча б одне слово за допомогою reCAPTCHA: 750 мільйонів, що трохи більше за 10 відсотків населення світу, допомогли нам оцифрувати знання людства. І подібні числа мотивують мою дослідницьку роботу. Питання, яке мотивує мої дослідження, наступне. Якщо ви подивитесь на великі досягнення людства, на ці дійсно великі речі, які люди робили разом протягом історії -- наприклад, будівництво єгипетських пирамід або панамського каналу, або політ людини на Місяць -- з ними пов'язаний цікавий факт. Всі вони створювались приблизно однаковою кількістю людей. Це приголомшує. Всі вони були здійснені за участю приблизно 100 000 людей. І причина в тому, що до існування Інтернету, зібрати та скоординувати більше 100 000 людей, а тим паче заплатити їм, було практично неможливо. Але зараз, завдяки Інтернету я щойно показав вам проект, в якому ми зібрали 750 мільйонів людей, щоб допомогти оцифрувати знання людства. Питання, яке мотивує мої дослідження: якщо ми можемо запустити людину на Місяць за допомогою 100 000, що ми можемо зробити із 100 мільйонами?
Ґрунтуючись на цьому питанні, ми зробили багато різних проектів. Дозвольте розповісти про один з найбільш цікавих, як на мене. Це те, над чим ми тихенько працюємо десь приблизно останні півтора роки. Він ще на запущений. Називається проект -- Duolingo. Через те, що він не запущений, -- шшшш! (Сміх) Так, я можу вам в цьому довіритись. Тож, так цей проект розпочався. Він почався з мого запитання до одного з моїх випускників. Северін Хакер. Добре, це Северін Хакер. Тож, я поставив йому запитання. Між іншим, ви правильно мене почули: його прізвище Хакер. Я поставив йому питання: як ми можемо залучити 100 мільйонів людей безкоштовно перекласти увесь Веб на всі основні мови?
Добре, тут є багато про що поговорити. По-перше, переклад Вебу. Зараз Веб поділений на багато мов. Велика частина його -- англійською. Якщо ви не знаєте англійської, ви не маєте до неї доступ. Але також існують великі частини на інших мовах, і якщо ви не знаєте цих мов, то ви не маєте доступу до них. Тож я хотів би перекласти увесь Веб, або хоча б його більшу частину на всі основні мови. Це те що я хотів би зробити.
Дехто з вас може спитати: чому не використати комп'ютерні перекладачі? Чому не можна використати автоматичний переклад? Автоматичний переклад наразі використовується у різних галузях. Чому не можна використати його для перекладу всього Вебу? Проблема тут полягає в тому, що він не достатньо якісний і, можливо, буде лишатись таким найближчі 15-20 років. Він робить багато помилок. Навіть коли він не робить помилок, через те, що він робить багато помилок, ви не знаєте довіряти йому чи ні.
Дозвольте навести приклад того, що було перекладено комп'ютером. Це був пост на форумі. Це був хтось, хто намагався поставити питання про JavaScript. Це було перекладено з японської на англійську. Тож я просто дам вам це прочитати. Ця особа почала з вибачень за використання машинного перекладу. Наступне речення -- це преамбула до самого питання. Він просто щось пояснює. Пам'ятайте, це питання про JavaScript. (Текст: На часто, кози-час установки помилка блювоту.) (Сміх) Далі йде перша частина питання. (Текст: Скільки разів, як вітер, полюс, і дракон?) (Сміх) Далі моя найулюбленіша частина питання. (Текст: Це образа для каменів батька?) (Сміх) І далі завершення, яке я взагалі дуже люблю. (Текст: Будь ласка, вибачте за вашу тупість. Є багато дякую.) (Сміх) Тож машинний переклад все ще не достатньо якісний. Повернемось до нашого питання.
Нам потрібні люди для перекладу всього Вебу. Наступне питання може бути таким: чому б нам просто не заплатити за це людям? Ми можемо заплатити професійним перекладачам для перекладу всього Вебу. Ми можемо це. На жаль, це буде надзвичайно дорого. Наприклад, переклад маленької, дрібненької частинки всього Вебу -- Вікіпедії -- на іншу мову, іспанську. Вікіпедія представлена іспанською, але вона дуже маленька порівняно з розмірами англійської частини. Вона становить приблизно 20% від розміру англійської. Якщо ми хочемо перекласти іспанською інші 80%, то це буде коштувати мінімум 50 мільйонів доларів -- і це тільки для країни, з найбільш дешевою працею. Тож це буде дуже дорого. А те що ми хочемо зробити -- це взяти 100 мільйонів людей для перекладу Вебу на всі основні мови безкоштовно.
І якщо це все, що ви хочете зробити, то дуже швидко ви зрозумієте, що стикнетесь з двома великими перепонами, двома великими завадами. Перша -- це брак двомовних людей. Я навіть не знаю, чи існує 100 мільйонів людей, які використовують Веб і які достатньо володіють двома мовами, щоб допомогти нам у перекладі. Це велика проблема. Інша проблема -- ви стикнетесь з відсутністю мотивації. Як ви збираєтесь заохотити людей перекласти Веб безкоштовно? Зазвичай ви повинні заплатити людям за це. Тож як ви збираєтесь мотивувати їх зробити це безкоштовно? Коли ми почали думати над цим, то зупинились на цих двох речах. Але потім ми зрозуміли, що існує спосіб розв'язати ці дві проблеми одним рішенням. Існує спосіб вбити двох зайців одразу. І він полягає у перетворенні перекладу з мови на мову на щось, що мільйони людей захочуть зробити і це також допоможе з проблемою двомовних людей, і це -- вивчення мов.
Виявляється, що сьогодні є більше 1,2 мільярда людей, які вивчають іноземні мови. Люди дійсно дуже хочуть знати інші мови. І це не тільки тому, що їх змушують це робити в школі. Наприклад, тільки в Сполучених Штатах є більше 5 мільйонів людей, які платять більше 500 доларів за програмне забезпечення для вивчення нових мов. Тож люди дійсно дуже хочуть вивчати нові мови. І те, над чим ми працюємо останні півтора роки -- це новий веб сайт, який називається Duolingo. Його основна ідея: люди безкоштовно вивчають нові мови і також паралельно перекладають Веб. І здебільшого вони вчаться під час перекладу.
Це працює так, що коли ви просто початківець, ми даємо вам дуже прості речення. Звісно, існує багато дуже простих речень у Вебі. Ми даємо вам дуже прості речення разом із значенням кожного слова. І коли ви перекладаєте їх, дивитесь як перекладають їх інші люди, ви починаєте вчити мову. І коли ви вдосконалюєтесь, ми даємо вам все більш складні речення для перекладу. Але завжди ви вчитесь шляхом перекладу.
І божевільна річ полягає в тому, що це дійсно працює. По-перше, люди дійсно вивчають мови. Ми майже закінчили створювати його і тепер ми його тестуємо. Люди дійсно мають змогу вивчити мову. І вони вчаться так само добре, як і з найкращими програмами вивчення мов. Тож люди дійсно вивчають мови. І вони не тільки добре вчаться, вони це роблять навіть цікавіше. Розумієте, з Duolingo люди вчаться на реальних текстах. На противагу навчанню на штучних реченнях, люди вчаться на реальних речах, які по суті цікаві. Тож люди дійсно навчаються мовам.
Але, мабуть, більш дивовижним є те, що переклади, які ми отримали від користувачів сайту, навіть коли вони тільки початківці, ці переклади настільки ж якісні, якби їх перекладали професійні перекладачі, що дуже дивує. Дозвольте показати приклад. Це речення, яке ми переклали з німецької на англійську. Верхнє речення німецькою. Середнє -- англійський переклад зроблений одним професійним перекладачем, якому ми заплатили 20 центів за кожне слово. І нижнє -- переклад користувачів Duolingo, жоден з яких не знав німецької до того, як почав використовувати цей сайт. Як ви можете побачити, воно майже досконале. Звісно, ми робимо дещо, щоб зробити переклади настільки ж гарними, як у професійних перекладачів. Ми комбінуємо переклади декількох початківців щоб отримати якість одного професійного перекладача.
Навіть коли ми комбінуємо переклади, сайт може перекладати достатньо швидко. Дозвольте показати вам -- це наші оцінки наскільки швидко ми можемо перекласти Вікіпедію з англійської на іспанську. Пам'ятаєте, що це коштує 50 мільйонів доларів? Тож якщо ми хочемо перекласти Вікіпедію іспанською, ми можемо це зробити за п'ять тижнів зі 100 000 активних користувачів. І ми можемо це зробити за 80 годин з мільйоном активних користувачів. Адже всі проекти, з якими працювала до цього моя група, мали мільйони користувачів, ми сподіваємось, що зможемо перекладати дуже швидко за допомогою цього проекту.
І ось що мені найбільше подобається в проекті Duolingo: я гадаю, що він надає чесну бізнес модель навчання мов. Ось в чому річ. Поточна бізнес модель для мовної освіти враховує оплату студентів, і, зокрема, студенти платять 500 доларів Rosetta Stone. (Сміх) Це поточна бізнес модель. Проблема з цією моделлю в тому, що 95% населення світу не має 500 доларів. Тому це дуже нечесно по відношенню до бідних. Це повністю орієнтовано на багатих. Тепер, з Duolingo, коли ви вчитесь, ви насправді створюєте цінність, ви перекладаєте щось -- адже за це ми, наприклад, могли б найняти когось для перекладу. Ось як ми можемо це перетворити на гроші. Адже якщо люди створюють цінність, коли вони вчаться, їм не потрібно платити гроші за навчання, вони платять за це своїм часом. Чарівна річ тут в тому, що вони сплачують своїм часом, часом який би все-одно використали для вивчення мов. Тож, на мій погляд, гарна новина щодо Duolingo -- він надає чесну бізнес модель, таку, що не дискримінує бідних людей.
А це сайт. Дякую. (Аплодисменти) Отже, це сайт. Ми ще не запустились, але якщо ви зайдете сюди, ви можете підписатись на його тестування, яке, мабуть, розпочнеться через 3-4 тижні. Ми ще не запустили Duolingo.
Між іншим, я тут розповідав все це сам, але насправді, Duolingo -- це робота дійсно чудової команди. Деякі з цих людей представлені тут. Дякую.
You can share this video by copying this HTML to your clipboard and pasting into your blog or web page. This video will play with subtitles.
You either have JavaScript turned off or have an old version of the Adobe Flash Player. To view this rating widget you
need to get the latest Flash player.
If your browser allows only "trusted sites" to execute Javascript, you should add the "googleapis.com" domain to your whitelist to allow our Flash detection to work properly.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation.
Після перепризначення CAPTCHA таким чином, що кожний введений людиною код допомагає оцифровувати книги, Луіс вон Ан задається питанням: як ще можна використати маленький внесок багатьох користувачів Інтернет для ще більшої користі. На TEDxCMU він розповідає про новий амбітний проект -- Duolingo, який допоможе мільйонам вчити нові мови, при цьому швидко та якісно перекладаючи Веб -- і все це безкоштовно.
Luis von Ahn builds systems that combine humans and computers to solve large-scale problems that neither can solve alone. Full bio »
Translated into Ukrainian by Oleksii Molchanovskyi
Reviewed by Igor Stepanov
Comments? Please email the translators above.
18:18 Posted: May 2011
Views 683,613 | Comments 75
05:29 Posted: Aug 2011
Views 789,416 | Comments 168
13:07 Posted: Jun 2010
Views 575,310 | Comments 227
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign Out.