Quantos de vocês já tiveram de preencher um formulário na web onde vos pediam para ler uma sequência distorcida de caracteres como esta? Quantos acharam isto muito irritante? Okay, espectacular. Fui eu que inventei isso. (Risos) Ou pelo menos fui um dos que inventou isso.
A esta coisa chama-se um CAPTCHA. E está ali para certificar que quem está a preencher o formulário, é sem dúvida um humano e não um programa informático desenvolvido para submeter o formulário milhões e milhões de vezes. Isto funciona porque os humanos, pelo menos os humanos sem limitações visuais, não têm qualquer problema em ler estes caracteres distorcidos, enquanto que os programas informáticos simplesmente ainda não o conseguem fazer tão bem. Por isso, por exemplo, no caso do Ticketmaster, a razão pela qual temos de escrever estes caracteres distorcidos é para prevenir burlões de escrever um programa que consiga comprar milhões de bilhetes, dois de cada vez.
Os CAPTCHAs são usados em toda a Internet. E como eles são usados com tanta frequência, muitas vezes a sequência de caracteres aleatórios que é mostrada ao utilizador não é muito feliz. Aqui está um exemplo da página de registo do Yahoo. Os caracteres aleatórios mostrados ao utilizador foram W, A, I, T ("esperar"), que, obviamente, formam uma palavra. Mas a melhor parte é a mensagem que os serviços do Yahoo receberam cerca de 20 minutos mais tarde. Texto: "Ajudem! Estou à espera há mais de 20 minutos e não acontece nada". (Risos) Esta pessoa achava que precisava de esperar. Isto é claramente melhor do que este coitado ("Reiniciar").
O projecto CAPTCHA foi algo que desenvolvemos aqui na Carnegie Mellon há 10 anos e está a ser usado por toda a parte. Deixem-me falar-vos sobre um projecto que desenvolvemos uns anos depois, que é uma espécie de evolução do CAPTCHA. É um projecto a que chamamos reCAPTCHA, que é algo que começámos aqui na Carnegie Mellon, e que transformámos depois numa startup. E há cerca de um ano e meio, a Google comprou esta empresa.
Por isso deixem-me dizer-vos o que este projecto começou. Este projecto começou através da seguinte percepção: Acontece que aproximadamente 200 milhões de CAPTCHAs são escritos todos os dias por pessoas em todo o mundo. Quando ouvi isto pela primeira vez, fiquei muito orgulhoso de mim mesmo. Pensei: "olha para o impacto que a minha investigação tem tido". Mas depois comecei a sentir-me mal. Aqui está o porquê: todas as vezes que escrevemos um CAPTCHA, essencialmente, desperdiçamos 10 segundos do nosso tempo. E se multiplicarmos isso por 200 milhões, perceberemos que a humanidade, no seu todo, está a gastar cerca de 500.000 horas todos os dias a escrever estes CAPTCHAs irritantes. Por isso, comecei a sentir-me mal.
E depois comecei a pensar: "bem, não nos podemos simplesmente livrar-nos dos CAPTCHAs, porque a segurança da web depende deles." Mas depois comecei a pensar: "existe alguma forma de utilizar este esforço para algo que seja bom para a humanidade?" Então vejam isto. Enquanto escrevem o CAPTCHA, durante esses 10 segundos, o vosso cérebro está a fazer algo fascinante. O vosso cérebro está a fazer algo que os computadores não conseguem ainda fazer. Como é que conseguimos que vocês façam algo útil durante esses 10 segundos? De outra perspectiva, existe um problema gigantesco que não conseguimos que os computadores resolvam, no entanto, podemos dividi-lo em períodos de 10 segundos de tal forma a que, sempre que alguém escreve um CAPTCHA, se resolva uma pequena parte deste problema? E a resposta a essa pergunta é "sim", e é isso que estamos a fazer agora.
Por isso, o que podem não saber é que hoje em dia, enquanto escrevem um CAPTCHA, estão, não só a autenticar-se como humanos, mas também estão a ajudar-nos a digitalizar livros. Deixem-me que vos explique como isto funciona. Existem imensos projectos por aí a tentar digitalizar livros. A Google tem um. O Internet Archive tem um. A Amazon, agora com o Kindle, está a tentar digitalizar livros. Basicamente, a forma como isto funciona é: começa-se por pegar num livro velho. Já viram estas coisas antes, certo? Um livro? (Risos) Então: começam com um livro, e depois digitalizam-no.
Digitalizar um livro é como tirar uma fotografia digital de cada página do livro. Dá-vos uma imagem para cada página do livro. Isto é, uma imagem com texto para cada página do livro. O próximo passo no processo é que o computador precisa de conseguir decifrar todas estas palavras nesta imagem. Está a usar uma tecnologia chamada OCR, Reconhecimento Óptico de Caracteres, que tira uma fotografia do texto e tenta descobrir que texto está lá. O problema é que o OCR não é perfeito. Especialmente para livros mais velhos onde a tinta está a falhar e as páginas já estão amarelas, OCR não consegue reconhecer muitas das palavras. Por exemplo, para coisas que foram escritas há mais de 50 anos, o computador não consegue reconhecer cerca de 30% das palavras. O que nós estamos a fazer agora é extrair todas as palavras que o computador não consegue reconhecer e fazer com que as pessoas as leiam para nós enquanto escrevem um CAPTCHA na Internet.
Por isso, da próxima vez que escreverem um CAPTCHA, as palavras que escreverem são, de facto, palavras que saem de livros que estão a ser digitalizados e que o computador não conseguiu reconhecer. E, a razão pela qual temos duas palavras hoje em dia em vez de uma, é porque uma das palavras é uma palavra que o sistema retirou de um livro, ele não sabia qual era, e vai apresentá-la a vocês. Mas como não sabe a resposta, não consegue dizer-vos que palavra é. Por isso, o que fazemos é dar-vos outra palavra, uma para a qual o sistema conhece a resposta. Não dizemos qual é qual. Dizemos, por favor escreva as duas. E se escreverem a palavra correcta para a qual o sistema já conhece a resposta, ele assume que vocês são humanos, e tem alguma confiança de que escreveram a outra palavra correctamente. E se repetirmos este processo por exemplo para 10 pessoas diferentes e se todas elas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente.
É assim que o sistema funciona. E, basicamente, desde que o lançámos há três ou quatro anos, muitos websites já começaram a mudar do velho CAPTCHA onde as pessoas perdiam o seu tempo para o novo CAPTCHA, onde as pessoas estão a ajudar a digitalizar livros. Vejam o exemplo do Ticketmaster. Todas as vezes que compram bilhetes no Ticketmaster, estão a ajudar a digitalizar um livro. Facebook: Todas as vezes que adicionam um amigo ou que lhe dão um toque, estão a ajudar a digitalizar um livro. O Twitter e cerca de 350.000 outros websites estão todos a usar o reCAPTCHA. E, de facto, o número de sites que está a usar o reCAPTCHA é tão grande que o número de palavras que estamos a digitalizar por dia é muito, muito grande. É cerca de 100 milhões por dia, o que equivale a dois milhões e meio de livros por ano. E isto está tudo a ser feito palavra-a-palavra apenas com a escrita de CAPTCHAs na Internet.
Agora, claro, já que estamos a conseguir tantas palavras por dia, podem acontecer situações engraçadas. E isto é especialmente verdade porque estamos a dar às pessoas duas palavras inglesas escolhidas aleatoriamente, juntas uma à outra. Por isso, podem acontecer coisas engraçadas. Por exemplo, nós apresentámos esta palavra: "christians" (cristãos); não há nada de errado com ela. Mas se a apresentarmos junto a outra escolhida aleatoriamente, coisas más podem acontecer. É este o caso: (Texto: "Maus cristãos") Mas é ainda pior, porque o website em que mostrámos isto calhou chamar-se "A Embaixada do Reino de Deus". (Risos) Ups. (Risos) Aqui está outra bem má. JohnEdwards.com (Texto: "Maldito liberal") (Risos) Por isso, estamos sempre a insultar pessoas por todo o lado, todos os dias.
Claro que não estamos só a insultar pessoas. Dado que estamos a apresentar duas palavras escolhidas aleatoriamente, coisas interessantes podem acontecer. Isto gerou um burburinho muito famoso na Internet em que dezenas de milhares de pessoas já participaram, que se chama: "CAPTCHA art". Estou certo que alguns de vocês já ouviram falar nele. Funciona assim: Imaginem que estão a usar a Internet e que vêem um CAPTCHA que acham que é, de certa forma, peculiar, como este CAPTCHA (Texto: "Tostadeira invisível"). Depois, o que é suposto fazer-se é tirar um printscreen dele. Depois, claro, preenchem o CAPTCHA, porque nos estão a ajudar a digitalizar um livro. Mas depois, tiram um printscreen, e desenham algo relacionado com ele. (Risos) É assim que funciona. Há dezenas de milhares destes. Alguns deles são adoráveis. (Texto: "consegui") (Risos) Outros são mais divertidos. (Texto: "fundadores pedrados") (Risos) E alguns deles, como "paleontological shvisle" contêm o Snoop Dogg.
Okay, aqui está o meu número preferido do reCAPTCHA. Isto é a minha coisa preferida acerca de todo este projecto. Este é o número de pessoas que nos ajudaram a digitalizar pelo menos uma palavra de um livro através do reCAPTCHA: 750 mil milhões, o que é um pouco mais de 10% da população mundial, que nos ajudou a digitalizar o conhecimento humano. E são números como estes que motivam a minha investigação. A questão que motiva a minha investigação é a seguinte: Se virmos as grandes conquistas da humanidade, estas coisas realmente grandiosas em que a humanidade se juntou e fez história -- por exemplo, a construção as pirâmides do Egipto ou o canal do Panamá ou pôr um homem na Lua -- há um facto curioso relacionado com elas: todas elas foram feitas com quase o mesmo número de pessoas. É estranho; todas foram feitas com aproximadamente 100.000 pessoas. E a razão para isso é que, antes da Internet, coordenar mais do que 100.000 pessoas, quanto mais, pagar-lhes, era essencialmente impossível. Mas agora, com a Internet, acabei de vos mostrar um projecto onde temos 750 milhões de pessoas que nos ajudam a digitalizar o conhecimento humano. Por isso, a questão que motiva a minha investigação é: se conseguimos pôr um homem na Lua com 100.000 pessoas, o que conseguimos fazer com 100 milhões?
Por isso, com base nesta questão, temos tido muitos projectos diferentes nos quais estamos a trabalhar. Deixem-me falar-vos sobre aquele que mais me entusiasma. Isto é algo em que temos estado a trabalhar de forma semi-discreta durante o último ano e meio, mais ou menos. Ainda não foi lançado. Chama-se Duolingo. E, como ainda não foi lançado, shhhhh! (Risos) Sim, eu confio que vão fazer isso. Este é o projecto. Foi assim que começou. Começou comigo a colocar uma questão ao meu estudante já licenciado, Severin Hacker. Okay, este é o Severin Hacker. Eu coloquei a questão ao meu aluno. Já agora, vocês ouviram bem, o apelido dele é Hacker. Eu fiz-lhe esta pergunta: Como é que conseguimos que 100 milhões de pessoas traduzam a web para as principais línguas, de graça?
Okay, há muitas coisas a dizer acerca disto. Em primeiro lugar: traduzir a Web. Neste momento, a web está dividida em várias línguas. Uma grande parte dela está em Inglês. Se não soubermos Inglês, não conseguimos percebê-la. Mas há grandes fracções noutras línguas, e, se não soubermos essas línguas, não conseguimos percebê-las. Por isso, eu gostaria de traduzir toda a web, ou, pelo menos, a maior parte dela, em todas as línguas principais. Isso é o que eu gostaria fazer.
Alguns de vocês dirão: "Porque é que não podemos usar computadores para traduzir?" "Porque é que não usamos tradução automática? A tradução automática está a começar a traduzir algumas frases aqui e ali. Porque é que não a usamos para traduzir toda a web?" Bem, o problema é que a tradução ainda não é grande coisa e provavelmente não o será, nos próximos 15 ou 20 anos. Comete imensos erros. E, mesmo quando não comete um erro, visto que ela comete tantos, nunca sabemos se devemos confiar ou não.
Deixem-me mostrar-vos um exemplo de algo que foi traduzido automaticamente. Na verdade, era um post de um fórum. Foi de alguém que estava a tentar colocar uma pergunta sobre JavaScript. Foi traduzida de Japonês para Inglês. Vou deixar-vos ler. Esta pessoa começa por pedir desculpa pelo facto que estar a traduzir com um computador. A próxima frase vai ser o preâmbulo da questão. Eles está apenas a explicar algo. Lembrem-se, é uma questão acerca do JavaScript. (Texto: "Frequentemente, o tempo de cabra instalar um erro é vómito".) (Risos) Depois vem a primeira parte da questão. (Texto: "Quantas vezes como o vento, um pólo, e o dragão?") (Risos) Depois vem a minha parte preferida da questão. (Texto: "Este insulto às pedras do pai?") (Risos) E depois vem o fim, que é a minha parte favorita de tudo isto. (Texto: "Por favor peçam desculpa pela vossa estupidez. Há imensos obrigado".) (Risos) Okay: tradução por computadores, ainda não é grande coisa. Voltando à nossa questão:
Então nós precisamos de pessoas que traduzam toda a web. Por isso, a próxima pergunta que podem ter é, porque é que não pagamos simplesmente às pessoas para fazer isto? Podíamos pagar a tradutores profissionais para traduzir toda a web. Podíamos fazer isso. Infelizmente, seria extremamente caro. Por exemplo: traduzir uma fracção minúscula de toda a web, a Wikipedia, para uma outra língua, o Espanhol. A Wikipedia existe em Espanhol, mas é muito pequena quando comparada com o seu tamanho em Inglês. É cerca de 20% do tamanho do Inglês. Se quiséssemos traduzir os outros 80% para Espanhol, custar-nos-ia, pelo menos, 50 milhões de dólares -- e isto até no mais país fornecedor mais explorado que existe. Seria extremamente caro. Queremos que haja 100 milhões de pessoas a traduzir a web em todas as línguas principais, de graça.
Agora, se é isto que se quer fazer, percebemos logo que vamos ter duas barreiras bem grandes, dois grandes obstáculos. A primeira é a falta de bilingues. Eu nem sei se existem 100 milhões de utilizadores da web que sejam suficientemente bilingues para nos ajudar a traduzir. Esse é um grande problema. O outro problema com que nos vamos defrontar é a falta de motivação. Como é que vamos motivar as pessoas a traduzir a web de graça? Normalmente, precisamos de lhes pagar para fazer isso. Por isso, como é que as vamos motivar para que o façam de graça? Quando começámos a pensar nisto, ficámos bloqueados por estes dois aspectos. Mas depois apercebemo-nos que, na verdade, existe uma maneira de resolver ambos os problemas com a mesma solução. Há uma forma de matar dois coelhos com uma cajadada só. E isso faz-se transformando a tradução em algo que milhões de pessoas queiram fazer, e que também diminua o problema da falta de bilingues, e isso faz-se através da educação linguística.
Acontece que, hoje em dia, há mais de 1,2 bilhões de pessoas a aprender uma língua estrangeira. As pessoas querem imenso aprender uma língua estrangeira. E não é apenas porque estão a ser forçadas a aprender na escola. Por exemplo, apenas nos Estados Unidos, há mais de 5 milhões de pessoas que pagaram mais de 500 dólares por software para aprenderem uma nova língua. Então, as pessoas querem realmente aprender uma nova língua. Por isso, durante o último ano e meio, temos estado a trabalhar num novo website -- chama-se Duolingo -- onde a ideia principal é que as pessoas aprendam uma nova língua de graça ao mesmo tempo que traduzem a web. E por isso, basicamente, aprendem fazendo.
A forma como isto funciona é: quando se trata de um principiante, damos-lhe frases muito simples. Existem, claro está, imensas frases simples na web. Damos-lhe frases muito, muito simples juntamente com o significado de cada palavra. E, à medida que se traduz, e à medida que se vê como as outras pessoas as traduzem, começa-se a aprender a língua. E à medida que vai avançando, damos-lhes frases mais complexas para traduzir. Mas está-se sempre a aprender fazendo.
Agora a coisa invulgar sobre este método é que realmente funciona. Em primeiro lugar, as pessoas estão verdadeiramente a aprender uma língua. Já acabámos de o construir, agora estamos a testá-lo. As pessoas conseguem verdadeiramente aprender uma língua com ele. E elas aprendem tão bem como com o melhor software de aprendizagem de línguas. Por isso, as pessoas aprendem mesmo uma língua. E não só aprendem uma língua, mas, na verdade, é muito mais interessante. Porque, com o Duolingo, as pessoas estão de facto a aprender com conteúdos reais. Em vez de aprenderem com frases feitas, as pessoas estão a aprender com um conteúdo verdadeiro, o que é, só por si, interessante. Assim, as pessoas aprendem realmente uma língua.
Mas talvez mais supreendente do que isso, as traduções que obtemos através dos utilizadores do site, embora sejam de principiantes, as traduções que nós temos são tão precisas como as dos tradutores linguísticos profissionais, o que é bastante surpreendente. Deixem-me mostrar-vos um exemplo. Esta é uma frase que foi traduzida de alemão para inglês. A de cima, é o original em alemão. A do meio, é uma tradução em inglês que foi feita por alguém que era um tradutor profissional inglês a quem pagámos 20 cêntimos por palavra para esta tradução. A de baixo, é a tradução dos utilizadores do Duolingo, nenhum dos quais sabia alemão antes de começar a usar o site. Como podem ver, é quase perfeita. Agora claro, nós usámos um truque aqui para tornar as traduções tão boas como as dos tradutores profissionais. Nós combinamos as traduções de vários principiantes para conseguir a qualidade de um único tradutor profissional.
E, embora estejamos a combinar as traduções, o website consegue, na verdade, traduzir de forma bastante rápida. Deixem-me mostrar-vos, esta é a nossa estimativa de quão rápido conseguiríamos traduzir a Wikipedia de Inglês para Espanhol. Lembrem-se, isto vale 50 milhões de dólares. Por isso, se quiséssemos traduzir a Wikipedia para Espanhol, conseguiríamos fazê-lo, em cinco semanas, com 100.000 utilizadores activos. E conseguiríamos fazê-lo em cerca de 80 horas, com um milhão de utilizadores activos. Uma vez que todos os projectos em que o meu grupo trabalhou até agora tiveram milhões de utilizadores, temos esperança que conseguiremos traduzir extremamente rápido, com este projecto.
A coisa que mais me entusiasma sobre o Duolingo é que penso que isto proporciona um modelo de negócio justo para a educação linguística. Vejamos: O actual modelo para a educação linguística é: o aluno paga e, em particular, o aluno paga à Rosetta Stone 500 dólares. (Risos) Este é o modelo de negócio actual. O problema deste modelo de negócio é que 95% da população mundial não tem 500 dólares. Por isso, é extremamente injusto para os mais pobres. É completamente favorecedor dos ricos. Agora vejam, no Duolingo, porque enquanto aprendem estão a criar valor, estão a traduzir coisas -- o que, por exemplo, podíamos cobrar a alguém pelas traduções. Era assim que poderíamos valorizar isto. Uma vez que as pessoas estão a criar valor enquanto estão a aprender, elas não têm de pagar nada, elas pagam com o seu tempo. Mas a coisa mágica aqui é que elas estão a pagar com o seu tempo, mas isto é tempo que teria que ser gasto de qualquer maneira a aprender a língua. Por isso, a coisa boa sobre o Duolingo, é que proporciona um modelo de negócio justo -- um modelo que não discrimina as pessoas pobres.
Aqui está o site. Obrigado. (Aplausos) Aqui está o site. Ainda não o lançámos, mas se forem lá, conseguem inscrever-se para fazer parte do nosso beta privado, que irá provavelmente começar dentro de três ou quatro semanas. Ainda não lançámos este Duolingo.
Já agora, sou eu que estou a falar aqui, mas, na verdade, o Duolingo é o trabalho de uma equipa fantástica, alguns dos membros estão aqui. Obrigado.
You can share this video by copying this HTML to your clipboard and pasting into your blog or web page. This video will play with subtitles.
You either have JavaScript turned off or have an old version of the Adobe Flash Player. To view this rating widget you
need to get the latest Flash player.
If your browser allows only "trusted sites" to execute Javascript, you should add the "googleapis.com" domain to your whitelist to allow our Flash detection to work properly.
Got an idea, question, or debate inspired by this talk? Start a TED Conversation.
Após dar um novo objectivo ao CAPTCHA de forma a que todas as respostas humanas escritas ajudem a digitalizar livros, Luis von Ahn debruçou-se sobre outras formas de utilizar pequenas contribuições feitas por muitos na Internet, para um bem maior. Na TEDxCMU, ele partilha o modo como o seu novo e ambicioso projecto, Duolingo, irá ajudar milhões a aprender uma nova língua enquanto traduzem a Web rapidamente e com precisão -- tudo isto de forma grátis.
Luis von Ahn builds systems that combine humans and computers to solve large-scale problems that neither can solve alone. Full bio »
Translated into Portuguese by Ana Luísa Bernardino
Reviewed by Nuno Couto
Comments? Please email the translators above.
18:18 Posted: May 2011
Views 684,370 | Comments 75
05:29 Posted: Aug 2011
Views 790,297 | Comments 168
13:07 Posted: Jun 2010
Views 576,533 | Comments 227
Just follow the guidelines outlined under our Creative Commons license.
This comment will be attributed to . Not ? Sign Out.