Tercer Milenio

En colaboración con ITA

Cómo enganchar a millones de personas en un mismo proyecto

Captcha, el test de Turing para distinguir humanos y máquinas en internet, ha evolucionado a Recaptcha, con el fin de digitalizar libros y archivos. La plataforma Duolingo, impulsada también por Luis von Ahn, aplica los principios del Recaptcha a la traducción de idiomas

Luis von Ahn lideró el grupo de investigadores que puso a punto el test de Turing para diferenciar máquinas y humanos en internet. Nacía el captcha
Luis von Ahn lideró el grupo de investigadores que puso a punto el test de Turing para diferenciar máquinas y humanos en internet. Nacía el captcha
Pop!Tech

¿Recuerdas esas palabras y caracteres retorcidos, tachados y distorsionados que hay que reconocer para registrarte en sitios como Google, Facebook o Twitter? Se llaman ‘captchas’. Seguramente pienses que son un pequeño incordio pero, si te sirve de consuelo, con ese pequeño esfuerzo estás ayudando a digitalizar libros enteros. Millones de personas realizando pequeñas tareas, colaborando a decodificar documentos que, de otra forma, sería simplemente imposible. Un claro exponente de lo que se conoce como ‘crowdsourcing’. No es el único ejemplo, pero sí uno de los más populares. Y, detrás de la historia del mismo, está el guatemalteco Luis von Ahn.

Altavista: hecha la ley, hecha la trampa

La cosa viene ya de la era pre-Google, cuando era Altavista el portal de referencia para búsquedas en internet. Los propios internautas podían sugerir direcciones de sitios de internet para que Altavista los usara para devolver resultados de búsqueda. ¿Qué sucedió? Que algunos ‘listillos’ desarrollaron programas (robots) informáticos que se dedicaban a sabotear el sistema subiendo direcciones falsas o tratando de que las búsquedas mostrasen los sitios que ellos querían. Todo un problema para Altavista, que desarrolló el precursor del captcha en 1997.

La revolución llegó cuando Yahoo! empezó a sufrir el mismo problema: ataques informáticos para crear miles de cuentas de correo electrónico desde las que enviar correos basura (spam). La solución vino en el año 2000, de la mano de un grupo de investigadores de Carnegie Mellon, liderados por Von Ahn: un test de Turing, una prueba para distinguir humanos y máquinas. Nacía el captcha, la prueba de Turing pública y automática para diferenciar máquinas y humanos (Completely Automated Public Turing test to tell Computers and Humans Apart).

El captcha gozó de amplia popularidad en internet, proporcionando muy buenos resultados. Huelga decir que quienes quisieron ‘romper’ la protección del captcha tuvieron que usar la ‘fuerza bruta’ o desarrollar programas cada vez más inteligentes. Se llegó incluso a crear granjas de captchas: personas, normalmente de países del Tercer Mundo, a las que se pagaba ridículas cantidades de dinero para resolverlos y venderlos a 'spammers' por un módico precio.

Y llegó el Recaptcha

Se responden unos 200 millones de captchas diarios. Ya que, de media, cada uno requiere unos 10 segundos de nuestro tiempo, la humanidad está perdiendo alrededor de 500.000 horas diarias en esta tarea, el equivalente a 62.500 personas trabajando 8 horas. Y es aquí donde entra la genial visión de Luis von Ahn. ¿Se puede invertir ese esfuerzo en algún bien para la humanidad?

Resulta que los humanos somos mejores que las máquinas interpretando esos textos distorsionados. Si en vez de usar textos generados al azar usamos imágenes escaneadas de documentos antiguos, dañados, difícilmente legibles por una máquina, y distribuimos trocitos (palabras) de esos textos entre los millones de personas que usan los captchas, conseguiremos entre todos digitalizar prácticamente cualquier documento.

Este nuevo Captcha, rebautizado como Recaptcha, muestra dos palabras clave: una conocida por la máquina (a modo de control) y otra que no. La misma palabra desconocida se distribuye como Recaptcha a varias personas y la solución más repetida se entiende como la válida.

En 2009 Google compró la startup creada por Luis von Ahn para desarrollar Recaptcha. El interés de Google era claro: resultaba una pieza clave en sus proyectos de digitalización de libros y archivos, así como de imágenes de Google Maps (mejorando la información de los mapas). En 2011 se estaban digitalizando alrededor de 2 millones de libros al año.

Duolingo

Por todo esto se considera a Luis von Ahn uno de los pioneros del ‘crowdsourcing’ (¡no confundir con ‘crowdfunding’!), que significa distribuir pequeñas tareas entre multitud de personas para resolver un problema de mayor envergadura. Pero su visión va más allá: usar el mismo principio para traducir internet a los idiomas más importantes.

Las máquinas son cada vez mejores traduciendo, pero en ese proceso de aprendizaje todavía necesitan ser ‘entrenadas’ por personas. Aplicar los principios del recaptcha a la traducción de idiomas es tan posible como cierto. Pero hay dos problemas: que haya suficiente número de personas con capacidad de traducir y que tengan un incentivo no monetario para ello.

La brillante solución impulsada en 2011 por Von Ahn es la plataforma Duolingo. Cualquiera puede empezar a aprender un idioma con la plataforma, que va guiando en el aprendizaje a base de tests. Pero alguna de esas preguntas esconden una segunda intención: ayudar a mejorar la traducción de ciertas expresiones y palabras. Aprendes un idioma gratuitamente y de manera sencilla pero, al mismo tiempo, contribuyes a mejorar la traducción de multitud de sitios web. Como, por ejemplo, Wikipedia.

Lecciones aprendidas
Motivación Afortunadamente, no todo el trabajo puede recaer sobre las máquinas. Hay tareas que desarrollamos mejor los seres humanos. O simplemente es económicamente más rentable o conlleva otros beneficios socioculturales. Cada vez proliferan más los proyectos de ciencia ciudadana y ‘crowdsourcing’: pequeñas tareas se distribuyen entre mucha gente para resolver un problema. La clave: que las personas que colaboren dispongan de la motivación adecuada. Eficiencia y sostenibilidad económica La Wikipedia en español es aproximadamente el 20% (en tamaño) de la Wikipedia en inglés. Con 100.000 usuarios en Duolingo, traducir la Wikipedia en inglés al castellano podría llevar cinco semanas. Con un millón de usuarios, 80 horas. ¿Cómo batir estas cifras? Parece imposible.Proyectos social y económicamente sostenibles que conjuguen los nuevos esquemas de aprendizaje, el emprendimiento social y el ‘crowdsourcing’, apoyados en la tecnología, pueden y deben contribuir a que vivamos en un mundo mejor.

Ángel Gavín Autor del blog ‘El Miracielos’ 

Comentarios
Debes estar registrado para poder visualizar los comentarios Regístrate gratis Iniciar sesión