Digitalización de libros con reCAPTCHA ::
05/02/08. Leer el artículo original en reCAPTCHA.
Un CAPTCHA es un programa que sirve para distinguir si el usuario es un ser humano o un ordenador. Seguro que los ha visto alguna vez: esas imágenes con texto distorsionado que aparecen al lado de muchos formularios de registro en la WWW. Una persona no tendrá problemas en leer la imagen, pero a un programa de ordenador le resulta imposible, por eso muchos websites se protegen con CAPTCHAS.
Cada día se resuelven unos 60 millones de CAPTCHAS en todo el mundo. En cada caso, se consumen unos diez segundos, que no es mucho para una persona, pero en conjunto equivale a más de 150.000 horas de trabajo cada día. La idea de reCAPTCHA es aprovechar este tiempo de trabajo para digitalizar libros.
Actualmente hay muchos proyectos en marcha para la digitalización de libros mediante escaneado y OCR. El problema es que el reconocimiento óptico de caracteres no es perfecto.

Lo que hace reCAPTCHA es enviar a la WWW aquellas palabras que no pueden ser interpretadas por un ordenador para que un ser humano las descifre en un CAPTCHA. En estos momentos, reCAPTCHA está ayudando a digitalizar los libros del Internet Archive.
En el website de reCAPTCHA encontrará más información (en inglés) y la posibilidad de utilizar el sistema para proteger su website gratuitamente.
