Revista Comunicación

Google ¿Qué tiene que ver la digitalización de libros y el uso de Captcha?

Publicado el 20 mayo 2013 por Cosmoduende @cosmoduende

 En primer lugar, la digitalización de libros que lleva acabo Google desde 2004 (Google Print) y que ha evolucionado hasta la fecha (Google Book), permite tener a nuestro alcance una gran cantidad de libros de dominio público y libres de derecho de autor, para que puedan ser descargados en archivo PDF.

Para lograr pasar el libro a su forma digital, fue necesario escanear y convertir por medio de OCR (Reconociento Optico de Caracteres). Aunque la digitalización es muy rápida, de un promedio de 1000 páginas por hora con la cámara Elphel 323, la conversión OCR está limitada a las condiciones físicas del origen, así como de otros factores. Y aquí es donde tocamos el tema del Captcha.

Google-book-store-logo

El Captcha es utilizado en varios sitios de internet, como por ejemplo, darse de alta en alguna página, de esta forma se determina que quien se está registrando es una persona y no un bot. Todo esto con el proposito de frenar el Spam.

recaptcha_dispaly1

Hay una infinidad de captcha, pero del que tiene que ver con el tema es el servicio reCaptcha de Google. La implementación de reCaptcha en algún sitio web es totalmente gratis, además de que se dice que es más segura que otros. El tiempo requerido para resolver el captcha es de unos 10 segundos, si sumamos 200 millones de captchas que se resuelven diariamente, nos da un total de 150 mil horas de trabajo humano para resolverlas. Así que Google y otras entidades afiliadas usan todo ese tiempo sumado invertido, en la digitalización de libros.

Como les comenté anteriormente, el uso de OCR tiene sus limitantes, así que necesita la ayuda de humanos. Cuando resolvemos un reCaptcha
estamos en realidad ayudando a resolver una parte de algún libro o periódico que no se digitalizó correctamente, ejemplo en la imagen.

sample-ocr

Ante esto puede surgir una duda. Si el sistema no logró resolverlo correctamente ¿cómo sabe que la respuesta que se escribe en el captcha es correcta? La respuesta es la siguiente: el sistema envía 2 palabras, una de las cuales conoce la respuesta y la otra con la nueva a descifrar  al escribir la palabra conocida correctamente el sistema la toma como correcta para la nueva. Pero no se queda así, para una mayor seguridad y confianza, esa misma palabra se reenvía a otras personas, para asegurar que la respuesta en realidad fue correcta.

Así que recuerden cuando resuelvan un reCaptcha, que están contribuyendo a que la información impresa de antaño, esté disponible en formato digital.

Saludos.


Volver a la Portada de Logo Paperblog