viernes, 3 de julio de 2009

Un código ilegible pero que no evita la basura en Internet

Los códigos captcha , diseñados para evitar que sistemas automáticos accedan a las páginas web, están provocando que las que no puedan entrar sean las personas. En el afán de perfeccionarlos al máximo, los usuarios no los entienden.

Estos sistemas, que suelen estar formados por caracteres alfanuméricos distorsionados o superpuestos, tratan de que las máquinas no los descifren. Los hay en casi todas las páginas que ofrecen un servicio, ya sea cuentas de correo, comentarios en un foro o sitios de descarga directa. Con ellos se pretende evitar que alguien use máquinas para conseguir mas cuentas, enviar spam o saltarse otras limitaciones.


El problema surge cuando, al intentar perfeccionar el sistema captcha (acrónimo de "prueba de Turing para diferenciar entre máquinas y humanos") para que los robots no puedan identificarlos, un elevado porcentaje de las personas que quiere acceder a la web tampoco puede.

La Universidad Estatal de Búfalo (Nueva York) ha creado un sistema de captchas basado en caracteres manuscritos, intentando que los más avanzados programas de reconocimiento de caracteres (OCR) no sean capaces de identificarlos. Los expertos sostienen que aunque ningún método de captchas tiene un 100% de éxito frente a los robots, el desarrollado por estos investigadores logra frenar al 99% de las máquinas, aseguran.

Pero este porcentaje debe ser enfrentado con el 75% de acierto de las personas cuando interpretan estos códigos. Si una persona de cada cuatro no puede entrar en una web o escribir un comentario en un primer intento debido a que no es capaz de reproducir el código, ¿se puede decir que se trata de un sistema adecuado?

Cuanto más imperfecto es un carácter manuscrito (de ahí que se estudie el escaneo de libros antiguos) o más difícil es leer las letras de forma separada, mayor es la dificultad de los sistemas de reconocimiento automático para interpretarlo. La solución es encontrar el equilibrio entre el código imposible de interpretar por una máquina y el que pueden descifrar las personas.

Para aquellas que intentan acceder a las páginas sin éxito en una de cada cuatro ocasiones, sólo les queda pedir a la web que genere otro nuevo código. Y siempre se corre el riesgo de que el internauta decida poner su comentario en otro foro.

Aún así, para las empresas resulta menos problemático que el usuario tenga que repetir el ejercicio varias veces a que los robots puedan llenar la página de spam o crear cientos de cuentas de correo de forma automática por incluir un captcha poco eficiente.

Sistema hombre-máquina
Pero un buen captcha no detiene a los spammers profesionales. Si sus máquinas no pueden leerlo, usan a personas para hacerlo. Como explica el director técnico de la compañía de seguridad Panda Labs, Luis Corrons: "Hay empresas en países en vías de desarrollo que contratan a gente para que introduzca los captcha más complicados manualmente", saltándose las barreras.

Corrons aclara que el interés en resolver estos códigos va más allá del enfrentamiento entre el hombre y la máquina, apuntando a intereses económicos. "Por eso, en ocasiones a los spammers les resulta más rentable la mano de obra barata que invertir en nuevas técnicas de reconocimiento de caracteres", añade.

Cada nuevo captcha, según Corrons, funciona bien cuando se lanza, ya que aún no se ha diseñado el modo de saltárselos. Pero, los crackers afinan sus algoritmos de detección de captchas en paralelo al esfuerzo de los investigadores para perfeccionar los suyos. "En un corto periodo de tiempo, lo que tenía una fiabilidad total deja de tenerla", destaca.

Detección humana basada en imágenes
Los sistemas de verificación basados en texto están siendo sustituidos por identificación de imágenes.

Según un grupo de investigadores de Google, sólo un ser humano puede distinguir si una imagen está o no bien orientada, por lo que la compañía está desarrollando varios ?captchas' de este tipo.
Este sistema se realiza a partir de un banco de imágenes en el que se evita la incorporación de retratos u otras siluetas fácilmente identificables por las máquinas, ya que los ?spammers' podrían crear un algoritmo capaz de reconocerlas.

Una de las variaciones consiste en colocar manualmente una fotografía en el ángulo correcto usando una barra de desplazamiento horizontal.

Para Google, estos sistemas no sólo se lo ponen mucho más difícil a las máquinas, sino que también son más cómodos para el usuario.

La compañía no descarta que tengan que distorsionar también estas imágenes, como se hace con el texto, para evitar que las máquinas superen este filtro.

Por: Blanca Salvatierra Fuente: PUBLICO