La lucha de Google contra el spam

Por Desamark

La pregunta es de Brian Harnish. Pregunta: ¿Como es un día en la vida del departamento de spam web en Google? ¿Cómo evoluciónan las decisiones al elegir qué aspectos del algoritmo actualizar? ¿Hay elementos que no se eliminarán nunca?

Matt Cutts responde que tienen ingenieros y ténicos anti-spam.

Suele ser una mezcla de lucha reactiva y proactiva.

El modo reactivo es recibir un informe, o detectar spam en Google. Reaccionan ante eso, tienen que mejorar las cosas.

Una parte de cada día consiste en evitar el spam en los resultados para que la búsqueda no sea horrible.

No es combate mano a mano, pero clasifican si algo es spam o no, o buscan el spam que está bien posicionado actualmente. Al hacer eso los mejores técnicos anti-spam ven tendencias, ven patrones en el spam y pasan a modo proactivo.

El modo proactivo incluye averiguar por qué se posicionan, qúe brecha están utilizando, cómo encontramos la causa y la solucionamos. Es muy divertido.

A veces trabajamos con ingenieros "Si cambiaís esto o una parte del algoritmo, todo funcionaría mejor."

A veces, identificamos un técnia de spam, o a un spammer específico y sabemos que podemos descubrir qué está haciendo ese black hat en concreto.

En la ingeniería revisan los datos, examinan ejemplos de spam pero el día está lleno de programación y pruebas de ideas. Redactan algoritmos que creen que pararán un tipo de spam. Ningún algoritmo podrá para todo el spam.

Penguin es muy bueno para cierto tipo de spam, pero sierve para webs hackeadas, por ejemplo.

Como ingeniero, podrías trabajar en cómo detectar webs hackeadas. Elaboras las mejores ténicas que puedas. Todas las señales que pueda encontrar páginas hackeadas, y que conserve intactas las webs inocentes.

Luego lo compruebas. Lo pasas por nuestro índice, o haces un experimento con la puntuación de las URLs.

Muchas veces al hacer eso, o experimentar con el trafico ves los clics y puedes identificar los falsos positivos. Las webs no puepden aparecer o las que no encuentras y deberías encontrar.

Gran parte del trabajo con spam web es descubrir y limar los algoritmos para mejorar su precisión. Intentas atrapar a los spammers y dejar a los inocentes. Es divertido y complicado porque mientras buscas nuevas tendencias, nuevos tipos de spam que aparecen. Viene del departamento anti-spam, viene de los ingenieros, viene del mundo exterior. viene del feedback de Google cuando los ingenieros ven problemas en la búsqueda.

Sobre la pregunta "¿Como tomaís decisiones al elegir qué partes del algoritmo actualizar?":

Siempre volvemos a revisarlo y miramos si es efectivo.¿Es necesario habiendo este otro? Lo que el equipo de calidad hace bien es volver atrás y preguntar, repasar sus posiciones. Si empezáramos de cero, ¿lo haríamos así?

¿Que no funciona, o está parado, o anticuado, comparado con otra forma de solucionarlo?

No ponemos detonantes diferentes que encuentren diferente spam. Buscas formas elegantes de descubrir spam, y te fijas en los nuevos tipos de spam cuando salen. Es dificil por que hay muchísimo spam.

Siempre hay gente creando nuevo spam, pero es gratificante, por que haces algo bueno por el mundo, algo importante. Es realmente un reto intelectual, por que no es como los sinónimos, que haces algo bien y ya puedes ir a casa.

Los sinónimos no cambian, o lo hacen lento. Es spam web es dinámico. En ciertas semanas vemos diferentes cambios que alteran nuestras prioridades. El paisaje cambia para nosotros. Es muy divertido. A principio de año, sabemos qué queremos hacer. Al acabar el año, nos preguntamos qué hicimos. A veces es diferente. Es así porque reaccionamos a los ataques. Respondemos al feeback, a las quejas de la gente, pero en u ndía normal, no existe un día del todo normal. Todos son diferentes.