jueves, 2 de agosto de 2007

Googlebot: el rastreador web de Google

Googlebot: el rastreador web de Google Googlebot es el robot de rastreo web de Google. También se denomina “spider” (araña). Recopila documentos de la web para crear un índice en que se puedan realizar búsquedas (Google.com). En este tema veremos las respuestas a las preguntas más frecuentes acerca de cómo funciona este rastreador web.

¿Con qué frecuencia viene Googlebot a mis páginas web?

En la mayoría de los sitios, Googlebot no debería acceder a su sitio más de una media estimada de una vez al cabo de unos segundos. Sin embargo, a causa de retrasos en la red, es posible que el porcentaje parezca ligeramente superior en períodos cortos de tiempo

¿Cómo puedo solicitar que Google no rastree mi sitio o una parte de él?

robots.txt es un documento estándar que notifica a Googlebot que no debe descargar información total o parcialmente desde su servidor web. El formato del archivo robots.txt está especificado en el Robot Exclusion Standard. Para obtener instrucciones detalladas acerca de cómo evitar que Googlebot realice el rastreo de todo su sitio o de parte de éste, consulte la página Cómo eliminar elementos del índice de Google. Recuerde que los cambios en el archivo robots.txt de su servidor no se reflejarán inmediatamente en Google. Se detectarán y propagarán la próxima ocasión que Googlebot rastree su sitio Googlebot rastrea mi sitio demasiado rápido.

¿Qué puedo hacer?Ante esta situación, se debe enviar un mensaje a Google en el que les indique la URL de su sitio y una descripción pormenorizada del problema. Incluya también una parte del registro web que muestra los accesos a Google.

¿Por qué Googlebot solicita un archivo denominado robots.txt que no se encuentra en mi servidor?

robots.txt es un documento estándar que notifica a Googlebot que no debe descargar información total o parcialmente desde su servidor web. Para obtener información acerca de cómo crear un archivo robots.txt, consulte el Robot Exclusion Standard. Si lo único que quiere es evitar que aparezcan en el registro de su servidor web los mensajes de error "no se ha encontrado el archivo", puede crear un archivo vacío que se llame robots.txt.

¿Por qué Googlebot intenta descargar vínculos incorrectos de mi servidor o de un servidor que no existe?

Es un hecho que muchos vínculos de la web estarán rotos u obsoletos en un momento concreto. Cuando un usuario publica un vínculo incorrecto hacia su sitio (debido quizá a un error tipográfico o de ortografía) o no actualice sus vínculos para reflejar los cambios en su servidor, Googlebot intentará descargar un vínculo incorrecto desde su sitio. Ésta es la razón por la cual puede obtener resultados en una máquina que no es un servidor web.

¿Por qué Googlebot descarga información de nuestro servidor web "secreto"?

Es casi imposible mantener un servidor web "secreto" no publicando vínculos hacia él. Cuando un usuario sigue un vínculo desde su servidor "secreto" a otro servidor web, es probable que su URL "secreta" se incluya en el código de referencia, por lo que podrá ser almacenada y posiblemente publicada por el otro servidor web en su registro de referencia. Por lo tanto, si existe un vínculo a su servidor o página web "secretos" en cualquier lugar de la web, es probable que Googlebot y otros rastreadores web lo encuentren.

¿Por qué Googlebot no obedece a mi archivo robots.txt?

Para ahorrar ancho de banda, Googlebot sólo descarga el archivo robots.txt una vez al día o cuando han recogido un número importante de páginas del servidor. Por lo tanto, es posible que a Googlebot le lleve un tiempo ponerse al corriente de los cambios en su archivo robots.txt. Además, Googlebot se encuentra distribuido en varias máquinas, cada una de las cuales mantiene un registro propio de su archivo robots.txt.Siempre sugerimos que se compruebe si la sintaxis es correcta, comparándolo con el estándar en http://www.robotstxt.org/wc/exclusion.html#robotstxt. Una fuente habitual de problemas es que el archivo robots.txt no está ubicado en el directorio principal del servidor (por ejemplo, www.mihost.com/robots.txt); situar el archivo en un subdirectorio no tendrá ningún efecto.Igualmente, existe una pequeña diferencia entre la manera en que Googlebot utiliza el archivo robots.txt y la manera en que se debería utilizar según el estándar robots.txt (sin olvidar la distinción entre "debería" y "debe"). El estándar indica que deberíamos utilizar la primera regla aplicable, pero Googlebot obedece a la más larga (es decir, la más específica). Esta práctica que resulta más intuitiva hace coincidir lo que las personas hacen en realidad con lo que esperan que hagamos. Por ejemplo, tenga en cuenta el siguiente archivo robots.txt:User-Agent: * Allow: / Disallow: /cgi-bin Es evidente que la intención del webmaster es permitir que los robots rastreen todo excepto el directorio /cgi-bin. En consecuencia, es lo que en Google hacen.

¿Por qué se producen resultados desde varias máquinas en Google.com, todas con el agente usuario Googlebot?

Googlebot se ha diseñado para distribuirse en varias máquinas para mejorar el rendimiento y adaptarse al crecimiento de la web. Además, para reducir el uso de ancho de banda, ejecutan varios rastreadores en máquinas situadas cerca de los sitios que están indexando en la red.
¿Pueden facilitarme las direcciones IP desde las que Googlebot realiza los rastreos para que pueda filtrar mis registros?Las direcciones IP utilizadas por Googlebot cambian de vez en cuando. La mejor manera de identificar los accesos de Googlebot es utilizar el agente usuario (Googlebot).

¿Por qué descarga Googlebot en mi sitio la misma página varias veces?

En general, Googlebot deberá descargar únicamente una copia de cada uno de los archivos de su sitio en un rastreo dado. De manera ocasional, el rastreador se detiene y se reinicia, lo que puede provocar que realice el rastreo de páginas que ha recuperado recientemente.

¿Por qué las páginas de mi sitio que ha rastreado Googlebot no aparecen en su índice?

No se preocupe si no puede encontrar inmediatamente documentos que Googlebot ha rastreado en el motor de búsqueda de Google. Los documentos se introducen en nuestro índice poco después de haber sido rastreados. En ocasiones, los documentos obtenidos por Googlebot no se incluyen por diversas razones (por ejemplo, por parecer duplicados de otras páginas de la web).
¿Qué tipo de vínculos rastrea Googlebot?Googlebot rastrea los vínculos HREF y SRC.

¿Cómo puedo evitar que Googlebot rastree los vínculos de mis páginas?

Si desea obtener más información acerca de los metacódigos, consulte http://www.robotstxt.org/wc/exclusion.html#meta; también puede leer lo que indican los estándares HTML al respecto. Recuerde que los cambios que aplique en su sitio no se reflejarán inmediatamente en Google, sino que se detectarán y propagarán la próxima ocasión que Googlebot rastree su sitio.

¿Cómo le especifico a Googlebot que no rastree un vínculo que aparece solo en una página?

Los metacódigos pueden excluir todos los vínculos salientes de una página, pero también puede indicar a Googlebot que no rastree los vínculos individuales añadiendo rel="nofollow" a un hipervínculo. Cuando Google detecte el atributo rel="nofollow" en algún hipervínculo, éste se omitirá en la clasificación de sitios web en nuestros resultados de búsqueda. Por ejemplo, el vínculo ¡Un vínculo excepcional!se podría sustituir por No puedo responder por este vínculo.

Autor: Googlehttp://books.google.es/webmasters/bot.html