crawl spider index
Crawl Spider

Las arañas web se encargan de indexar todo el contenido de una dominio, esta sigue todos los enlaces que encuentre y arma un mapa de sitio que envía a la cola de indexado. Un archivo nombrado robots.txt le indica a una araña con exactitud que indexar, que enlaces no debe seguir, por ejemplo.

Introducción al uso del archivo

Su edición debe hacerse con certeza ya que si tenemos errores de sintaxis podemos tener como consecuencia que la(s) araña(s) no indexen nuestro contenido. A pesar de que Blogger tiene un archivo predeterminado para el blog, al buscar nuestro contenido indexado podemos encontrar enlaces con la dirección /search/ y etiquetas /label/ las cuales son irrelevantes como páginas únicas para su indexado, además de que se puede entender como contenido duplicado y detener nuestro crecimiento en el PageRank.

Sintaxis

La sintaxis del archivo es simple, su contenido más básico consta de 2 líneas:

User-agent: *
Disallow:

“User-agent” hace referencia a la araña web a la que se dirigen esos parámetros, por ejemplo, la araña de Yahoo!.

“Disallow” nos indica en que enlace no debe entrar, pero en este caso como no hay nada seguido de los 2 puntos, indicamos que tiene acceso a todo el contenido.

“*” es un comodín para referirse a cualquier bot que visite nuestra página.

 

Visita la página http://www.robotstxt.org/robotstxt.html la cual contiene una completa documentación oficial de sintaxis, factores y variables en la creación – modificación de un archivo robots.txt.

 

Código optimizado

El siguiente archivo es el que uso en este blog. Su contenido es el siguiente:

User-agent: *
Disallow: /search?q=*
Disallow: /*?updated-max=*
Allow: / 
Sitemap: http://aemulatrix.blogspot.com/feeds/posts/default?orderby=UPDATED

Con estos parámetros le indicamos a los bots que no indexen /search/ y cualquier enlace que incluya direcciones del archivo (/*?updated-max=*), esto lo indica el asterisco previo y el que hasta al final.

Nuestro feed sirve de Sitemap (debemos colocar la dirección original y no la de FeedBurner).

Para ver que ha sido indexado de nuestro blog, buscamos en Google sitemap:nombre_del_blog.blogspot.com ó si tenemos dominio propio sitemap:nombre_del_blog.com

Editando el archivo de Blogger

En nuestro panel de control nos dirigimos a Configuración >> Preferencias de búsqueda, en Rastreadores e indexación podemos observar Archivo robots.txt personalizado, damos click en editar, seleccionamos y llenamos con el nuevo contenido.

Configurar robots.txt en Blogger
Robots Personalizados