3 Marzo 2010

Como bloquear diferentes partes de nuestra Web a los buscadores

Emilio 3 Marzo 2010, 23:23
Categoría: General

Mucha gente es posible que se pregunte por qué interesaría bloquear ciertas partes de una página Web a los buscadores. Pues bien, entre los motivos más importantes se me ocurren dos, una gran razón podría ser por motivos de seguridad.

Razones para bloquear ciertas partes de un sitio Web

Muchas páginas disponen de “zonas seguras” donde la gente o los webmasters guardan cierta documentación o simplemente son sitios desde los que se puede administrar la página. Si permitimos a los robots de búsqueda indexar por completo toda la estructura de nuestra página es posible que estas secciones se vuelvan visibles para ciertas personas o lo que es peor, que en el caso de disponer de fallos de seguridad, estos robots puedan acceder a dichas secciones y publicar toda la información alli encontrada.

Una segunda razón puede ser para controlar la carga de trabajo de nuestro servidor, en especial, el ancho de banda consumido. Imaginemos que disponemos de una sección de noticias que además de mostrarlas vía web, permite su descarga en formato PDF y todos esos ficheros se almacenan en una carpeta.

Si permitimos que los robots indexen todos los ficheros PDF, estaríamos permitiendo que la misma información se indexara dos veces (en formatos diferentes) por lo que la carga de trabajo y ancho de banda de nuestro servidor aumentaría.

¿Cómo puedo bloquear ciertas partes de mi sitio Web?

Para bloquear partes de un sitio Web a los buscadores podemos hacer uso del fichero robots.txt. A continuación mostramos una imagen que explica el proceso.

robots.txt

Este fichero, de nombre robots.txt tiene que ser creado en la raíz de nuestro servidor y la estructura para bloquear ciertas partes de una página Web debería ser la siguiente:

User-agent: *
Disallow: /descargas-pdf
Disallow: /admin

Con la instrucción User-agent nos referimos al buscador, si utilizamos ‘*’ indicaremos que es válido para todos. Y mediante Disallow indicamos las carpetas que no queremos que sean indexadas. Es importante darse cuenta que las rutas deben de ser relativas, es decir, sin añadir http://..

Si queréis saber más información sobre el archivo robots.txt, en este enlace podréis encontrarlo.

Validar robots.txt

En el panel de Herramientras para Webmasters de Google podremos también supervisar este fichero y comprobar si está funcionando de forma correcta. Incluso dipondremos un una herramienta para crear de forma sencilla e intuitiva.

robots

Share and Enjoy:
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks

Deja tu comentario


Buscar

  • Categorias

  • Últimos comentarios

    • Diseñador web: Una lista super amplia .. por algo el posicionamiento es caro
    • Emilio: Kumikiro, me alegro que te sirviera, espero que puedas encontrar cosas valiosas para ti en este blog, un...
    • kumikiro: Muchas gracias por la respuesta, Sencilla y efectiva. Os habéis ganado un nuevo seguidor en el feed
    • Emilio: Me alegro que te haya gustado Jota, muchas gracias por dar tu opinión.
    • Emilio: Hola kumikiro, respecto a la primera pregunta, para detectar contenido duplicado en páginas muy grandes o...

    Twitter