Como controlar la indexación de un sitio web

- noviembre 28, 2019

Seo

Siguiendo con nuestro tema relacionado con el archivo robots.txt, en esta ocasión ampliaremos un poco mas el tema de las directivas meta que podemos utilizar dentro del nuestro contenido.

¿Qué son las etiquetas meta de robot?

Las directivas meta de robots (a veces llamadas “metaetiquetas”) son fragmentos de código que proporcionan instrucciones a los rastreadores sobre cómo rastrear o indexar el contenido de la página web. Mientras que las directivas de archivo robots.txt dan sugerencias a bots sobre cómo rastrear las páginas internas de un sitio web, las meta etiquetas de robots proporcionan instrucciones más firmes sobre cómo rastrear e indexar el contenido de una página.

Hay dos tipos de meta etiquetas de robots:

  • Las que forman parte de la página HTML (como la etiqueta de meta robots).
  • Y las que el servidor web envía como encabezados HTTP (como x-robots-tag).
Controlar la indexacion con robots

Los mismos parámetros (es decir, las instrucciones de rastreo o indexación que proporciona una meta etiqueta, como “noindex” y “nofollow” en el ejemplo anterior) se pueden usar tanto con meta robots como con la etiqueta x-robots; lo que difiere es cómo se comunican esos parámetros a los rastreadores.

Las meta etiquetas dan instrucciones a los rastreadores sobre cómo rastrear e indexar la información que encuentran en una página web específica. Si los bots descubren estas directivas, sus parámetros sirven como sugerencias sólidas para el comportamiento de indexación del rastreador. Pero al igual que con los archivos robots.txt, los rastreadores no tienen que seguir sus meta etiquetas, por lo que es seguro que algunos robots web maliciosos ignorarán sus directivas.

A continuación, se detallan los parámetros que los rastreadores de motores de búsqueda entienden y siguen cuando se usan en meta etiquetas. Los parámetros no distinguen entre mayúsculas y minúsculas, pero tenga en cuenta que es posible que algunos motores de búsqueda solo sigan un subconjunto de estos parámetros o que traten algunas directivas de manera ligeramente diferente.

Parámetros de control de indexación:

  • Noindex: Le dice a un motor de búsqueda que no indexe una página.
  • Index: Le dice a un motor de búsqueda que indexe una página. Tenga en cuenta que no necesita agregar esta metaetiqueta; Es el valor predeterminado.
  • Follow: Incluso si la página no está indexada, el rastreador debe seguir todos los enlaces de una página y pasar equidad a las páginas vinculadas.
  • Nofollow: Le dice a un rastreador que no siga ningún enlace en una página o pase por el enlace de equidad.
  • Noimageindex: Le dice a un rastreador que no indexe ninguna imagen en una página.
  • None: equivale a usar las etiquetas noindex y nofollow simultáneamente.
  • Noarchive: Los motores de búsqueda no deben mostrar un enlace en caché a esta página en un SERP.
  • Nocache: Igual que noarchive, pero solo utilizado por Internet Explorer y Firefox.
  • Nosnippet: Le dice a un motor de búsqueda que no muestre un fragmento de esta página (es decir, una meta descripción) de esta página en un SERP.
  • Unavailable_after: Los motores de búsqueda ya no deberían indexar esta página después de una fecha en particular.

Tipos de meta directivas de robots

Hay dos tipos principales de meta etiquetas para robots: la etiqueta meta robots y la etiqueta x-robots. Cualquier parámetro que puede ser utilizado en una etiqueta robots meta también se puede especificar en un x-robots-tag.

Hablaremos de las directivas de meta robots y etiquetas de x-robots a continuación.

Etiqueta de meta robots

La etiqueta de meta robots, comúnmente conocida como “meta robots” o coloquialmente como “etiqueta de robots”, es parte del código HTML de una página web y aparece como elementos de código dentro de la sección de una página web.

head meta controlar la indexacion
<meta name=“robots” content=“[PARÁMETRO]”>

Si bien la linea de código <meta name=”robots” content=”[PARAMETER]”> es estándar, también puede proporcionar directivas a rastreadores específicos reemplazando los “robots” con el nombre de un agente de usuario específico. Por ejemplo, para orientar una directiva específicamente a Googlebot, usaría el siguiente código:

<meta name = "googlebot" content = "[DIRECTIVA]”>

¿Desea usar más de una directiva en una página? Siempre que estén dirigidos al mismo “robot” (user-agent), se pueden incluir varias etiquetas en una meta directiva, solo sepárelas por comas.

Aquí hay un ejemplo:

<meta name="robots" content="noimageindex, nofollow, nosnippet”>

Esta etiqueta indicaría a los robots que no indexen ninguna de las imágenes de una página, que no sigan ninguno de los enlaces o que muestren un fragmento de la página cuando aparece en un SERP.
Si está utilizando diferentes directivas de etiquetas de meta robots para diferentes agentes de usuario de búsqueda, deberá usar etiquetas separadas para cada bot.

 

X-robots-tag

Si bien la etiqueta meta robots le permite controlar el comportamiento de indexación a nivel de página, la etiqueta x-robots se puede incluir como parte del encabezado HTTP para controlar la indexación de una página en su conjunto, así como elementos muy específicos de una página.

Si bien puede usar la etiqueta x-robots para ejecutar las mismas directivas de indexación que los meta robots, la directiva x-robots-tag ofrece una flexibilidad y funcionalidad significativamente mayor que la etiqueta meta robots. Específicamente, los x-robots permiten el uso de expresiones regulares, la ejecución de directivas de rastreo en archivos que no son HTML y la aplicación de parámetros a nivel global.

Para usar la etiqueta x-robots, deberá tener acceso al encabezado de su sitio web .php, .htaccess o al archivo de acceso al servidor. A partir de ahí, agregue el marcado x-robots-tag de su configuración de servidor específica, incluidos los parámetros. Este artículo proporciona algunos excelentes ejemplos de cómo se ve el marcado de etiquetas x-robots si está utilizando alguna de estas tres configuraciones.

Aquí hay algunos casos de uso de por qué podría emplear la etiqueta x-robots:

  • Controlar la indexación de contenido no escrito en HTML (como flash o video).
  • Bloqueo de la indexación de un elemento particular de una página (como una imagen o video), pero no de toda la página en sí.
  • Controlar la indexación si no tiene acceso al HTML de una página (específicamente, a la sección) o si su sitio usa un encabezado global que no se puede cambiar.
  • Agregar reglas para determinar si una página debe indexarse o no (por ejemplo, si un usuario ha comentado más de 20 veces, indexe su página de perfil).

 

Mejores prácticas de SEO con etiquetas meta de robots

  • Todas las meta etiquetas (robots o no) se descubren cuando se rastrea una URL. Esto significa que si un archivo robots.txt no permite que la URL se rastree, no se verá ninguna meta directiva en una página (ya sea en el encabezado HTML o HTTP) y efectivamente, se ignorará.
  • En la mayoría de los casos, el uso de una etiqueta de meta robots con los parámetros “noindex, follow” debe emplearse como una forma de restringir el rastreo o la indexación en lugar de usar el archivo robots.txt no permitido.
  • Es importante tener en cuenta que es probable que los rastreadores malintencionados ignoren por completo las meta directivas y, como tal, este protocolo no constituye un buen mecanismo de seguridad. Si tiene información privada que no desea que se pueda buscar públicamente, elija un enfoque más seguro, como la protección con contraseña, para evitar que los visitantes vean páginas confidenciales.
  • No es necesario utilizar tanto meta robots como la etiqueta x-robots en la misma página; hacerlo sería redundante.

Recibirás cada semana todas nuestras actualizaciones
Puedes estar tranquilo que nunca te enviaremos SPAM
SOBRE EL AUTOR

Desarrollador web (Wordpress Expert) PHP, HTML5, CSS3, LINUX y muchos más...

¿Tienes un proyecto en mente? Hagámoslo real

CONTACTAR
Ebook-eBook – Funciones más Útiles para WordPress

Descarga el eBook GRATIS!

eBook – Funciones más Útiles para WordPress