Archivo ROBOTS.TXT: ¿qué es? ¿cómo usarlo correctamente?

0 7 minutos de lectura

índice

¡Dale a Compartir¡

Archivo ROBOTS.TXT: ¿qué es? ¿cómo usarlo correctamente?

Gracias a robots.txt, puedes comunicarte con los rastreadores de tu sitio web. Vale la pena sugerirles cómo deben hacer esto. Para esto, sin embargo, necesitas saber un idioma que ellos entiendan.

El propósito de crear tu propio sitio web es siempre ser visible en Internet. Por lo tanto, cada vez más decides optimizar el sitio web en términos de las pautas de Google para que aparezca lo más alto posible en los resultados orgánicos. La pregunta básica es: ¿cómo es que Google u otro motor de búsqueda conoce el contenido de tu sitio web? Bueno, los llamados robots indexadores. En el caso de los enviados de los motores de búsqueda, su tarea principal es investigar el contenido de los sitios web.

Cuando encuentran el tuyo, vale la pena informarles dónde pueden y dónde no deben estar, y robots.txt puede ayudar. Hay un determinado grupo de subpáginas cuya visibilidad es desaconsejable. Seguidamente te enseñare todo lo que debes saber sobre el archivo robots.txt, así que quédate y disfruta del contenido que tengo para ti:

Robots.txt. ¿Qué es esto?

Para la comunicación con los robots web, se utiliza, entre otros, el archivo robots txt. Este simple archivo de texto es lo primero que buscan los robots cuando llegan a nuestro sitio. Consiste en una combinación de comandos que se ajustan al estándar del Protocolo de exclusión de robots, un «lenguaje» que entienden los bots.

Gracias a esto, puedes influir en la dirección de su tráfico, limitando el acceso a recursos que no son necesarios en el contexto de los resultados de búsqueda. Estos pueden ser archivos gráficos, estilos, scripts y, lo que es más importante, subpáginas específicas de nuestro sitio web.

Leer: Búsqueda POR VOZ de GOOGLE ¿cómo aparecer en VOICE SEARCH en 2022?

Lugares en los que el robot no debe gatear

Hace tiempo que los sitios web dejaron de ser simples archivos que contienen solo contenido de texto. Especialmente las tiendas en línea a menudo tienen miles de subpáginas, algunas de las cuales no tienen valor en el contexto de los resultados de búsqueda y, en el peor de los casos, darán como resultado la duplicación de contenido (¿qué son estas páginas y cómo tratarlas?).

Elementos como un carrito de compras, un motor de búsqueda interno, un procedimiento de pedido o un panel de usuario no deben ser accesibles para los robots. Debido a su diseño, es mucho más probable que causen una confusión innecesaria que mejorar nuestra visibilidad en las SERP. También vale la pena bloquear las copias de subpáginas realizadas por CMS, que aumentan la duplicación interna de la página.

¡Ten especial cuidado!

Al escribir las reglas para guiar el tráfico de los robots rastreadores, es importante conocer bien la estructura del sitio web. Existe el riesgo de que con un comando bloqueemos su acceso a todo el sitio web o contenido importante para nosotros. Entonces el resultado será contraproducente: desapareceras de los resultados de búsqueda.

Robots.txt son solo recomendaciones

El mencionado protocolo de comunicación es el denominado sistema de honor. El robot puede seguir nuestras recomendaciones, pero no puedes imponerle nuestra voluntad. Esto sucede por una variedad de razones. En primer lugar, el robot de Google, o Googlebot, no es el único bot que navega por sitios web. Si bien los creadores del motor de búsqueda más grande del mundo aseguran que su enviado reconocerá nuestras recomendaciones, no es necesario que lo hagan.

Una URL específica también se puede indexar si aparece un enlace a ella en otro sitio indexado. Dependiendo de sus necesidades, puede protegerse de tal situación de varias maneras. Un ejemplo sería la etiqueta meta » noindex » o el encabezado HTTP «X-Robots-Tag». Los datos privados siempre deben protegerse con una contraseña; los robots no pueden manejarlos. Por lo tanto, en el contexto de este archivo, te estoy hablando de ocultar datos, no de eliminarlos del índice del motor de búsqueda.

¿Generador de robots.txt, o cómo crear un archivo?

En Internet puede encontrar muchos generadores de archivos de robots (generador de robots.txt), y los sistemas CMS a menudo están equipados con un mecanismo que ayuda al usuario a crear dicho archivo. Hay pocas posibilidades de que el manual tenga que prepararse a mano. Sin embargo, vale la pena conocer la sintaxis del protocolo, es decir, las reglas y comandos que puedes dar a los robots indexadores.

Construcciones

Crea un archivo de texto robots.txt. Según Google, el sistema de codificación de caracteres es ASCII o UTF-8. En general, debe ser lo más simple posible. Generalmente se usan algunas palabras clave seguidas de dos puntos para emitir comandos, creando reglas de acceso.

Agente de usuario: especifica el destinatario del comando. Ingresa el nombre del bot de indexación aquí. En Internet encontraras una extensa base de datos de nombres (http://www.robotstxt.org/db.html), pero la mayoría de las veces que quieras comunicarte con el robot de Google -es decir, el mencionado Googlebot o todos a la vez- luego usa el asterisco «*».

Reglas para ingresar etiquetas en robots.txt

A continuación, te mostrare las reglas más importantes que debes tener en cuenta para ingresar etiquetas en robots.txt

Regla predeterminada

En primer lugar, vale la pena recordar que la instrucción predeterminada para los rastreadores es aceptar escanear todo el sitio. Entonces, si desea que su archivo robots.txt se vea como esta regla:

User-agent: *

Allow: /

No estás obligado a incluirlo en el directorio del sitio web. Los bots lo escanearán como mejor les parezca. Sin embargo, vale la pena incluir dicho archivo para evitar posibles errores durante su análisis.

Tamaño de letra

Puede ser una sorpresa, pero los robots pueden reconocer letras mayúsculas y minúsculas. Entonces file.php y File.php serán dos direcciones diferentes para ellos.

El poder del asterisco

Otra funcionalidad práctica es el operador comodín, es decir, el asterisco – * mencionado anteriormente. En el Protocolo de Exclusión de Robots es información que cualquier secuencia de caracteres, de longitud ilimitada (incluido el cero), puede aparecer en un lugar determinado. Por ejemplo, la regla:

- Disallow: /*/tienda.html

Se aplicará tanto al archivo ubicado en la ubicación:

- /catalogo1/plik.html

Así como en la carpeta:

- /folder1/folder2/folder36/tienda.html

Puedes usar la estrella de una manera diferente. La instrucción en la que lo coloca antes de una determinada extensión de archivo nos permite aplicar la regla a todos los archivos de este tipo. Por ejemplo:

- Disallow: /*.php

Se aplicará a todos los archivos. php en nuestro sitio (excepto la ruta «/», incluso si conduce a un archivo con la extensión. php), y la regla:

- Disallow: /folder1/test*

A todos los archivos y directorios en la carpeta 1 con caracteres de «prueba» al frente.

Leer: ¿Cómo puede influir los FACTORES de CLASIFICACIÓN de GOOGLE en el MOTOR de BÚSQUEDA?

Terminar una cadena

También vale la pena saber sobre la existencia del operador «$» que significa el final de una dirección. De esta forma, por ejemplo, usando la regla:

- >User-agent: *
- Disallow: /folder1/
- Allow: /folder1/*.php$

Te recomiendo que los bots no indexen el contenido de la carpeta 1, sino que también permitan escanear los archivos. php dentro de ella. Rutas que contienen, por ejemplo, parámetros enviados, como:

- http://todoropas/catalogo1/strona.php?page=1

No será revisado por bots. Sin embargo, este tipo de problema se puede resolver fácilmente utilizando enlaces canónicos.

Comentarios

Si el archivo resultante y tu sitio web son bastante complejos, debes agregar comentarios que expliquen tus decisiones. Es muy simple: simplemente agregue «#» al comienzo de la línea. Los robots saltarán tu contenido durante tu trabajo.

Algunos ejemplos

La regla que desbloquea el acceso a todos los archivos se mencionó anteriormente. También vale la pena conocer el que hará que los bots abandonen tu sitio.

- User-agent: *
- Disallow: /

Entonces, si tu sitio web no está visible en absoluto en el motor de búsqueda, es importante verificar si esta entrada no se encontró en su archivo robots.txt.

Contiene un conjunto de todas las construcciones antes mencionadas, además del Sitemap innecesario. Las reglas van para todos los bots. Por ejemplo, el directorio «» se bloqueó environmenty permitió que los robots accedieran a la ruta » /environment/cache/images/. También serán inaccesibles para el buscador, entre otros, cesta, páginas de inicio de sesión, copias del contenido (índice, completo) así como la opción de búsqueda interna o agregar comentarios.

¿Dónde poner el archivo robots.txt?

Todo lo que nos queda es subirlo al servidor. El principio aquí es muy simple. Debe estar en el directorio raíz del host de nuestro sitio web. Cualquier otra ubicación evitará que los bots lo encuentren. Así que una dirección de ejemplo es:

- http://mojastrona.es/robots.txt

Si tienes varias versiones de la dirección, por ejemplo, con http, https, www y sin www, vale la pena utilizar las redirecciones adecuadas a un dominio principal. Esto asegurará que se indexen correctamente.

Información para Google

El archivo correctamente ubicado será reconocido por los robots de los motores de búsqueda. Sin embargo, puedes ayudarlos adicionalmente. Google permite a los usuarios de Search Console probar el archivo actual, verificar las modificaciones planificadas y enviar un nuevo archivo robots.txt. Los enlaces de la documentación oficial de Google apuntan a la versión anterior del GSC, por lo que también la usaras.

Con esta herramienta, puedes verificar si elementos específicos de tu sitio web son visibles para los robots. Por ejemplo, la dirección /wp/wp-admin/test.php no estará disponible para ellos debido a la restricción que impone la línea marcada en rojo. Si has actualizado el archivo robots.txt, puedes informar a Google mediante la opción «Enviar”, solicitando una nueva verificación.

El archivo robots.txt es un conjunto de recomendaciones para los bots que rastrean tu sitio. No están obligados a cumplirlos. Sin embargo, los principales motores de búsqueda respetan nuestras instrucciones. Por lo tanto, si has preparado el archivo de acuerdo con las recomendaciones de Google, seguramente contribuirá a la correcta indexación de las subpáginas posteriores. Si desea bloquear completamente y con 100% de certeza el acceso a ciertos datos en el servidor, vale la pena usar otros métodos, entre los cuales el más confiable será una contraseña que sea difícil de descifrar.

Leer: Mejores consejos para escribir tu plan de marketing