O que é o robots.txt e para que serve?

O ficheiro robots.txt é um ficheiro de texto utilizado pelos motores de busca para compreender que partes de um site web devem ser rastreadas e indexadas. O seu nome completo é “robots exclusion protocol” e utiliza-se para indicar aos robots dos motores de busca que páginas ou seções de um site web devem ser omitidas durante o processo de rastreamento.

Em resumo, o robots.txt é um ficheiro que se encontra na raiz de um site web e contém instruções para os motores de busca sobre que partes do site devem ser rastreadas e quais devem ser ignoradas.

Por que é importante o ficheiro robots.txt para o SEO?

O ficheiro robots.txt desempenha um papel fundamental no SEO de um site web. A seguir, apresentam-se algumas razões pelas quais é importante:

Controlo de rastreamento: O ficheiro robots.txt permite controlar que páginas ou seções de um site web devem ser rastreadas pelos motores de busca. Isto é útil quando se deseja evitar que certas partes do site sejam indexadas, como páginas de administração, conteúdo duplicado ou áreas privadas.

Melhoria do rendimento: Ao bloquear o rastreamento de certas seções do site web que não são relevantes para os motores de busca, pode melhorar-se o rendimento do rastreamento. Isto permite que os motores de busca se centrem nas páginas mais importantes e evitem gastar recursos rastreando conteúdo desnecessário.

Proteção de informação confidencial: Se houver conteúdo ou diretórios num site web que contenham informação confidencial ou privada, o ficheiro robots.txt permite bloquear o acesso dos motores de busca a essas áreas, evitando assim que se mostrem nos resultados de busca.

Evitar penalizações: O ficheiro robots.txt pode ajudar a evitar possíveis penalizações dos motores de busca ao bloquear o acesso a áreas que poderiam considerar-se spam ou conteúdo não desejado. Ao fornecer instruções claras aos motores de busca, podem evitar-se problemas que possam afetar o ranking do site.

Como criar o ficheiro robots.txt

A criação do ficheiro robots.txt é um processo relativamente simples. Siga estes passos para criá-lo:

Abra um editor de texto ou um IDE (ambiente de desenvolvimento integrado) no seu computador.

Crie um novo ficheiro de texto vazio e guarde-o com o nome “robots.txt”.

Assegure-se de que o ficheiro se guarda no diretório raiz do seu site web. Geralmente, isto significa guardá-lo na mesma pasta onde se encontra o ficheiro “index.html” ou “index.php”.

A seguir, pode começar a adicionar os comandos no ficheiro para controlar o rastreamento do seu site web.

Comandos de robots.txt

A seguir, apresentam-se alguns comandos comuns que se podem utilizar no ficheiro:

1. Bloquear o rastreamento do seu site:

Se deseja evitar que os motores de busca rastreiem todo o seu site web, pode utilizar o seguinte comando:

User-agent: *
Disallow: /
Este comando bloqueia o acesso de todos os robots de busca a qualquer página do seu site web. Tenha em conta que alguns robots de busca podem não respeitar esta diretiva, ainda que a maioria deles o faça.

2. Bloquear o rastreamento de uma página:

Se deseja bloquear o rastreamento de uma página específica no seu site web, pode utilizar o seguinte comando:

User-agent: *
Disallow: /caminho-da-pagina/
Substitua “/caminho-da-pagina/” com o URL relativo da página que deseja bloquear. Isto evitará que os motores de busca rastreiem essa página em particular. Por exemplo, se deseja bloquear o rastreamento da página “exemplo.html”, o comando seria:

User-agent: *
Disallow: /exemplo.html

3. Bloquear o rastreamento de uma pasta:

Se deseja bloquear o rastreamento de uma pasta completa no seu site web, pode utilizar o seguinte comando:

User-agent: *
Disallow: /pasta/
Substitua “/pasta/” com o caminho da pasta que deseja bloquear. Isto evitará que os motores de busca rastreiem qualquer página dentro dessa pasta e das suas subpastas.

4. Permitir acesso a uma página:

Se deseja permitir o acesso dos motores de busca a uma página que bloqueou anteriormente, pode utilizar o seguinte comando:

User-agent: *
Disallow:
Allow: /caminho-da-pagina/
Substitua “/caminho-da-pagina/” com o URL relativo da página à qual deseja permitir o acesso. Isto anula a diretiva de bloqueio anterior e permite que os motores de busca rastreiem essa página específica.

5. Bloquear uma pasta e permitir uma página dessa pasta:

Se deseja bloquear o rastreamento de uma pasta completa, mas permitir o acesso a uma página específica dentro dessa pasta, pode utilizar os seguintes comandos:

User-agent: *
Disallow: /pasta/
Allow: /pasta/caminho-da-pagina/

Substitua “/pasta/” com o caminho da pasta que deseja bloquear e “/pasta/caminho-da-pagina/” com o URL relativo da página à qual deseja permitir o acesso. Isto bloqueará o rastreamento da pasta, mas permitirá que os motores de busca rastreiem essa página específica dentro da pasta.

6. Indicar o sitemap:

O ficheiro robots.txt também se pode utilizar para indicar a localização do ficheiro sitemap do seu site web. O sitemap é um ficheiro XML que fornece informação sobre a estrutura e as páginas do seu site web. Pode adicionar o seguinte comando ao ficheiro robots.txt:

Sitemap: URL-do-sitemap

Dar ordens a bots em específico:

Além das diretivas gerais que se aplicam a todos os robots de busca, também é possível dar instruções específicas a bots individuais. Isto é útil se deseja estabelecer regras diferentes para diferentes motores de busca. Aqui há um exemplo:

User-agent: Googlebot
Disallow: /pasta1/

User-agent: Bingbot
Disallow: /pasta2/

Neste caso, bloqueia-se o acesso a “/pasta1/” para o Googlebot, enquanto que o Bingbot não é afetado por esta regra e pode rastreá-la. Pode repetir esta estrutura para especificar regras personalizadas para diferentes robots.

Rever e testar o ficheiro robots.txt:

Uma vez que tenha criado ou modificado o seu ficheiro, é importante revê-lo e testá-lo para assegurar-se de que as instruções se aplicam corretamente. Aqui há alguns passos que pode seguir para realizar esta verificação:

Verifique a localização do ficheiro: Assegure-se de que o ficheiro de texto robots se encontra na localização correta, isto é, no diretório raiz do seu site web. Pode aceder ao ficheiro utilizando um navegador web escrevendo o URL do seu domínio seguido de “/robots.txt” (por exemplo, www.exemplo.com/robots.txt). Se não pode ver o conteúdo do ficheiro, é possível que haja um problema com a sua localização ou nome.

Verifique a sintaxe do ficheiro: O ficheiro robots deve ter a sintaxe correta para que os motores de busca o interpretem corretamente. Assegure-se de utilizar comandos válidos, como “User-agent”, “Disallow”, “Allow” e “Sitemap”, e de que estejam escritos corretamente. Reveja que não haja erros tipográficos ou de formato.

Utilize ferramentas de teste: Os motores de busca e outras ferramentas fornecem opções para testar e validar o ficheiro robots.txt. Pode utilizar ferramentas como o Google Search Console ou o Bing Webmaster Tools para verificar a validade do seu ficheiro e detetar possíveis problemas. Estas ferramentas fornecer-lhe-ão informação detalhada sobre como os motores de busca interpretam o seu ficheiro e se há erros que deve corrigir.

Teste as diretivas de bloqueio e permissão: Para assegurar-se de que as instruções no seu ficheiro funcionam como se esperava, realize testes práticos. Tente aceder às páginas ou pastas que bloqueou e verifique que lhe mostram uma mensagem de erro ou uma página de “acesso negado”. Do mesmo modo, tente aceder às páginas ou pastas que permitiu e assegure-se de que não haja restrições de acesso.

Recorde que o ficheiro robots.txt é um guia para os motores de busca, mas nem todos os robots o respeitarão. Alguns bots maliciosos ou de spam podem ignorar as diretivas estabelecidas no ficheiro. Portanto, é importante utilizar outras medidas de segurança e privacidade para proteger o seu site web.

Conceitos do dicionário SEO

Conceitos com A
Conceitos com B
Conceitos com C
Conceitos com D
Conceitos com E
Conceitos com F
Conceitos com H
Conceitos com K
Conceitos com S
Conceitos com T