O que é o robots.txt e para que serve?
O ficheiro robots.txt é um ficheiro de texto utilizado pelos motores de busca para compreender que partes de um site web devem ser rastreadas e indexadas. O seu nome completo é “robots exclusion protocol” e utiliza-se para indicar aos robots dos motores de busca que páginas ou seções de um site web devem ser omitidas durante o processo de rastreamento.
Em resumo, o robots.txt é um ficheiro que se encontra na raiz de um site web e contém instruções para os motores de busca sobre que partes do site devem ser rastreadas e quais devem ser ignoradas.
Por que é importante o ficheiro robots.txt para o SEO?
O ficheiro robots.txt desempenha um papel fundamental no SEO de um site web. A seguir, apresentam-se algumas razões pelas quais é importante:
Controlo de rastreamento: O ficheiro robots.txt permite controlar que páginas ou seções de um site web devem ser rastreadas pelos motores de busca. Isto é útil quando se deseja evitar que certas partes do site sejam indexadas, como páginas de administração, conteúdo duplicado ou áreas privadas.
Melhoria do rendimento: Ao bloquear o rastreamento de certas seções do site web que não são relevantes para os motores de busca, pode melhorar-se o rendimento do rastreamento. Isto permite que os motores de busca se centrem nas páginas mais importantes e evitem gastar recursos rastreando conteúdo desnecessário.
Proteção de informação confidencial: Se houver conteúdo ou diretórios num site web que contenham informação confidencial ou privada, o ficheiro robots.txt permite bloquear o acesso dos motores de busca a essas áreas, evitando assim que se mostrem nos resultados de busca.
Evitar penalizações: O ficheiro robots.txt pode ajudar a evitar possíveis penalizações dos motores de busca ao bloquear o acesso a áreas que poderiam considerar-se spam ou conteúdo não desejado. Ao fornecer instruções claras aos motores de busca, podem evitar-se problemas que possam afetar o ranking do site.
Como criar o ficheiro robots.txt
A criação do ficheiro robots.txt é um processo relativamente simples. Siga estes passos para criá-lo:
Abra um editor de texto ou um IDE (ambiente de desenvolvimento integrado) no seu computador.
Crie um novo ficheiro de texto vazio e guarde-o com o nome “robots.txt”.
Assegure-se de que o ficheiro se guarda no diretório raiz do seu site web. Geralmente, isto significa guardá-lo na mesma pasta onde se encontra o ficheiro “index.html” ou “index.php”.
A seguir, pode começar a adicionar os comandos no ficheiro para controlar o rastreamento do seu site web.
Comandos de robots.txt
A seguir, apresentam-se alguns comandos comuns que se podem utilizar no ficheiro:
1. Bloquear o rastreamento do seu site:
Se deseja evitar que os motores de busca rastreiem todo o seu site web, pode utilizar o seguinte comando:
User-agent: *
Disallow: /
Este comando bloqueia o acesso de todos os robots de busca a qualquer página do seu site web. Tenha em conta que alguns robots de busca podem não respeitar esta diretiva, ainda que a maioria deles o faça.
2. Bloquear o rastreamento de uma página:
Se deseja bloquear o rastreamento de uma página específica no seu site web, pode utilizar o seguinte comando:
User-agent: *
Disallow: /caminho-da-pagina/
Substitua “/caminho-da-pagina/” com o URL relativo da página que deseja bloquear. Isto evitará que os motores de busca rastreiem essa página em particular. Por exemplo, se deseja bloquear o rastreamento da página “exemplo.html”, o comando seria:
User-agent: *
Disallow: /exemplo.html
3. Bloquear o rastreamento de uma pasta:
Se deseja bloquear o rastreamento de uma pasta completa no seu site web, pode utilizar o seguinte comando:
User-agent: *
Disallow: /pasta/
Substitua “/pasta/” com o caminho da pasta que deseja bloquear. Isto evitará que os motores de busca rastreiem qualquer página dentro dessa pasta e das suas subpastas.
4. Permitir acesso a uma página:
Se deseja permitir o acesso dos motores de busca a uma página que bloqueou anteriormente, pode utilizar o seguinte comando:
User-agent: *
Disallow:
Allow: /caminho-da-pagina/
Substitua “/caminho-da-pagina/” com o URL relativo da página à qual deseja permitir o acesso. Isto anula a diretiva de bloqueio anterior e permite que os motores de busca rastreiem essa página específica.
5. Bloquear uma pasta e permitir uma página dessa pasta:
Se deseja bloquear o rastreamento de uma pasta completa, mas permitir o acesso a uma página específica dentro dessa pasta, pode utilizar os seguintes comandos:
User-agent: *
Disallow: /pasta/
Allow: /pasta/caminho-da-pagina/
Substitua “/pasta/” com o caminho da pasta que deseja bloquear e “/pasta/caminho-da-pagina/” com o URL relativo da página à qual deseja permitir o acesso. Isto bloqueará o rastreamento da pasta, mas permitirá que os motores de busca rastreiem essa página específica dentro da pasta.
6. Indicar o sitemap:
O ficheiro robots.txt também se pode utilizar para indicar a localização do ficheiro sitemap do seu site web. O sitemap é um ficheiro XML que fornece informação sobre a estrutura e as páginas do seu site web. Pode adicionar o seguinte comando ao ficheiro robots.txt:
Sitemap: URL-do-sitemap
Dar ordens a bots em específico:
Além das diretivas gerais que se aplicam a todos os robots de busca, também é possível dar instruções específicas a bots individuais. Isto é útil se deseja estabelecer regras diferentes para diferentes motores de busca. Aqui há um exemplo:
User-agent: Googlebot
Disallow: /pasta1/
User-agent: Bingbot
Disallow: /pasta2/
Neste caso, bloqueia-se o acesso a “/pasta1/” para o Googlebot, enquanto que o Bingbot não é afetado por esta regra e pode rastreá-la. Pode repetir esta estrutura para especificar regras personalizadas para diferentes robots.
Rever e testar o ficheiro robots.txt:
Uma vez que tenha criado ou modificado o seu ficheiro, é importante revê-lo e testá-lo para assegurar-se de que as instruções se aplicam corretamente. Aqui há alguns passos que pode seguir para realizar esta verificação:
Verifique a localização do ficheiro: Assegure-se de que o ficheiro de texto robots se encontra na localização correta, isto é, no diretório raiz do seu site web. Pode aceder ao ficheiro utilizando um navegador web escrevendo o URL do seu domínio seguido de “/robots.txt” (por exemplo, www.exemplo.com/robots.txt). Se não pode ver o conteúdo do ficheiro, é possível que haja um problema com a sua localização ou nome.
Verifique a sintaxe do ficheiro: O ficheiro robots deve ter a sintaxe correta para que os motores de busca o interpretem corretamente. Assegure-se de utilizar comandos válidos, como “User-agent”, “Disallow”, “Allow” e “Sitemap”, e de que estejam escritos corretamente. Reveja que não haja erros tipográficos ou de formato.
Utilize ferramentas de teste: Os motores de busca e outras ferramentas fornecem opções para testar e validar o ficheiro robots.txt. Pode utilizar ferramentas como o Google Search Console ou o Bing Webmaster Tools para verificar a validade do seu ficheiro e detetar possíveis problemas. Estas ferramentas fornecer-lhe-ão informação detalhada sobre como os motores de busca interpretam o seu ficheiro e se há erros que deve corrigir.
Teste as diretivas de bloqueio e permissão: Para assegurar-se de que as instruções no seu ficheiro funcionam como se esperava, realize testes práticos. Tente aceder às páginas ou pastas que bloqueou e verifique que lhe mostram uma mensagem de erro ou uma página de “acesso negado”. Do mesmo modo, tente aceder às páginas ou pastas que permitiu e assegure-se de que não haja restrições de acesso.
Recorde que o ficheiro robots.txt é um guia para os motores de busca, mas nem todos os robots o respeitarão. Alguns bots maliciosos ou de spam podem ignorar as diretivas estabelecidas no ficheiro. Portanto, é importante utilizar outras medidas de segurança e privacidade para proteger o seu site web.
Conceitos do dicionário SEO
Conceitos com A
Conceitos com B
Conceitos com C
Conceitos com D
Conceitos com E
Conceitos com F
Conceitos com H
Conceitos com K
Conceitos com S
Conceitos com T