0

Saiba como indexar seu WebSite com uso de Robots.TXT [Tutorial]

#HTML #Boas práticas #Marketing Digital
Vagner Bellacosa
Vagner Bellacosa

O que são ROTOBS Web indexantes?


Salve jovem padawan, hoje vamos retomar um assunto de artigos anteriores, vamos falar sobre otimização de Website, trabalhando no tópico de Web Designer, recordando um pouco, falamos sobre estrutura de diretórios, técnicas de SEO, meta dados e OG files, até o deploy no site do GIteHub com domínio gratuito para páginas estáticas.


Agora falaremos sobre robots, bots spiders, pequenos e laboriosos softwares, que diariamente percorrem milhões de páginas na WEB, acessando sites, vendo sua estrutura, analisando, navegando nas urls, processando, catalogando e salvando-nos Servidores dos grandes motores de busca: Google, Yahoo, Bling entre outros.


São conhecidos por Robots indexadores, ou bots para os íntimos, sua nobre função nos ajuda fenomenalmente, quando digitamos palavras chaves em busca de algo, é saiba que existem alguns lugares inacessíveis conhecida como Deep Web, uma terra selvagem e sem lei, cheia de perigos, que iremos abordar num artigo num outro dia, voltemos aos robot.txt e seus segredos.


O que é ROBOTS.TXT?


É um pequeno arquivo de texto puro, contendo um script como comandos ao bot, informando o que ele pode ou não fazer dentro do site, são boas práticas acordadas pelos os gigantes da WEB, para garantir ordem, privacidade e acesso a informação.


Lembrando que nos primórdios da WEB, era um deus nos acuda, com vários administradores de servidores, possessos com a quebra de performance e sobrecarga de acessos, provocados por bots chupins, que em alguns casos geravam negação de serviços.


Existe uma linguagem de script PER, adotada e padronizadas pelos gigantes da busca, esta linguagem contém as diretrizes básicas, que conjuntamente com as metatags do header da página e o conteúdo do site, fornecem o insumo para o ranqueamento do seu website e posicionamento nas respostas e recomendações do site.


Importante o arquivo de texto robots.txt tem que estar no diretório raiz do seu website, podendo ser editado em qualquer editor de texto no padrão ASCII.


O que é PER?


Após inúmeras guerras entre os administradores de servidores web e os engenheiros de software, sobre a performance e acesso não autorizado a sites web, foi criado um comitê, e convencionaram uma serie de diretrizes de acesso a site, conhecidos como PER ou Protocolo de Exclusão de Robôs.


Senta que la vem história, esse comitê criado para evitar que cada mecanismo de pesquisa defina regras específicas para seus crowlers, foi criado um termo de conduta qie faz os indexadores a obedecerem um padrão chamado REP – Robots Exclusion Protocol, que foi criado em 1994 e sua última modificação foi em 2005.


Esses comandos informam ao bot spider, o que é permitido ou não fazer, qual a periodicidade de atualizações e até fornecem um mapa do site, auxiliando a navegação e o caminho a ser seguido pelo bot.


A Google criou uma ferramenta de validação e teste em bots, veja no exemplo abaixo:


https://www.google.com/webmasters/tools/robots-testing-tool?siteUrl=https://andarilhovisitaportugal.blogspot.com/ e aproveita e faça uma visitinha no meu blog, momento jabá, https://andarilhovisitaportugal.blogspot.com/ 


Quais os comandos existem?


Este script trabalha com 4 tipos principais de comando,


Identificador do tipo de bot-spider, podendo ser genérico ou especifico.


  • User-agent: 


Permiçao de navegação nos diretórios a serem catalogados


  • Allow: 


Bloqueio a diretórios, pagins e arquivos que não devem ser catalogados


  • Disallow:


Esquema XML com o esqueleto do site e rota de navegação desejavel


  • Sitemap:


Como o script também sera lidos por humanos curiosos é boa pratica deixar comentários informando mais detalhes sobre o site, usando o símbolo sharp.


  • # Isto é exemplo de comentário


O que é SITEMAP?


Nos primórdios da web, era comum encontrarmos nos site uma pagina de mapa, que servia para ajudar e informar o visitante onde estava cada coisa e sua estrutura, foi caindo em desuso, mas ainda vemos por ai, num próximo artigo exploraremos este tema.


Como esta informação é muito útil, foi criado um arquivo XML contendo a estrutura e que serve para os bots conhecerem e melhor organizarem a navegação no website.


Veja exemplos de ROBOTS.TXT


https://www.uol.com.br/robots.txt


Um script bem simples, que recebe todos os bots e com apenas um diretório bloqueado ao acesso dos robozinhos.


#
# robots.txt
#
User-agent: *
Allow: /
Disallow: /carros/dev/


https://www.santander.com/robots.txt


O Banco Santander é bem mais elaborado, informando o site map em dois idiomas, com acesso a todos os bot e inúmeros diretórios bloqueados. 


User-Agent: *

Sitemap: https://www.santander.com/content/santander-corporate/san-global/es.sitemap.xml
Sitemap: https://www.santander.com/content/santander-corporate/san-global/en.sitemap.xml

Disallow: /content/dam/santander-com/es/documentos/notas-de-prensa/2019/12/
Disallow: /content/dam/santander-com/en/documentos/notas-de-prensa/2019/12/
Disallow: /content/dam/santander-com/es/documentos/notas-de-prensa/202*
Disallow: /content/dam/santander-com/en/documentos/notas-de-prensa/202*
Disallow: /content/dam/santander-com/es/documentos/actualidad/202*
Disallow: /content/dam/santander-com/en/documentos/actualidad/202*


https://twitter.com/robots.txt


Agora vamos conhecer o estado da arte na criação de robots.txt, visitei o Twitter e veja que lindo arquivo de script, comentarizado, simpático com cada motor de busca e indicando quais diretórios são livres ou não para indexação.


# Google Search Engine Robot
# ==========================
User-agent: Googlebot
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Allow: /i/api/
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Allow: /*?ref_src=
Allow: /*?src=
Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/deactivated
Disallow: /settings/deactivated

# Yahoo! Search Engine Robot
# ==========================
User-Agent: Slurp
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Allow: /i/api/
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/deactivated
Disallow: /settings/deactivated

# Yandex Search Engine Robot
# ==========================
User-agent: Yandex
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Allow: /i/api/
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/deactivated
Disallow: /settings/deactivated

# Microsoft Search Engine Robot
# =============================
User-Agent: msnbot
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/deactivated
Disallow: /settings/deactivated

# Bing Search Engine Robot
# ========================
User-Agent: bingbot
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/deactivated
Disallow: /settings/deactivated

# Every bot that might possibly read and respect this file
# ========================================================
User-agent: *
Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Allow: /i/api/
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/deactivated
Disallow: /settings/deactivated

Disallow: /oauth
Disallow: /1/oauth

Disallow: /i/streams
Disallow: /i/hello

# WHAT-4882 - Block indexing of links in notification emails. This applies to all bots.
# =====================================================================================
Disallow: /i/u
Noindex: /i/u

# Wait 1 second between successive requests. See ONBOARD-2698 for details.
Crawl-delay: 1

# Independent of user agent. Links in the sitemap are full URLs using https:// and need to match
# the protocol of the sitemap.
Sitemap: https://twitter.com/sitemap.xml


https://www.linkedin.com/robots.txt


Este script é enorme, por isso não anexei, mas para os curiosos convido a visitarem e conhecerem melhor o funcionamento do Linkedin.


Conclusão


Em nosso artigo de hoje conhecemos mais uma ferramenta necessária para o sucesso do seu site, pequeno e valioso arquivo robots.txt com seu script, que auxilia grandemente a indexação do seu site, ajudando com técnicas SEO, subindo sua página no ranqueamento e indexação da página, tornando-a mais relevante aos seus visitantes.


Caso tenha interesse reveja os artigos anteriores, que tratavam de melhorar a navegação e estrutura da sua pagina.


Faça um deploy da sua página no GITHub com domínio e servidor gratuito:  


https://web.digitalinnovation.one/topics/netflix-clone-como-fazer-um-deploy-do-seu-website


Navegue sem erros nos diretórios do seu projeto de Website, acesse links e arquivos internos sem erro:


https://web.digitalinnovation.one/topics/html-tricks-como-navegar-em-diretorios 


Espero ter ajudado ate o próximo artigo.


Mais momento jabá, para distrair, visite meu vídeo e veja para onde fui desta vez: https://www.youtube.com/watch?v=BvqTJ9T3eW8 


Bom curso a todos.


 https://www.linkedin.com/in/vagnerbellacosa/


 https://github.com/VagnerBellacosa/


Pode me dar uma ajudinha no YouTube?


 https://www.youtube.com/user/vagnerbellacosa

0
7

Comentários (0)

Analista Programador dinossauro IBM Mainframe

Brasil