15 ago 2009
Controlar qual o conteúdo que deve ser bloqueado pelos motores de busca é um processo crucial para muitos websites e blogs. Felizmente, a grande maioria dos motores de busca e muitos robots observam aquilo a que se chama o Robots Exclusion Protocol (REP), que foi criado e envolvido organicamente nos anos 90 para providenciar uma série de controlos sobre partes e conteúdos de websites e blogs que os próprios robots dos motores de busca podem “scannar” e indexar, e vice-versa.
1. CAPACIDADE DO REP
O protocólo de exclusão de Robots (REP) providencia controlos que podem ser aplicados ao nível do seu blog (robots.txt), ao nível da página (META tag, ou X-Robots-Tag), ou ao nível dos elementos HTML para controlar tanto a intensidade de “scan” do seu blog bem como a forma como o seu blog é listado nas páginas de resultados dos motores de busca (SERPs). 2. DECIDIR O QUE DEVE SER PRIVADO vs. PÚBLICO
Um dos primeiros passos em gerir os robots é decidir e perceber qual o conteúdo que deve ser Priva vs. Público. Comece por determinar que por defeito, todo o conteúdo é público, e posteriormente considere percepcionar quais os conteúdos que gostaria ou deveriam ser privados.
Se pretende que os motores de busca acessem a todo o conteúdo seu blog, você não irá necessitar de um ficheiro robots.txt de todo. Quando um motor de busca tenta aceder a um ficheiro robots.txt no seu blog e o servidor não tem nenhum disponível (geralmente retornando um código 404 HTTP), o motor de busca passa a ter noção de que todo o conteúdo do seu blog deve ser “scannado” e encontrado.
Todos os websites e blogs têm diferentes necessidades, pelo que não existe uma regra para definir o que colocar privado, mas existem alguns elementos comuns que podem ser postos em causa.
3. IMPLEMENTANDO O REP
O REP é flexível e pode ser implementado de variadas formas. Esta flexibilidade permite-lhe facilmente especificar algumas políticas para todo o seu website/blog (ou subdomínio) e posteriormente utilizá-las de uma forma mais granular em cada página ou ao nível de links sempre que necessário.
4. IMPLEMENTAÇÃO AO NÍVEL DE SITE/BLOG (ROBOTS.TXT)
As directivas panorâmicas para sites/blogs estão alojadas no ficheiro robots.txt, que deverá estar sempre localizado na raíz do seu servidor/diretorio para cada um dos seus domínios e sub-domínios. Note que os ficheiros robots.txt apenas se aplicam ao hostname onde são colocados, e não são aplicáveis por defeito aos subdomínos. Portanto, um ficheiro robots.txt localizado na raíz do seu blog, não se irá aplicar a um outro subdomínio que você utilize no mesmo blog, ainda que utilize o mesmo endereço URL. No entanto, o ficheiro robots.txt aplica-se a todas as pastas e subpastas e páginas dentro do mesmo hostname.
Um ficheiro robots.txt é um ficheiro codificado em formato UTF-8 que contem entradas que consistem em linhas de “user-agent” (que diz ao robot do motor de busca se a entrada é direccionada a ele) e uma ou mais directivas que especificam conteúdo para o robot dos motores de busca para efectuar o crawling e a indexação regularmente. Um simples ficheiro robots.txt é mostrado a seguir.
User-agent: * Disallow: /private
O User-Agent especifica a qual robot a entrada se aplica.
* para especificar que a entrada se aplica a todos os robots dos motores de busca.A maior dos motores de busca tem múltiplos robots que efectuam o crawl da web para diferentes tipos de conteúdos (imagens, mobile, etc). Geralmente o início do nome dos robots é idêntico em todos, pelo que se você bloquear o “major robot”, todos os robots desse motor de busca serão bloqueados. No entanto, se você pretender bloquear apenas e especificamente um dado robot, poderá bloqueá-lo directamente e ainda assim permitir o acesso dos outros ao seu conteúdo.
Disallow: - Especifica qual o conteúdo a bloquear
/)./. Por momentos, Disallow: /images bloqueia o acesso à pasta /images/, /images/image1.jpg, e também à /images10.Poderá especificar outras regras pra os robots dos motores de busca em adição às instruções por defeito que bloqueiam o acesso a conteúdo.
Algumas coisas a notar na implementação dos robots.txt:
Disallow: /images irá bloquear o acesso ao diretorio http://www.examplo.com/images mas não ao diretorio http://www.examplo.com/Images.5. EXEMPLOS BÁSICOS
Block all robots – Ideal quando o seu website/blog ainda está em fase de pré-lançamento e não está pronto para receber tráfego orgânico.
# This keeps out all well-behaved robots. # Disallow: * is not valid. User-agent: * Disallow: /
Keep out all bots by default – Bloqueia todas as páginas excepto aqueles que são especificadas. Não é recomendado pela sua dificuldade de gestão e diagnóstico.
# Stay out unless otherwise stated User-agent: * Disallow: / Allow: /Public/ Allow: /articles/ Allow: /images/
Block specific content – O método mais comum de utilização do robots.txt.
# Block access to the images folder User-agent: * Disallow: /images/
Allow specific content – Bloquear uma pasta, mas permitir o acesso a páginas dentro dessa pasta.
# Block everything in the images folder # Except allow images/image1.jpg User-agent: * Disallow: /images/ Allow: /images/image1.jpg
Allow specific robot – Bloqueie uma classe de robots (por instante, Googlebot), mas permita uma robot específico nessa classe (por instantes, Googlebot-Mobile).
# Block Googlebot access # Allow Googlebot-Mobile access User-agent: Googlebot Disallow: / User-agent: Googlebot-Mobile Allow: /
6. EXEMPLOS DE CORRESPONDÊNCIA DE PADRÕES
A maioria dos motores de busca suporta dois tipos de pattern matching.
Block access to URLs that contain a set of characters – Utilize o asterisco (*) para especificar um cartão de acesso.
# Block access to all URLs that include an ampersand User-agent: * Disallow: /*&
Esta directiva irá impedir os motores de busca de efectuarem o crawling em http://www.examplo.com/page1.asp?id=5&sessionid=xyz.
Block access to URLs that end with a set of characters – Utilize o sinal de dólar ($) para especificar o final da linha.
# Block access to all URLs that end in .cgi User-agent: * Disallow: /*.cgi$
Esta directiva irá impedir os motores de busca de efectuarem o crawling http://www.examplo.com/script1.cgi mas não de efectuar o crawling em http://www.examplo.com/script1.cgi?value=1.
Selectively allow access to a URL that matches a blocked pattern – Utilize a directiva Allow em conjunção com o pattern matching para implementações mais complexas.
# Block access to URLs that contain ? # Allow access to URLs that end in ? User-agent: * Disallow: /*? Allow: /*?$
Esta directiva irá bloquear todos os endereços URL que contenham ? excepto aqueles que terminam em ?. Neste exemplo, a versão por defeito da página será indexável:
http://www.examplo.com/productlisting.aspx?As variações da página serão bloqueadas:
http://www.examplo.com/productlisting.aspx?nav=pricehttp://www.examplo.com/productlisting.aspx?sort=alpha7. OUTRAS INSTRUÇÕES PARA ROBOTS
Especifique um Sitemap ou ficheiro de Sitemap index – se gostar de providenciar aos motores de busca uma lista compreensiva dos seus melhores endereços URLs, poderá providenciar um ou mais directivas de auto-descobrimento ao seu Sitemap. De notar, que o “user-agent” não é aplicável a esta diretoria pelo que não poderá utilizá-lo para especificar um Sitemap para apenas um motor de busca e não para todos.
# Please take my sitemap and index everything! Sitemap: http://janeandrobot.com/sitemap.axd
Reduce the crawling load – Este só trabalha com a Microsoft e Yahoo. Para a Google terá de especificar uma velocidade de crawling inferior através da consola Webmaster Tools. Tenha cuidado quando implementar isto se por ventura colocar o crawling demasiado lento, os robots não conseguiram “scannar” todo o seu conteúdo a tempo e poderá perder páginas para o index.
# MSNBot, please wait 5 seconds in between visits User-agent: msnbot Crawl-delay: 5 # Yahoo's Slurp, please wait 12 seconds in between visits User-agent: slurp Crawl-delay: 12
8. IMPLEMENTAÇÕES AO NÍVEL DA PÁGINA (META TAGS)
As directivas ao nível de página do REP permitem-lhe redefinir as políticas do seu blog numa básica de página-por-página.
Placing a meta tag on the page – Coloque a meta tag na head tag. Cada directiva deve ser delimitada com uma vírgula dentro da tag. E.x. <meta name=”ROBOTS” content=”Directiva1, Directiva2>.
<html> <head> <title>Your title here</title> <meta name="ROBOTS" content="NOINDEX"> </head> <body>Your page here</body> </html>
Targeting a specific search engine – Entre a meta tag você poderá especificar qual o motor de busca que gostaria que fosse o seu alvo, ou então atirar em todos os alvos em simultâneo.
<!-- Applies to All Robots --> <meta name="ROBOTS" content="NOINDEX"> <!-- ONLY GoogleBot --> <meta name="Googlebot" content="NOINDEX"> <!-- ONLY Slurp (Yahoo) --> <meta name="Slurp" content="NOINDEX"> <!-- ONLY MSNBot (Microsoft) --> <meta name="MSNBot" content="NOINDEX">
Control how your listings – Existem uma série de opções que podem ser configuradas para determinar como o seu blog aparece nos SERP. Você pode exercer controlo sobre a descrição e também removero link de “Cached page”.
<!-- Do not show a description for this page --> <meta name="ROBOTS" content="NOSNIPPET"> <!-- Do not use http://dmoz.org to create a description --> <meta name="ROBOTS" content="NOODP"> <!-- Do not present a cached version of the document in a search result --> <meta name="ROBOTS" content="NOARCHIVE">
Using other directives – Outras directivas para robots encontram-se de seguida.
<!-- Do not trust links on this page, could be user generated content (UCG) --> <meta name="ROBOTS" content="NOFOLLOW"> <!-- Do not index this page --> <meta name="ROBOTS" content="NOINDEX"> <!-- Do not index any images on this page (will still index the if they are linked elsewhere) Better to use Robots.txt if you really want them safe. This is a Google Only tag. --> <meta name="GOOGLEBOT" content="NOIMAGEINDEX"> <!-- Do not translate this page into other languages--> <meta name="ROBOTS" content="NOTRANSLATE"> <!-- NOT RECOMMENDED, there really isn't much point in using these --> <meta name="ROBOTS" content="FOLLOW"> <meta name="ROBOTS" content="UNAVAILABLE_AFTER">
9. IMPLEMENTAÇÃO NO HEADER HTTP (X-ROBOTS-TAG)
Esta tag permite a programadores e desenvolvedores especificar directiva ao nível de página com o REP para conteúdo que não seja texto/html do tipo PDF, DOC, PPT, ou dinamicamente gerando imagens.
Using the X-Robots-Tag – Para usar a tag X-Robots-Tag, simplesmente adicione-a ao header do seu blog como especificado em baixo. Para especificar múltiplas directivas poderá limitá-las com vírgula, ou adicioná-las como items separados no header.
HTTP/1.x 200 OK Cache-Control: private Content-Length: 2199552 Content-Type: application/octet-stream Server: Microsoft-IIS/7.0 content-disposition: inline; filename=01 - The truth about SEO.ppt X-Robots-Tag: noindex, nosnippet X-Powered-By: ASP.NET Date: Sun, 01 Jun 2008 19:25:47 GMT
A directiva da X-Robots-Tag suporta praticamente as mesmas directivas da meta tag. A única limitação com este método sobre a implementação da meta tag é que não existe forma de atingir um robot específico – pensando nisso, provavelmente não será uma grande oportunidade na maioria dos casos.
10. IMPLEMENTAÇÃO AO NÍVEL DO CONTEÚDO
Poderá ainda afinar as directivas ao nível de página e site/blog com variadas “content tags”, ou seja, tags de conteúdo.
A tag de texto âncora (link) poderá ser modificada para dizer aos motores de busca que você não confia no endereço de destino desse URL. Esta utilização é feita quando não se pretende passar pagerank ou peso em links, e também em sites de conteúdo gerado pelos utilizadores, como por exemplo wikis, comentários de blogs, reviews, entre outros exemplos.
<a href="#" rel="NOFOLLOW">Hyperlink</a>
Ainda, no Yahoo Search poderá especificar qual os elementos da <div> numa página que não gostaria de ver indexados utilizando o atributo class=robots-nocontent. No entanto, não recomendamos a utilização desta tag por não ser suportada por outros motores de pesquisa, tornado-a dispensável.
<div>
Sem conteúdo para si! (ou pelo menos para o Yahoo!)
</div>
CONCLUSÃO
Trabalhar com robots.txt e outras formas de indexação e bloqueio de informação pode parecer complexo, mas na verdade é muito simples e segue uma lógica padrão. Se por ventura tiver dúvidas na utilização de algum dos exemplos apresentados, dispare um comentário! Aproveite também para deixar a sua opinião sobre o artigo!
Até Já!
2 comentários para "Semana do SEO – Gerindo o acesso dos Robots ao seu blog"
I read this forum since 2 weeks and now i have decided to register to share with you my ideas.
Welcome to our blog, your ideas are always welcome!
Escreva um comentário