Robots.txt-Exclusão de URL-Erro 404-Meta Robots-Link Canonical – Inter-relações

Ruy Miranda

As inter-relações entre Robots.txt, exclusão de URL na área de webmaster, erro 404, erro 404 soft, meta robots, links canonical (ou link canonizado ou ainda, link canônico) não são bem conhecidas por muitos webmasters e, por isso, podem gerar dificuldades para alguns sites. Contrariamente, quando usados de forma adequada, ajudam muitíssimo na otimização de sites. Vou expor meu conhecimento e experiência sobre tais assuntos no intuito de ajudá-lo a evitar tais problemas. Devido a grande extensão do assunto e a evolução dos temas, esta página deverá receber atualizações periódicas.

Robots.txt vs Exclusão de URL na Área de Webmasters

A exclusão de um site inteiro, a exclusão total ou parcial de uma ou mais pastas (também chamados diretórios), exclusão de subpastas, exclusão de arquivos, via robots.txt articulado ou não com exclusão de URL na área de webmaster é relativamente simples.

-- Se deseja excluir o site inteiro de TODOS os mecanismos de busca, basta colocar no Robots.txt:
User-agent: *
Disallow: /
Com o tempo o site será excluído do Google, Yahoo, Bing, etc.

-- Se deseja excluir o site inteiro de APENAS um mecanismo de busca, digamos, do Google, basta colocar no robots.txt:
User-agent: Googlebot
Disallow: /

-- Se deseja excluir uma pasta INTEIRA (também chamada de diretório) basta colocar o nome dela:
User-agent: *
Disallow: /(nome da pasta)/
-- Se deseja excluir um arquivo, digamos do Google, proceda da seguinte forma:
User-agent: Googlebot
Disallow: /nome do arquivo e sua terminação. Exemplo: /sapatos-couro.html

-- Se desejar excluir do Google um arquivo que se acha dentro de uma pasta, proceda da seguinte forma:
User-agent: Googlebot
Disallow: /(nome da pasta)/(nome do arquivo e sua terminação). Exemplo: Disallow: /sapatos/sapatos-couro.htm)

-- Se desejar excluir do Google um arquivo que se acha dentro de uma subpasta, proceda da seguinte forma:
User-agent: Googlebot
Disallow: /(nome da pasta)/(nome da subpasta)/(nome do arquivo e sua terminação) . Exemplo: /sapatos/masculinos/ sapatos- couro.html.

A exclusão no Google é mais rápida se você, depois da instrução acima no robots.txt, vai à área de webmasters e clica: Em seguida vai em
Otimização >> Remover URLs >> Criar uma nova solicitação de remoção.
Em seguida adicionar no box os nomes da pasta, subpasta, nome do arquivo e clicar em Continuar. Em caso de erro o processo pode ser revertido em qualquer fase. A remoção ou exclusão do index do Google em geral ocorre em 24 horas. Existem variações nesse processo que estão descritas no arquivo robots.txt acima citado.

. Vantagens de se inter-relacionar Robots.txt e ferramenta de remoção na área de webmasters:
-- A remoção é rápida.
-- Tem-se controle do processo porque se pode ver os resultados das ações.

Desvantagens do processo:
-- A remoção dura 90 dias, ao fim dos quais o Google exclui definitivamente o que foi pedido ou VOLTA (até mesmo antes de 90 dias) com o que foi removido. A volta ocorre quando persiste link para aquele endereço, ainda que em site(s) de terceiro(s). É comum não ter como remover um link externo - assim o webmaster se vê na obrigação de checar permanentemente a listagem de remoções efetuadas e, eventualmente, renovar o pedido de remoção.
-- O problema se torna muito complicado quando a operação requer a inclusão de um número muito grande de endereços no robots.txt. A listagem muito grande reduz o número de páginas programadas para serem checadas pelo robot posto que ele tem de executar suas atividades num dado site em tempo determinado.

Erro comum no processo: colocar o bloqueio no robots.txt e não executar a operação de exclusão na área de webmasters. Neste caso o robot fica simplesmente impossibilitado de entrar no diretório, subdiretório, sub-sub-diretório, etc., página. Isso gera uma situação em que nada acontece, fica tudo como antes.

Remoção de pasta(s), subpasta(s), arquivo(s) ou mesmo do site inteiro pela remoção no servidor

Esta é outra forma de efetuar remoções sem se recorrer à área de webmasters, e até mesmo ao robots.txt. Entra-se no servidor e se deleta simplesmente o site inteiro ou uma ou mais pastas ou uma ou mais subpastas ou um ou mais arquivos. Neste caso as buscas aos endereços referidos darão página não encontrada ou erro 404..

Vantagens do processo:
-- É rápido
-- Não requer ficar checando remoção na área de webmasters
-- Não interfere no tempo programado para o robot visitar o site.
-- A exclusão poderá ser temporária – erro 404 soft no link acima.
Observação: O Google acusará na área de webmasters que não encontrou os arquivos, pastas, subpastas excluídos, ou mesmo o site inteiro. A repetição desta resposta durante um tempo (desconhecido) resultará na exclusão definitiva da URL removida ou de parte do site ou do site inteiro.

Desvantagens do processo:
-- Depois de um número (desconhecido) de visitas frustradas do robot ao site, o posicionamento sofre alterações, posto que certas variáveis do algoritmo foram mudadas. Esse rearranjo no posicionamento das páginas dura um tempo durante o qual a regra é rebaixamento nas posições nas buscas.
-- Falta de controle sobre o processo – Nada se pode fazer a não ser esperar.
--A exclusão de links gera complicações e contribui para retardar o processo no Google, já que este é muito sensível a mudanças nos links.

Observações:
-- Não tem problema técnico algum aparecerem páginas não encontradas na área de webmasters, desde que não hajam links internos e/ou externos apontando para lá. Deve-se evitar colocar “nofollow” nessa meta robot porque o Google é muito sensível a links. Ou seja, a eliminação de uma página implica na eliminação do seu conteúdo e de seus links (no mínimo do link da própria página). Eliminação de link(s) implica, para o Google, numa série de cálculos relacionados ao pagerank, o que, em muitos casos, implica em análises complexas e que retardam o processo.
-- O Google recomenda que em tais situações, ao invés de se deleta no servidor, a página deve ser substituída por uma página de erro 404.

Meta robots vs robots.txt e área de webmasters

É possível excluir arquivos com o uso de meta robots sem o concurso de robots.txt e área de webmasters. Basta colocar noindex na meta robots própria. Exemplo: meta name=”robots” contents=”noindex”

Vantagens:
-- O processo é gradual e não causa mudanças violentas nos posicionamentos posto que os arquivos serão removidos à medida que o Google encontra páginas com a instrução noindex (ou seja, não indexar ou excluir do index).
-- Tem-se um razoável controle do processo por meio do acesso à lista de páginas indexadas no site (site:nomedodomínio na área de busca). O Google não retira de uma vez uma dada URL (já indexada); antes dá “avisos” posto que pode ter ocorrido engano na instrução pela meta robots. Os “avisos” são, pela ordem:
-- condução da URL ser excluída para o final da listagem
-- retirada da descrição da página respectiva nessa listagem,
-- retirada definitiva da URL.

Pode-se pedir a exclusão de um grande número de arquivos ao mesmo tempo.

Desvantagens do processo:
-- O controle é reduzido, ou seja, é apenas razoável. As coisas caminham no tempo do Google e só podemos saber o que está ocorrendo por vias indiretas, na listagem de URLs do site como explicado acima.
. -- Não é possível excluir, pelos metas robots, pastas e subpastas, apenas arquivos. Isso é uma desvantagem em relação ao uso de robots.txt combinado com exclusão na área de webmasters ou com o uso (teórico) de link canônico.
. Observação: Deve-se evitar a inclusão de “nofollow” nos meta robots. Como já disse, o Google é muito sensível a links e a permanência dos mesmos, ainda que as páginas não existam, pode parecer um paradoxo. Na minha experiência é preferível conviver com esse paradoxo do que dar ordem pelo meta robots de não seguir os links (nofollow). Eu deixo a cargo do Google “se virar” com os links, ou seja, sigo as orientações que aparecem posteriormente na área de webmasters.

Link Canônico (Canonical Link) vs Robots.txt, Exclusão de URL e Redirecionamento

Em muitas situações o link canonizado resolve problemas, principalmente de duplicações, em substituição à remoção por meio de robots.txt ou por meio de redirecionamentos. Mesmo porque em muitas situações o conteúdo de duas ou mais URLs são “quase” todos idênticos, mas é necessário manter duas ou mais URLs para ações do visitante. Entretanto, tenho sérias desconfianças no uso desse link..

O uso correto e bem articulado de robots.txt, exclusão pela área de webmasters, redirecionamento, link canônico, exclusão de pastas, subpastas e arquivos no servidor, uso de erro 404, evitam falhas e problemas comprometedores na otimização de sites.

Outubro/2012