Duplicidade do Conteúdo e sua Influência no Posicionamento

Hoje em dia a originalidade do conteúdo está assumindo uma importância cada vez maior, especialmente para o Google. O motivo é que, com o crescimento impressionante da Internet, a quantidade de dados que ficam armazenados nos seus bancos de dados requer atenção especial para reduzir trabalho e custo, e melhorar o nível de suas respostas nas buscas. Com isto a duplicidade de conteúdos assume uma importância muito grande no posicionamento do site ou de uma determinada página.

Quando um site duplica um conteúdo, ou seja, faz uma cópia de outro site ou de uma ou mais páginas, ou simplesmente disfarça com substituição de sinônimos em alguns lugares, ou ainda dá uma redação diferente, mas mantém o ritmo do conteúdo, está duplicando. No primeiro caso é cópia literal, no segundo, cópia disfarçada, e no terceiro é plágio. Embora o assunto tenha implicações de direito autoral, vou examinar aqui apenas a questão relacionada com otimização, inclusive provar como influi no PageRank.

Google – Yahoo – MSN – O Google tem tirado pontos e posições desses sites, aplicando o que se convencionou chamar de Punição Menos 30 à palavra/frase-chave principal. Outras vezes tira número menor de posições e há sinais de que tira também no PageRank da página duplicada (ver mais abaixo). Uma vez que a gana do Google para indexar conteúdo é fora do comum, ele indexa tudo que existe no site – pode até demorar um pouco, especialmente quando o site é muito grande e/ou quando certos arquivos ficam situados muito profundamente, mas indexará mais cedo ou mais tarde. Se existe um link, ele vai atrás e indexa o que encontra no destino. Então os seus centros de processamento de dados ficam cheios de conteúdos e grande parte é de coisas duplicadas ou repetidas. Portanto, duplicações são um sério problema para esse mecanismo de busca. Ademais, é desagradável a experiência do usuário ao se deparar, numa busca, com informações que são claramente repetições de outras, e isto contribui para seu afastamento e ida para outro mecanismo de busca. A solução que o Google encontrou para isto foi tirar pontos do site ou página (punir) – por exemplo, joga-o para posições posteriores à terceira página, aonde quase ninguém vai, e o número de visitantes ao site cai. Nos casos mais leves o site vai para a terceira ou segunda página de resultados.

Com o Yahoo esse problema ocorre em proporção muito menor porque ele não tem a gana do Google para indexar – na maioria dos sites indexados no Yahoo nós encontramos apenas uma parte das páginas. Sua estratégia é indexar o que atende seus critérios de importância das páginas. Com isto a chance de duplicação é menor e menor é também o trabalho nos seus bancos de dados. Some-se a isto uma possível incapacidade, ou capacidade limitada, de efetuar comparações de conteúdos e reconhecer duplicações. Com o MSN acontece a mesma coisa, mas ele indexa número ainda menor de páginas.

Ninguém sabe exatamente quantas posições os mecanismos de busca retiram de um site ou página quando há duplicidade. Entretanto as observações indicam que há uma gradação de perdas conforme o grau de duplicação.

Conceito de duplicidade – Quando o Google começou a fazer faxina nas duplicações, o conceito de duplicidade era a cópia literal de um site inteiro ou de página(s), e a punição recaía sobre o site que aparecesse posteriormente no seu index. Uma vez que a cópia podia ser feita por mais de um site, todos os que aparecessem depois do primeiro, eram passíveis de punição. Este tipo de duplicidade é muito comum nos sites de afiliados ou parceiros, e em lojas virtuais.

-- Disfarces – Uma vez que certas cópias passaram por disfarces (exemplo: substituição de palavras por sinônimos, início de frases com palavras diferentes, etc), os programas do Google tiveram de melhorar para identificar tais disfarces, e o conceito de duplicidade foi ampliado. Para uma página ser considerada dupla, não precisa ser cópia literal – a repetição de certas palavras numa frase é suficiente para essa caracterização.

-- Disfarces complexos – Mas foi preciso avançar mais: uma vez que tais disfarces podem ocorrer por meio de alterações em todas as frases, os programas foram ajustados para identificar o que eu chamo aqui de ritmo do conteúdo. O conteúdo é apresentado numa seqüência idêntica à do primeiro site, embora com palavras diferentes.

-- Duplicidade em domínios diferentes – Formas mais simples de duplicidade de conteúdo e ainda relativamente comuns no Brasil, são as repetições de conteúdo em domínios diferentes. Certa feita um dono de site queria que eu otimizasse oito sites com conteúdos idênticos porque ele queria "dominar a praça", no caso uma cidade de médio porte, no seu segmento comercial. Na sua mente ele poderia colocar os oito na primeira página, nas posições de 1 a 8. De nada adiantaram meus argumentos de que ele estava equivocado e que ele iria sair perdendo, pois todos seriam punidos. Naturalmente, recusei o trabalho.

Ainda encontramos com relativa freqüência domínios diferentes, do mesmo dono, com disfarces nas páginas. E como o Google está ampliando suas fontes de identificação, como o nome que consta no registro do domínio como proprietário, e o endereço das hospedagens, o que ajuda os seus programas se "convencerem" da duplicidade, muita gente passou a fazer registros em nomes diferentes e hospedar em servidores diferentes – mas o Google está vigilante e, quando se convence da duplicidade, e ainda mais, que ela foi feita de má-fé, pune com severidade. Em tais casos exclui todos os sites do seu index e, dependendo de certas particularidades, bane todos definitivamente.

Quem é o primeiro? – Os programas do Google passaram a ter um problema: identificar quem foi o primeiro a colocar um dado conteúdo na Internet. E isto é compreensível. Uma página que pode estar sendo acessada por muita gente (e sendo objeto de cópias) pode ainda não estar no seu index. Quando ela for indexada será considerada cópia. Outra possibilidade é a ocorrência de dados contraditórios – o site original aparece com dados contraditórios, fruto de uma ou mais atualizaçoes; algumas atualizações podem aparecer em datas posteriores a alguma cópia. Outra questão diz respeito a uma literal impossibilidade dos seus programas determinarem, no tempo, quem foi o primeiro. Em conseqüência, o site ou página original pode ser punido também. Isto está exigindo um trabalho adicional na manutenção de sites e aumentando custos.

Perda no PageRank do primeiro – Esta impossiblidade dos programas dos mecanismos de busca determinarem quem foi o primeiro pode levar à punição deste por meio de perda no PageRank. Você pode observar isto aqui neste site. Vou citar duas páginas entre as muitas que são copiadas ou plagiadas. A primeira, Otimização de Sites - Visão Geral, e a segunda, Posicionamento nos Mecanismos de Busca - Visão Geral. As duas já tiveram PageRank 3 e hoje (dezembro de 2008) têm PageRank zero. Ambas têm 11 backlinks no Google. Por outro lado, outra página deste mesmo site, intitulada Ferramenta para Checar Posicionamento no Google por Palavra-chave tem PageRank 3 e zero backlinks. A conclusão óbvia é que as duas primeiras estão sendo punidas por meio dos seus PageRanks – ambas têm inúmeras reproduções literais, parciais e plágios. Esta é uma situação em que o verdadeiro autor é penalizado – no caso, por uma deficiência do Google.

Se há perda de PageRank no primeiro, há também nos demais, que duplicaram. Parece que a norma é assim: na dúvida, todos perdem. Quem duplica pode, no máximo, impressionar um pouco os visitantes neófitos em Internet, mas, em compensação, fica desmoralizado quando visitantes mais informados percebem o jogo. Ao se desmoralizarem por causa de uma bobagem destas, desmoralizam o site inteiro e até seu próprio negócio.

Como identificar a duplicidade? – Existem algumas maneiras de verificar a duplicidade.

-- Busca manual – Digamos que você suspeita que uma página do seu site esteja sendo copiada – copie uma frase dessa página (ou parte de uma frase) e cole na área de busca do Google e dê enter. Vão aparecer a sua página e outras que apresentem repetição literal ou parcial, e pode, ainda, aparecerem outras que claramente nada têm a ver com sua página e sequer com seu tema. Repita a operação com outras frases.

-- Busca com auxílio de programas – Existem programas de uso gratuito e pagos na Internet que permitem encontrar URLs que são cópias. Eles não são capazes de dizer quem é o autor original. Você pode usar o endereço de uma página que é cópia da sua na busca e ele vai mostrar a sua página na lista de cópias. Você pode também fazer comparações entre duas URLs e ver o grau de similaridade entre elas, expresso em porcentagem.

É possível que o programa usado pelo Google seja mais sofisticado do que a comparação percentual de palavras semelhantes. Ele deve abranger palavras ou significados correlatos e sua seqüência (que estou chamando aqui de ritmo do conteúdo) para abranger conteúdos em que o disfarce é mais complexo. É muito difícil imaginar um programa com esta capacidade e pode ser que eu esteja falando aqui de um mito.

-- Duplicidade somente no banco de dados do Google – Pode ocorrer da duplicidade ser detectada apenas no banco de dados do Google e não em servidores. Isto ocorre quando o conteúdo de uma página repete o de outra já apagada no servidor. Os métodos convencionais de identificar a similaridade não encontram nada, mas lá no banco de dados do Google ela será identificada. Esta é uma situação extremamente complicada e, por vezes, impossível de ser resolvida. Talvez só com o passar do tempo (meses ou anos) o conteúdo que foi deletado será extinto do banco de dados por iniciativa de seus próprios programas.

Quando o dono do site paga o pato – Infelizmente existem webmasters ou empresas que, ao construírem um site, inserem cópias de páginas inteiras ou de partes. O site que fez a cópia pode apresentar posicionamento bom no começo, mas depois cai. O dono não sabe os motivos e, muitas vezes, quem construiu o site também não sabe ou sequer tem conhecimento de que cópias geram os problemas assinalados. É o que chamo de duplicidade de boa-fé.

Eu já me deparei com situações inusitadas de duplicações. Numa delas, durante o trabalho, o site saiu do ar. Quando voltou, três dias depois, estava desconfigurado. Em seguida sofreu uma punição menos 30. Identifiquei então três duplicações. Uma no próprio servidor - o site foi duplicado por inteiro (possivelmente durante o problema com o servidor, uma revenda) – ele era exibido no endereço normal, e em outro, assim: http://dominiodocliente.dominiodahospedagem.com.br. Ou seja, ele foi duplicado em um subdomínio da hospedagem. As outras duas duplicações eram repetições literais de textos da Wikipedia. Ninguém cometeu essas infrações consciente de que estava fazendo algo indevido; nem mesmo o administrador da hospedagem sabia da existência do problema.

Duplicidade de conteúdo no próprio site – Uma situação mais complexa é a duplicação de conteúdo dentro do próprio site. Ela pode ocorrer em um contexto de total desconhecimento por parte do construtor do site e do seu dono.

Vejamos uma loja virtual comum. Ela tem uma série de partes que compõem o conteúdo das páginas. Essas partes se repetem em todas as páginas, como sói acontecer com a maioria das páginas de qualquer site na Internet. Tem o topo com algumas informações, um menu (em geral do lado esquerdo), um rodapé e, no centro, as mercadorias. O que vai diferenciar uma página da outra são as mercadorias. Mas quando você olha para as mercadorias, vê imagens e descrições sucintas, do tipo: Produto Tal, Preço Tal, Tantas Vezes no Cartão. As tags alt das imagens, também sucintas, repetem informações, do tipo: alt=” Produto Tal”, e na maioria das vezes nem têm informações nessas tags. Se você espreme, vê que há muito pouco conteúdo nesse centro da página. Quando você olha para outra página que informa o mesmo produto, vê que as diferenças em relação à anterior são mínimas. Então você vai ter um grau de semelhança muito grande entre elas, o que configura duplicação.

A mesma análise das lojas virtuais se aplica a muitos sites, como imobiliárias, corretoras de planos de saúde, turismo, representantes comerciais e assim por diante.

Duplicação dentro da mesma página é outra situação extremamente complexa. Às vezes, numa loja virtual ou na prestação de serviços, para fins didáticos, é necessário repetir trechos. Por mais paradoxal que pareça, esta situação tem todos os elementos para ser interpretada pelos programas do Google como spam. Embora toda duplicação num mesmo site seja uma forma de spam, esta parece merecer perdas mais significativas.

Duplicação da página inicial – Esta é uma situação deveras difícil de ser compreendida. Em princípio a página inicial é colocada num arquivo index.htm, index.html, index.php, index.asp, e assim por diante. Houve uma época em que o Google insistia que as URLs com essas terminações eram tecnicamente diferentes das URLs da página inicial que terminava com uma / (barra). Depois de um certo tempo e diante de tantas resistências, o Google deixou isso de lado. Entretanto, volta e meia ele coloca as duas como duplicações, inclusive listando as duas como sendo diferentes. Como sabemso que os programas dos bancos de dados do Google determinam perdas de posições quando há duplicidade, estejam certos ou errados na avaliação, o melhor é sempre redirigir as terminações index, default para / (barra). Se as duas URLs são listadas pelo Google, então o redirecionamento é indispensável.

Os mecanismos de busca não relatam que dão um tratamento diferenciado, de perdas mais leves, à duplicidade dentro do site, mas o bom senso indica que devem fazê-lo. Mas é quase impossível impedir que haja alguma perda, pois os programas lidam com números, exclusivamente números. E não é por acaso que as lojas virtuais quase sempre apresentam fraco desempenho no posicionamento. Ademais, para reduzir a repetição de dados nos bancos de dados, o Google está excluindo as páginas repetidas. E, por mais absurdo que pareça, a página original, aquela que apareceu primeiro, aquela que tem o texto original, pode ser excluída do seu index.

Pseudo-duplicidade da página inicial – Um outro tipo de duplicidade é a repetição da página inicial com a terminação simples de uma / (barra) ou com terminações definidas no site, como default.asp, index.htm, index.html, index.php, etc. Isto ocorre quando você coloca a página index (asp, html, php, etc) no mapa do site e depois, na área de webmasters do Google define a página inicial como termjnando com a / (barra). Os programas deste mecanismo de busca consideram que há duas URLs aí. Parece que o fenômeno ocorre em certos servidores, mesmo que você não faça um mapa do site e não faça submissão alguma. Aparentemente, quando os robots chegam pela primeira vez e pedem a página inicial, eles entregam as duas URLs.

Trata-se de uma pseudo-duplicidade, posto que hoje em dia já não se considera mais que as duas URLs sejam tecnicamente diferentes. Por isto, o Yahoo e o MSN não dão bola para o fato, mas o Google coloca avisos na área de webmasters que está havendo duplicidade de títulos e de meta descrição nas duas URLs. Deduz-se que ele dá alguma importância ao fato e só pode fazer alguma coisa contra o site, tirando-lhe pontos que definem o posicionamento. Por este motivo o impasse deve ser resolvido. .

Duplicidade e otimização – A duplicidade é também um problema sério na otimização dos sites. Um site encaminhado à otimização devido a um fraco posicionamento, pode estar com duplicações que o dono desconhece e que até o webmaster anterior não identificou. Se você é o otimizador de um site que está sendo punido e esse site tem muitas páginas, não vai ficar checando frase por frase para ver se ela está repetida em algum lugar. Somente quando todos os outros recursos para identificar os motivos da punição se esgotam é que você vai recorrer a este procedimento. Até chegar a esse ponto, já gastou tempo e energia.

O que fazer – Há muitas maneiras de se lidar com a duplicidade. Se o seu site tem cópias de páginas de outros, a que me parece mais eficaz é pedir a exclusão via meta robots da URL na qual se acha a página repetida e se dar um tempo para que os programas dos mecanismos de busca refaçam todos os cálculos envolvendo o algoritmo no site e o coloquem nas posições devidas. Observe que estou falando em exclusão do banco de dados do Google ou de qualquer outro mecanismo de busca e não do servidor – o site continua rodando normalmente. O processo todo pode levar meses num site em que foram retirados muitos conteúdos. O processo pode ser mais rápido quando seguimos as etapas que culminam com o pedido de exclusão de páginas na área de webmasters mas, neste caso, com a eliminação dos links, as páginas não são acessadas.

Quando a repetição é em parte de uma página, essa parte deve ser eliminada. Se ela for necessária, pode-se fazer uma imagem da parte repetida. Certa feita eu me deparei com um site cujas repetições podiam ser identificadas facilmente na leitura. O texto fluía e, de repente, aparecia uma frase ou parágrafo com estilo totalmente diferente. Depois voltava ao estilo anterior e assim sucessivamente. O redator alternou textos próprios com textos de terceiros.

No caso de afiliados ou parceiros, lojas virtuais, imobiliárias, etc o melhor é fazer um pequeno texto original, e colocar o resto em forma de imagens. Pode-se dizer que, neste particular, cada caso é um caso, e demanda solução diferente.

Na situação de dois ou mais domínios com o mesmo conteúdo, deve-se escolher um dos domínios e redirigir de forma permanente os demais para ele.

As pseudo-duplicidades são resolvidas com redirecionamentos permanentes.

Se o seu site é vítima, você deve entrar em contato com os administradores ou donos dos sites que o estão copiando ou plagiando, e pedir a remoção do conteúdo. Afinal, você está sendo prejudicado nessa história. Dependendo do caso, cabe reclamação judicial.

Dezembro, 2008
Janeiro, 2009