Tipos de Duplicação de Páginas, Sites e Tags e as Punições

 

Ruy Miranda
Otimização de Sites


Duplicação é um dos temas mais importantes na Internet brasileira, em particular a duplicação de páginas de outros sites, duplicação do próprio site, duplicação do próprio site apagada apenas no servidor, duplicações de páginas no mesmo site, programas de sites dinâmicos que duplicam páginas do próprio site, e outras variações que veremos adiante. Há quem diga que punição em casos de duplicação é um mito, mas estão enganados, como estão enganados aqueles que acreditam que toda duplicação gera punição.

O que é duplicação na Internet? – É a repetição literal de conteúdos de páginas ou sites, ou não literal sob a forma de plágio. O plagio consiste na cópia de um texto e a substituição de palavras para fazer a cópia parecer original. A duplicação pode ainda se restringir a uma parte substancial do conteúdo de uma página. Esta forma é mais complexa porque não temos conhecimento de parâmetro usado pelos mecanismos de busca para definir o que é ‘substancial’ (discutiremos isso mais adiante).

Duplicação gera punição? – Embora o Google diga que duplicação não gera punição, mas apenas compromete o posicionamento, há várias provas em contrário. Vamos ver algumas.

-- O próprio Google recomenda denunciar páginas ou sites duplicados (observar na imagem abaixxo) e faz várias considerações sobre conteúdo duplicado.
-- Na internet americana encontramos vários sites que dizem ser a duplicação um mito e outros que provam punição do Google em casos de duplicação, incluindo-se o banimento.

Veja na imagem abaixo o formulário do Google de denúncia de Spam, onde aparece claramente o item Páginas ou Sites Duplicados.

Formulário do Google para denunciar Spam.

Complicado não é?

Para mim a questão envolve múltiplas facetas e para esclarecer (quase todas) vou examinar os vários tipos de duplicação de página, sites, partes de conteúdo. Esta página amplia a discussão do tema desenvolvido em Duplicidade do Conteúdo e sua Influência no Posicionamento.

Tenha em mente que o uso da palavra duplicação aqui engloba também plágio, e envolve o conteúdo das páginas no corpo (body). Abordarei no final duplicações do título web e meta descrições.

Lembre-se que a duplicação causa trabalho aumentado por parte dos programas dos mecanismos de busca, o que se traduz em prejuízo, e ainda empobrece a busca.

1. Duplicação de um site, sendo que os dois ou vários domínios pertencem ao mesmo dono – Esta é uma ocorrência comum no Brasil. Ela está baseada na crença de que tendo vários domínios com palavras correlacionadas, tem mais chance do usuário encontrar o conteúdo do seu site original. Com isso vemos o mesmo site ocorrendo dezenas e até centenas de vezes. Trata-se de um erro baseado numa crença e, portanto, na boa-fé. Mas a boa-fé não impede a punição.

Paralelo a isso temos com freqüência a utilização de domínios apontando para o site principal. Esses apontamentos podem ter muitas inconveniências e conduzirem involuntariamente a duplicações. Havendo a duplicação, ainda que parcial do site, ela deve ser eliminada tanto do servidor como do índex do Google – o caminho mais rápido é o uso do bloqueio pelo robots.txt, seguindo-se pedido de exclusão do índex do Google. A melhor solução, a meu ver, é eliminar esses domínios adicionais e só manter os que são absolutamente indispensáveis.

2. Duplicação de sites de terceiros – Esta é uma ocorrência pouco comum e que consiste em duplicar sites de terceiros e é, naturalmente, feita de má-fé. A duplicação pode ser parcial ou total. Entretanto ela pode ocorrer também de boa-fé quando se trata, por exemplo, de um site de afiliado que reproduz o site oficial ou partes expressivas dele. Tanto num caso como no outro ocorre punição. A saída é produzir site com conteúdo original, mesmo quando se tratar de afiliados.

Esse tipo de duplicação pode gerar problemas além da punição imposta pelos mecanismos de busca: processos judiciais por quebra de direitos autorais.

3. Duplicação de páginas dentro do mesmo site – Esta modalidade é mais comum em sites dinâmicos, por erro na programação. Felizmente temos hoje um link de canonização,
com o qual escolhemos uma URL e a canonizamos. Quando não fazemos isto, os próprios mecanismos de busca o fazem. Entretanto, quando fazemos, a solução da duplicação é rápida, e no outro caso, demorada.

No caso das lojas virtuais há, ainda, apresentações diversas dos mesmos produtos de acordo com a escolha do usuário. Assim, uma página de produtos pode, por exemplo, aparecer em URLs diferentes quando os preços são crescentes ou decrescentes, o que caracteriza a duplicação. Esta é uma duplicação necessária. Da mesma forma, uma versão de página para ser impressa pode ser necessária. Evita-se punição canonizando-se uma das URLs. Por meio da canonização podemos duplicar uma página tantas vezes quantas forem necessárias sem causar dano ao posicionamento, seja no Google, Yahoo ou Bing.

4. Duplicações de página ou páginas de terceiros – Esta é a modalidade mais comum no Brasil e no mundo, seja a cópia literal ou a plagiada, ou ainda, a cópia consentida. A cópia literal ou plagiada, uma vez identificada, é excluída do índex, mas às vezes o processo falha e se estiver, no seu conjunto, melhor otimizada, pode ficar em posição acima do original. A não inclusão no índex do Google é uma forma de punição posto que muitas vantagens advindas de uma página original que se refletem no site todo, não são aproveitadas, além de não ser exibida nas buscas no Google.

A página duplicada pode receber, ainda como punição, perda do Pagerank. Isso pode ocorrer até com o original. Por exemplo, o pagerank da página cujo endereço é http://www.otimizacao-sites-busca.com/otimizacao/, uma das mais copiadas deste site, oscila entre zero e 3, o que significa que de tempos em tempos elaé considerada duplicação.

É interessante observar que a punição recai apenas nas páginas duplicadas e não no site inteiro, a menos que os programas do Google considerem que há, no processo, uma tentativa de manipulação do seu índex . Outras vezes a cópia só é excluída quando o dono do site original denuncia e envia elementos suficientes que comprovem o spam. No caso da página citada deste site (e algumas outras) que são objeto de cópia, eu deixo ficar porque se elimino algumas, tempos depois aparecem outras, em novos endereços. A má-fé fica ainda mais configurada quando, na duplicação, o nome do autor original é excluído.

5. Duplicações de partes de página no mesmo site – São puníveis os sites ou páginas que duplicam parte expressiva de textos. O que é “expressiva”? Não temos resposta exata para isso. Aparentemente um texto de duas linhas não é punível, mas com certeza um texto com oitenta palavras ou mais é considerado duplicação, esteja ele no topo, no corpo ou no rodapé. A solução é colocar o texto na home e imagens dele nas outras páginas.

Há ainda, a meu ver, uma duplicação que só vejo no Brasil: listar palavras, com ou sem links, sob os títulos de ‘Mais Vendidos’, ‘Tags’, ‘Mais Visitados’, etc. Muitas vezes a lista de palavras (dentro ou fora de links) é superior ao texto de alguma(s) página(s0. Eu aconselho a meus clientes retirarem esses textos, por inúteis e ainda carregarem o perigo da duplicação.

6. Duplicações de partes de páginas de outro site É uma situação muito parecida com o item 4. Entretanto, para ser considerada duplicação punível, o conteúdo deve ser expressivo como discutido no item 5.

7. Duplicação do tema pelo mesmo proprietário – Esta é uma forma que requer muita habilidade para escrever, mas que é punida. Trata-se de dois ou mais sites do mesmo proprietário, que vendem os mesmos produtos ou serviços e que não têm uma única página, nem mesmo frase copiada ou plagiada, e até layouts diferentes. Você pode identificar semelhanças no endereço, telefone, coisas secundárias como estas, e se vai checar no registro.br, percebe que o proprietário é o mesmo Trata-se de uma manipulação dos resultados das buscas, e que em geral são descobertos pelos usuários ou concorrentes. Uma vez denunciados, são punidos imediatamente. Ainda que se cheque ao extremo de fazer registros dos domínios como se fossem proprietários diferentes, ainda que se coloque números diferentes de telefone, que se exclua o endereço, algum concorrente vai identificar e denunciar.

Muita gente já perdeu a esperança de obter justiça por meio da denúncia direta ao Google, na página apropriada. Entretanto, se a petição tem fundamento, se você junta provas ou escreve como elas poderão ser obtidas, o Google atende. O mais comum são denúncias mal definidas e que não permitem sua averiguação. Se ainda assim essa via falhar, entre num grupo do Google, no tema que diz respeito ao assunto, descreva o caso e espere opiniões de terceiros. Esta é uma via eficiente para fazer chegar seus reclamos.

8. Duplicações causadas pelo tipo de servidor – Esta é uma situação comum em sites que são lojas virtuais hospedadas em certos servidores compartilhados, também chamadas de hospedagem compartilhada . No momento de efetuar o pagamento, o servidor é acionado e registra a compra e o endereço da página onde se encontra o produto; o Google indexa essa página como se fosse nova e aí temos a página duplicada com dois endereços (um deles leva o endereço do servidor. Nem toda hospedagem compartilhada gera essa situação. Não há informes seguros de que essas páginas duplicadas são punidas. Você pode identificar se o seu servidor produz esse fenômeno acessando sua home, copiando o endereço do servidor (geralmente está no item de segurança). Ele pode aparecer assim, por exemplo: https://ssl1453.websiteseguro.com/seudominio/etc. - ssl1453 identificam o servidor (tipo domínio do servidor) e toda vez que é feita uma compra a segurança é ativada e neste momento a página fica registrada e o Google a escaneia. Você pode saber se isso acontece com seu site primeiro identificando o endereço do ser4vidor no código-fonte, fazendo uma cópia e fazendo a pesquisa na área de busca do servidor. No caso do exemplo acima, na busca no Google você coloca site: https://ssl1453.websiteseguro.com/seudominio e dá enter (desprezar o restante do endereço). Aí vai aparecer a lista de endereços das páginas indexadas do seguinte modo: https://ssl1453.websiteseguro.com/seudominio/etc , o que sugere que o site está duplicando neste endereço. O diretório /seudominio/ caracteriza uma área onde seu site está hospedado.

9. Duplicação de páginas no mesmo site por meio de plágio e repetições da estrutura – Esta é uma situação em que o redator mantém a mesma estrutura de parágrafos, e os seus conteúdos são plágios deles mesmos. São punidos por serem considerados forma de spam (repetição) para forçar um tema ou produto e por resultarem num site pobre em seu todo. Em geral é produto gerado de boa-fé, especialmente por pessoas inexperientes.

10. Duplicações por erros na programação – Existem sites, especialmente lojas virtuais, que, por erro na programação, duplicam ou triplicam páginas. Isso gera um grande transtorno, em particular nos sites grandes. Se você tem um grande número de páginas será dor de cabeça na certa porque os programas do Google, Yahoo ou Bing não dão conta de canonizar uma em cada grupo repetido. Agora você imagina uma loja com cinco mil URLs. Se se encontrar em uma situação destas algum dia, vai ter muita dor de cabeça. Você identifica fácil a duplicação porque você sabe, por meio de programas próprios, que a loja tem, digamos, cinco mil URLs, e na busca no Google há relato de vinte mil.

11. Duplicação de títulos web – Títulos web são aqueles que aparecem no head do código-fonte e sua tag é <title>. Por ser considerada a tag mais importante na otimização interna de uma página, sua repetição nas outras páginas gera punição porque traz muita dificuldade para os programas dos mecanismos de busca e, como consequência, são jogados lá para trás.

12. Duplicação de meta descrição – É uma situação semelhante à anterior (do título), mas menos grave. Ela gera dificuldade nos programas que são obrigados a buscar nos textos das páginas frases ou cópias de conteúdos para serem exibidos na Internet. Isso naturalmente empobrece a busca e, por eta razão, gera punição.

Considerações – Não existe propriamente uma “punição por duplicação”. Os mecanismos estão aptos a distinguir o que é necessário ou desnecessário duplicar ou multiplicar. Entretanto estão ainda despreparados para identificar muitas duplicações de má-fé. Há situações claras de punições, como vimos, e outras que dão margem a dúvida. E na dúvida é preferível procurar alternativas ou usar ferramentas como o link canonizado ou redirecionamentos.

Não há motivos para alarme se seu site apresenta duplicações, mesmo porque, como disse, muitas são até necessárias. Veja, por exemplo, que as notícias são difundidas pelos diversos canais da internet ou conteúdos sindicalizados em forma de RSS/Atom Feeds e nenhum dos sites envolvidos recebe punição.

Se seu site tem página copiada ou plagiada de outro site, o melhor é pedir a sua exclusão via robots.txt e ferramenta de exclusão para webmasters.

O Google informa que, ao invés de excluir do seu índex sites ou páginas que encontra duplicados, seus programas passaram a não incluir no índex material duplicado. Isso é um bom avanço porque identificar duplicações em meio a tantos dados é complicado. Agora ele passa a colocar um filtro – todas as páginas são submetidas ao teste da duplicação ou plagiarismo; se há duplicações dentro do que foi informado acima, não vai para o índex.

Janeiro/2011
Fevereiro/2011

Proprietário    Nota Legal     Política    Blog    Contato
Copyright © 2005-2014, Otimização de Sites Todos os direitos reservados