Tipos de Duplicação de Páginas, Sites e Tags e as Punições
Ruy Miranda Duplicação é um dos temas mais importantes na Internet brasileira, em particular a duplicação de páginas de outros sites, duplicação do próprio site, duplicação do próprio site apagada apenas no servidor, duplicações de páginas no mesmo site, programas de sites dinâmicos que duplicam páginas do próprio site, e outras variações que veremos adiante. Há quem diga que punição em casos de duplicação é um mito, mas estão enganados, como estão enganados aqueles que acreditam que toda duplicação gera punição. O que é duplicação na Internet? – É a repetição literal de conteúdos de páginas ou sites, ou não literal sob a forma de plágio. O plagio consiste na cópia de um texto e a substituição de palavras para fazer a cópia parecer original. A duplicação pode ainda se restringir a uma parte substancial do conteúdo de uma página. Esta forma é mais complexa porque não temos conhecimento de parâmetro usado pelos mecanismos de busca para definir o que é ‘substancial’ (discutiremos isso mais adiante). Duplicação gera punição? – Embora o Google diga que duplicação não gera punição, mas apenas compromete o posicionamento, há várias provas em contrário. Vamos ver algumas. Complicado não é? Para mim a questão envolve múltiplas facetas e para esclarecer (quase todas) vou examinar os vários tipos de duplicação de página, sites, partes de conteúdo. Esta página amplia a discussão do tema desenvolvido em Duplicidade do Conteúdo e sua Influência no Posicionamento. Tenha em mente que o uso da palavra duplicação aqui engloba também plágio, e envolve o conteúdo das páginas no corpo (body). Abordarei no final duplicações do título web e meta descrições. Lembre-se que a duplicação causa trabalho aumentado por parte dos programas dos mecanismos de busca, o que se traduz em prejuízo, e ainda empobrece a busca. 1. Duplicação de um site, sendo que os dois ou vários domínios pertencem ao mesmo dono – Esta é uma ocorrência comum no Brasil. Ela está baseada na crença de que tendo vários domínios com palavras correlacionadas, tem mais chance do usuário encontrar o conteúdo do seu site original. Com isso vemos o mesmo site ocorrendo dezenas e até centenas de vezes. Trata-se de um erro baseado numa crença e, portanto, na boa-fé. Mas a boa-fé não impede a punição. 2. Duplicação de sites de terceiros – Esta é uma ocorrência pouco comum e que consiste em duplicar sites de terceiros e é, naturalmente, feita de má-fé. A duplicação pode ser parcial ou total. Entretanto ela pode ocorrer também de boa-fé quando se trata, por exemplo, de um site de afiliado que reproduz o site oficial ou partes expressivas dele. Tanto num caso como no outro ocorre punição. A saída é produzir site com conteúdo original, mesmo quando se tratar de afiliados. 3. Duplicação de páginas dentro do mesmo site – Esta modalidade é mais comum em sites dinâmicos, por erro na programação. Felizmente temos hoje um link de
canonização, 4. Duplicações de página ou páginas de terceiros – Esta é a modalidade mais comum no Brasil e no mundo, seja a cópia literal ou a plagiada, ou ainda, a cópia consentida. A cópia literal ou plagiada, uma vez identificada, é excluída do índex, mas às vezes o processo falha e se estiver, no seu conjunto, melhor otimizada, pode ficar em posição acima do original. A não inclusão no índex do Google é uma forma de punição posto que muitas vantagens advindas de uma página original que se refletem no site todo, não são aproveitadas, além de não ser exibida nas buscas no Google. 5. Duplicações de partes de página no mesmo site – São puníveis os sites ou páginas que duplicam parte expressiva de textos. O que é “expressiva”? Não temos resposta exata para isso. Aparentemente um texto de duas linhas não é punível, mas com certeza um texto com oitenta palavras ou mais é considerado duplicação, esteja ele no topo, no corpo ou no rodapé. A solução é colocar o texto na home e imagens dele nas outras páginas. 6. Duplicações de partes de páginas de outro site É uma situação muito parecida com o item 4. Entretanto, para ser considerada duplicação punível, o conteúdo deve ser expressivo como discutido no item 5. 7. Duplicação do tema pelo mesmo proprietário – Esta é uma forma que requer muita habilidade para escrever, mas que é punida. Trata-se de dois ou mais sites do mesmo proprietário, que vendem os mesmos produtos ou serviços e que não têm uma única página, nem mesmo frase copiada ou plagiada, e até layouts diferentes. Você pode identificar semelhanças no endereço, telefone, coisas secundárias como estas, e se vai checar no registro.br, percebe que o proprietário é o mesmo Trata-se de uma manipulação dos resultados das buscas, e que em geral são descobertos pelos usuários ou concorrentes. Uma vez denunciados, são punidos imediatamente. Ainda que se cheque ao extremo de fazer registros dos domínios como se fossem proprietários diferentes, ainda que se coloque números diferentes de telefone, que se exclua o endereço, algum concorrente vai identificar e denunciar. 8. Duplicações causadas pelo tipo de servidor – Esta é uma situação comum em sites que são lojas virtuais hospedadas em certos servidores compartilhados, também chamadas de hospedagem compartilhada . No momento de efetuar o pagamento, o servidor é acionado e registra a compra e o endereço da página onde se encontra o produto; o Google indexa essa página como se fosse nova e aí temos a página duplicada com dois endereços (um deles leva o endereço do servidor. Nem toda hospedagem compartilhada gera essa situação. Não há informes seguros de que essas páginas duplicadas são punidas. Você pode identificar se o seu servidor produz esse fenômeno acessando sua home, copiando o endereço do servidor (geralmente está no item de segurança). Ele pode aparecer assim, por exemplo: https://ssl1453.websiteseguro.com/seudominio/etc. - ssl1453 identificam o servidor (tipo domínio do servidor) e toda vez que é feita uma compra a segurança é ativada e neste momento a página fica registrada e o Google a escaneia. Você pode saber se isso acontece com seu site primeiro identificando o endereço do ser4vidor no código-fonte, fazendo uma cópia e fazendo a pesquisa na área de busca do servidor. No caso do exemplo acima, na busca no Google você coloca site: https://ssl1453.websiteseguro.com/seudominio e dá enter (desprezar o restante do endereço). Aí vai aparecer a lista de endereços das páginas indexadas do seguinte modo: https://ssl1453.websiteseguro.com/seudominio/etc , o que sugere que o site está duplicando neste endereço. O diretório /seudominio/ caracteriza uma área onde seu site está hospedado. 9. Duplicação de páginas no mesmo site por meio de plágio e repetições da estrutura – Esta é uma situação em que o redator mantém a mesma estrutura de parágrafos, e os seus conteúdos são plágios deles mesmos. São punidos por serem considerados forma de spam (repetição) para forçar um tema ou produto e por resultarem num site pobre em seu todo. Em geral é produto gerado de boa-fé, especialmente por pessoas inexperientes. 10. Duplicações por erros na programação – Existem sites, especialmente lojas virtuais, que, por erro na programação, duplicam ou triplicam páginas. Isso gera um grande transtorno, em particular nos sites grandes. Se você tem um grande número de páginas será dor de cabeça na certa porque os programas do Google, Yahoo ou Bing não dão conta de canonizar uma em cada grupo repetido. Agora você imagina uma loja com cinco mil URLs. Se se encontrar em uma situação destas algum dia, vai ter muita dor de cabeça. Você identifica fácil a duplicação porque você sabe, por meio de programas próprios, que a loja tem, digamos, cinco mil URLs, e na busca no Google há relato de vinte mil. 11. Duplicação de títulos web – Títulos web são aqueles que aparecem no head do código-fonte e sua tag é <title>. Por ser considerada a tag mais importante na otimização interna de uma página, sua repetição nas outras páginas gera punição porque traz muita dificuldade para os programas dos mecanismos de busca e, como consequência, são jogados lá para trás. 12. Duplicação de meta descrição – É uma situação semelhante à anterior (do título), mas menos grave. Ela gera dificuldade nos programas que são obrigados a buscar nos textos das páginas frases ou cópias de conteúdos para serem exibidos na Internet. Isso naturalmente empobrece a busca e, por eta razão, gera punição. Considerações – Não existe propriamente uma “punição por duplicação”. Os mecanismos estão aptos a distinguir o que é necessário ou desnecessário duplicar ou multiplicar. Entretanto estão ainda despreparados para identificar muitas duplicações de má-fé. Há situações claras de punições, como vimos, e outras que dão margem a dúvida. E na dúvida é preferível procurar alternativas ou usar ferramentas como o link canonizado ou redirecionamentos. Não há motivos para alarme se seu site apresenta duplicações, mesmo porque, como disse, muitas são até necessárias. Veja, por exemplo, que as notícias são difundidas pelos diversos canais da internet ou conteúdos sindicalizados em forma de RSS/Atom Feeds e nenhum dos sites envolvidos recebe punição. Se seu site tem página copiada ou plagiada de outro site, o melhor é pedir a sua exclusão via robots.txt e ferramenta de exclusão para webmasters. O Google informa que, ao invés de excluir do seu índex sites ou páginas que encontra duplicados, seus programas passaram a não incluir no índex material duplicado. Isso é um bom avanço porque identificar duplicações em meio a tantos dados é complicado. Agora ele passa a colocar um filtro – todas as páginas são submetidas ao teste da duplicação ou plagiarismo; se há duplicações dentro do que foi informado acima, não vai para o índex. Janeiro/2011 |