Algoritmos dos Mecanismos de Busca: Visão Geral

Ruy Miranda
Otimização de Sites

Neste artigo vou fazer uma apresentação geral sobre os algorítmos dos mecanismos de buscas e, em outros, me aprofundar mais. Desejo muito passar para o leitor informações que venham desmistificar o significado desse vocábulo em informática e, de certo modo, desvendar um paradoxo. De um lado, se um otimizador de sites conhece bem os algorítmos dos mecanismos de busca, otimizará bem os sites e isso é bom para os próprios mecanismos de busca. Por outro lado, seria de se esperar que os mecanismos de busca tornassem público seus próprios algorítmos, já que seriam beneficiados; mas isso não acontece.

Vocábulo em Informática – Segundo o dicionário do Houaiss, é um conjunto das regras e procedimentos lógicos perfeitamente definidos que levam à solução de um problema em um número finito de etapas.

Vou explicar isso melhor. Vamos imaginar que você vai dividir 625 por 5. A operação segue determinadas regras e raciocíonios lógicos para chegar ao resultado de 125, não é? Essas regras e reciocínios são o algoritmo da divisão. Imagine agora que você vai extrair a raiz quadrada de 625. A operação segue outras regras e outros raciocínios lógicos para chegar ao resultado de 25, não é? Essas regras e raciocínios lógicos são o algoritmo da raiz quadrada. Temos regras e raciocínios lógicos, etapas e o resultado final em um algoritmo.

Algoritmo na Internet – Imaginemos agora uma página da internet. De que maneira os mecanismos de busca vão decidir o lugar em que ela ficará? Vamos ver, primeiro, um pouco de história.

No início ordenava-se os site sites pela home; não se usava listar todas as páginas de cada site. E a apresentação era pela ordem alfabética da URL. Por exemplo, as URLs cujo domínio começavam com a letra a eram listadas antes das que começavam com a letra b, e assim por diante. E, dentre as URLs que começavam pela letra a, era necessário, ordenar pelo alfabeto também. Assim, uma URL que fosse, por exemplo, http://www.agua.com vinha antes da que fosse http://www.aparelho.com. Mas a URL http://www.a-agua.com vinha antes de http://www.agua.com. Por outro lado, a URL http://www.aa-agua.com vinha antes de http://www.a-agua.com. Agora, você pode imaginar a confusão que começou a se instalar, na disputa para aparecer nos primeiros lugares de cada lista.

Se os usuários tendem a ler em primeiro lugar os sites que aparecem nos topos das listas, todo mundo queria uma URL que começasse com a letra a e tivessem outra letre a na seqüência. Contudo, a coisa estava ficando ainda mais complicada porque não havia impedimento de uma URL começar por número ou outro símbolo. Ou seja, a URL podia ser alfa-numérica. No ordenamento alfanumérico os números ou símbolos devem preceder as letras. Assim, a URL http://www.1-agua.com tem precedência sobre a URL http://www.agua.com. A URL http://www.1-aa-agua.com tem precedência sobre http://www.aa-agua.com. Também, http://www.1-aa-agua.com tem precedência sobre http://www.2-aa-agua.com. Ocorriam ainda, outras complicações com a introdução de símbolos.

Uma URL com algum sinal, digamos, de exclamação, teria precedência sobre os números. A URL http://www.!1-aa-agua.com teria precedência sobre http://www.1-aa-agua.com. E mais, a URL http://www.!!1-aa-agua.com teria precedência sobre http://www.!1-aa-agua.com. Você pode imaginar a confusão e a dificuldade para se identificar, pela URL, o site que contivesse as informações desejadas.

Pode-se deduzir que, no iníco, os algoritmos atribuiam um peso maior às URLs que começavam com a letra a , valor maior às que começavam com um número, valor maior ainda, às que começavam com uma ! ou ?

Mas, além das características da URL, os sites eram submetidos a cálculos segundo certos princípios, como palavras-chave na meta tag palavra-chave, a tag título, a meta tag descrição e, em cada lista, seguia-se a ordem alfanumérica. Portanto, o algoritmo de cada mecanismo de busca seguia essas regras.

Cada regra tinha um determinado valor numérico entre 0 e 10, o que permitia cálculos matemáticos. Por exemplo, a presença de palavras-chave na meta tag palavras-chave tinha um dado peso, expresso em um número entre 0 e 10; no Yahoo; esse número era diferente do AltaVista. As outras tags tinham também seu peso, expressos em números. Cada mecanismo de busca tinha um algoritmo rudimentar, ou seja, de poucas regras, para classificar os sites, o que facilitava muito o emprego de truques para a promover o site para posições melhores.

Na verdade, os mecanismos de busca no começo eram apenas diretórios. Os sites eram ordenados exclusivamente após a análise humana e posteriormente passaram a ser ordenados em parte, pela análise humana, e em parte por algoritmo rudimentar.

A grande Mudança no Algoritmo – O aparecimento do Google, ordenando todas as as páginas de um site e não apenas a home, aplicando o conceito de popularidade do link no algoritmo, dando um valor menor à URL, excluindo a análise humana, foi um acontecimento extraordinário. E como esse mecanismo de busca continuou evoluindo e inovando, tornou-se o mais popular do mundo. A busca pelo aprimoramento, levada a cabo pelo Google e pelos outros mecanismos de busca, resultou na introdução de mais regras. Essas regras mudam continuamente e podem variar de um país para outro.

Filtros – Você provavelmente já viu essa palavra vinculada ao posicionamento de páginas da Web. Um filtro nada mais é do que uma regra. Uma regra é um fator de ranqueamento. Um engenheiro do Google já disse que o algoritmo desse mecanismo de busca usa mais de cem filtros (regras). Filtro é também chamado de variável de ranqueamento ou do algoritmo, assim como fator de ranqueamento ou do algoritmo. Cada filtro tem uma forma de cálculo, de modo a entrar numa equação matemática final, que dará o resultdo final, ou seja, o posicionamento de uma dada página. Em 2007 eram quase duzentos filtros.

Um filtro pode ser simples ou complexo. Por exemplo, o filtro da URL pode ser simples, ou seja, composto de poucas variações. Por outro lado, um filtro como o da popularidade do link é complexo. Atribui-se valores aos links que entram, aos links que saem, à popularidade do link que entra; os valores da popularidade precisam ser distribuídos entre as páginas do site, e assim por diante, para se chegar a um número que entrará no algorítmo. Portanto, são necessários vários e complexos cálculos para se determinar a popularidade de uma página da web.

Cada filtro é, na verdade, um subalgoritmo. O ordenamento de uma página será um número resultante do algorítmo, o qual, por sua vez, é composto de subalgoritmos.

Um filtro pode determinar também a exclusão da página. Por exemplo, o Google e outros mecanismos de busca, depois de aceitar a censura da China para entrar naquele mercado, devem estar incluindo algo assim: o equivalente a "praça da Paz Celestial" ou "praça" ou "Paz Celestial" associado a isso e aquilo, resulta em bloqueio. Então, a página que contiver essas condições não será exibida.

Paradoxo - Como disse acima, todo mundo é beneficiado pelo uso adequado do algoritmo, mas os mecanismos de busca não tornam público os seus próprios. A explicação para esse paraoxo é que se trata de um segredo comercial. Desenvolver um subalgoritmo é trabalho muito complexo. E quanto mais se investe na pesquisa dele mais aprimorado ele fica. Não teria sentido uma empresa como o Google, Yahoo, Bing, stc. dar essas informações para os concorrentes copiarem sem gastar dinheiro. Aliás não se divulga nem mesmo os nomes das variáveis usadas. Nós temos conhecimento delas e podemos dizer que são cerca de duzentas no Google, como produto da experiência e intercâmbio entre os otimizadores, os quais informam a dientificação de alguma variável nova que, uma vez comprovada por outros, passa a ser aplicada nas aotimizações.

Fevereiro/2006
Julho/2011