Topo

Descubra como o Google rastreia e organiza informações coletadas da internet

Para criar o índice de página no banco de dados, o Google rastreia um grande número de sites - ThinkStock
Para criar o índice de página no banco de dados, o Google rastreia um grande número de sites Imagem: ThinkStock

Edgard Matsuki

Do UOL, em São Paulo

13/12/2012 06h00

As buscas do Google são baseadas em um algoritmo que retém informações colhidas por um robô. A forma como o chamado Googlebot faz essa varredura é importantíssima para quem trabalha com otimização de sites para motores de busca (técnica também chamada de SEO), pois pode definir a estratégia utilizada por um site para aparecer bem no Google.

O trabalho de catalogação do robô do Google é dividido em três partes: o rastreamento, a indexação e o ranqueamento do conteúdo na página do buscador.

Rastreamento

Para criar o índice de página no banco de dados, o Google faz o rastreamento (processo chamado de crawling) no maior número de sites possíveis. Nesta triagem, o Googlebot descobre páginas novas que surgiram na internet.

O rastreamento começa com uma lista de endereços que já estão indexados na web. A partir dos links deles, o Googlebot descobre páginas novas e atualizações de sites.

O Google não aceita pagamento para rastrear uma página mais rapidamente do que outras: é o algoritmo do robô que define de quanto em quanto tempo esse rastreamento na internet será feito. Um dos fatores levados em conta para rastrear uma página é a quantidade de atualizações: por isso, um dos segredos para ser bem indexado é criar conteúdo novo constantemente.

Além disso, ter um site com rápido carregamento é importante para que ele seja bem indexado. O robô costuma ficar um número determinado de segundos em uma página: se ele não rastrear tudo nesse tempo, há o risco de ela ficar indexada apenas parcialmente. 

Indexação

A segunda etapa do trabalho do Googlebot é a organização de todo conteúdo que foi rastreado. Como o conteúdo da web é gigantesco, o robô dá atenção a alguns elementos da página como quais são os termos mais relevantes, títulos, tags e elementos multimídia. É nessa hora que o robô verifica quais são as principais palavras-chave da página. É como se a página fosse catalogada como um livro em uma biblioteca.

O excesso de termos repetidos ou qualquer tentativa pesada de manipulação dos resultados de busca faz o site ser excluído ou perder algumas posições nas buscas. Antes, a quantidade de links era mais importante do que a qualidade deles, mas esta lógica se inverteu nas últimas atualizações do algoritmo. Hoje, um link importante (exemplo: Wikipédia) vale mais do que muitos links de blogs desconhecidos.

Ranking

Por fim, chega a hora da entrega dos resultados. Quando uma pessoa faz uma busca no Google, o software faz uma busca no conteúdo já indexado pelo Googlebot. Depois de avaliar cerca de 200 critérios (que continuam sendo um mistério, pois o Google não revela quais são eles), o site tenta entregar os resultados mais relevantes para o usuário dentro daquilo que ele procura. Esse processo acontece em milésimos de segundo: o tempo é mostrado todas as vezes que um usuário faz uma busca.

Para evitar a otimização extrema de uma página ou mesmo a cópia dos critérios por sites concorrentes (como o Bing), o Google mantém segredo de quais fatores são levados em conta na hora de classificar as páginas. Mesmo assim, é possível conhecer alguns desses fatores.

Parte dos critérios está relacionada ao próprio usuário, como pesquisas anteriores, sites visitados e indicações de amigos no Google+. Outros fatores são de “responsabilidade” dos criadores do conteúdo – daí a importância de um bom trabalho de SEO. Se você tem um texto relevante para um assunto, muitos links externos de qualidade e soube usar técnicas de SEO sem trapacear, vai ser compensado.