Como o Google indexa, rastreia e classifica passado, presente e futuro

Arte do Google mostra o fluxo de uma pesquisa sobre futebol

Trecho do infográfico do Google.

Passado, presente e futuro. Por frações de segundos, minutos ou horas, o que a indexação do Google registrou sempre estará desatualizado.

A cada rastreamento, o algoritmo GoogleBot sincroniza o índice com as informações mais atuais.

Quando outro algoritmo, o PageRank, classifica por relevância uma busca por palavras-chave, o Google se coloca a frente do seu próprio tempo.

Pensei que essa seria uma ótima proposta de analogia para um post. Como explicações detalhadas sobre indexação, rastreamento e classificação são contadas pelo próprio Google, permito-me não ser tão técnico e nem tão leigo na minha analogia.

Antes, sugiro que cliquem na imagem abaixo. Ela vai abrir um infográfico em português bem colorido e legal mostrando como funciona a pesquisa da palavra-chave “Futebol”. (Pô, da próxima vez vou fazer um post sobre algoritmos e futebol para ver se eu fico bem referenciado)

Infográfico do Google mostra etapas de uma pesquisa

Infográfico do Google mostra etapas de uma pesquisa. Clique sobre a imagem para acessar o conteúdo completo.

Indexando o passado da web

Em 1998, Sergey Brin e Lawarence Page, os “Google Guys”, faziam doutorado na Universidade de Standford na Califórnia, Estados Unidos. Então, publicaram o artigo “The Anatomy of a Large-Scale Hypertextual Web Search Engine” (A Anatomia dos motores de busca em larga escala de hipertextos na web), onde apresentavam o protótipo Google, que prometia “resultados de busca mais satisfatórios e eficientes do que os sistemas existentes” até então.

Será que o protótipo vingou?

O fato é que o Google criou uma série de rastreadores da web (sendo o Googlebot o mais famoso deles) responsáveis por encontrar links, conteúdos das páginas, mapear o comportamento de navegação do usuário e salvá-los em um grande índice (index).

Em 1998, foram 53,5 gigabytes de sites armazenados em quatro computadores. Hoje, a conta ultrapassa ose 100 milhões de GB. Assim, a indexação do Google conta boa parte da história da maioria de páginas da internet.

Sempre é bom lembrar que a world wide web (www ou simplesmente web) é apenas uma camada do que chamamos de rede mundial de computadores, a internet.

Logo, tem muita informação que não está visível seja porque o desenvolvedor configurou o site para ser desconsiderado pelo robô do Google, por não possuírem um endereço nominal cadastrado (domínio), por serem restritos ou por estarem sob criptografia.

Por não aparecerem para usuários finais e para os buscadores, costumamos dizer que eles estão no lado escuro ou nas profundezas da web. Por isso, o termo Deep Web.

É óbvio que o lado mais oculto atrai bandidagem, mas a Deep Web não se resume a isso. Se fosse assim, o próprio protótipo do Google, até ser apresentado oficialmente, seria um produto de crime já que estava atuando na “surdina” dentro dos servidores da Universidade de Standford.

Rastreando o presente – Googlebot

A labuta do mecanismo de busca do Google não termina na indexação. Afinal, quem se informa pelo passado?

É aí que entra o rastreamento, etapa que encontra atualizações dentro dos sites. Vamos exemplificar o processo usando o http://algoritmo.online.

Uma vez que o Google indexou o nosso site, ele precisa voltar sempre que possível para saber quantas páginas (posts, seções etc) foram criadas após a indexação anterior.

Assim, se meu site tinha 10 links indexados até agora, com esse post o Googlebot encontrará mais um. E se eu insiro um link de outra página  que acabou de ser publicado, o robozinho pega carona e o indexa também.

Nos textos de apresentação da empresa, o Google compara a web a “uma biblioteca pública em constante expansão, com bilhões de livros e nenhuma administração centralizada”.

Aí chegam os caras do Google e propõem rastrear o máximo possível de páginas web e criar um índice bacana com várias dicas referências ao que encontraremos em cada site.

Depois, eles criam um catálogo online dinâmico com informações públicas da internet e dizem: – “pode vir no meu serviço que é bom, barato e bonito”.

E, mesmo pagando impostos significativos sem perceber, (entre eles, nossas privacidade) acreditamos no BBB e concluímos:

– É, esse Google é f*!

Biblioteca é o ontem. O Google, o hoje

É claro que a fonte do Google não são as bibliotecas. Nelas, você olha o tanto de livro e imagina o valor cultural de cada informação e se entristece pela rápida desatualização. Afinal, difícil encontrar quais são as modalidades que vão competir nos Jogos Olímpicos de 2016 em uma biblioteca. Deixa eu pesquisar: Modalidades, Rio 2016. Ih, not found!

Afinal, bibliotecas e livros exigem um processo de pesquisa, escrita, editoração, distribuição, que desafiam o ser humano desde ele começou a escrever…nas paredes.

Já o Google trabalha com o hoje. Nem se fosse possível, não seria interessante imprimir esse catálogo que ele “nos dá”. Afinal, o índice fica velho a cada segundo e o Google quer o presente, por isso ele solta seus velociraptors em busca de carne fresca.

Googlebot, um rastreador selvagem. Montagem sobre foto de Tomi Lattu / CC

Googlebot, um rastreador selvagem. Montagem sobre foto de Tomi Lattu / CC

Classificando o futuro – PageRank

Os Google Guys defenderam, ainda no artigo citado anteriormente, que não basta ter uma lista de conteúdos web bem atualizados. É preciso classificá-los ao usuário. Quando digito “o futuro da busca” em um site de busca, quero chegar em sites que realmente me apontem conteúdos que falem de fato sobre busca em uma perspectiva futurística.

O que aparece primeiro nos resultados, normalmente, é o que clicarei. Se clico e não encontro o que procuro, vou considerar o site fraco e, consequentemente, avaliar o motor de busca como ineficiente.

Por isso, cada vez mais o Google tenta construir essa relevância de resultados com auxílio de algoritmos, cientistas e inteligência artificial. Estão investindo forte, inclusive, na construção de um Mapa do Conhecimento (Assunto para um post futuro).

Mas antes que entremos em pânico com tanto conhecimento, é claro que a máquina sozinha não consegue JULGAR o que é útil para mim neste momento (nem eu mesmo consigo, na verdade).

Por isso, para esse ranqueamento, o PageRank, jovem algoritmo do Google que está em seus 18 anos de vida, dá muito valor a sites que:

  • tenham conteúdos com palavras-chave nos títulos;
  • possuam links de outros sites mais importantes;
  • vídeos, fotos e outros elementos multimidia complementares;
  • tempo de existência e periodicidade na rede;
  • organização visual atrativa e responsiva;
  • dominam técnicas e ferramentas de otimização (SEO);
  • ter o mapa do site, ou seja, um sitemap;
  • ter vários espaços de interação – dos comentários às redes sociais;
  • conteúdo original e capacidade de fidelizar;
  • e tantos outros itens que vamos descobrindo.

São tantas as variáveis que o caminho para se ter uma presença de longo no prazo no Google passa longe de tentar enganar o PageRank com ordenamento de de palavras-chave, produção de conteúdos fáceis, comuns e efêmeros, sentar a mão em tags e links aleatórios.

Cada resultado de pesquisa é uma conquista

Gosto de pensar que a classificação do PageRank funciona como uma corrida de Fórmula 1.

Tá lá…Rubinho Barrichelo fazendo tudo que tinha que fazer, vai ganhar, merecido, sofrido. Tan, tan, tannnn…Mas não, ele tirou o pé do acelerador segundos antes e o alemão passa e vence. 🙁

Mesmo com a brilhante corrida de Barrichelo, ele vai subir no pódio em segundo lugar porque Schuma cumpriu os requisitos para o primeiro lugar: vencer (Ignorem ou não o fato de ter sido uma ordem da escuderia).

E quem chega em primeiro fica no topo do pódio e ganha o champanhe maior. Na web, é assim também. O primeiro normalmente recebe os cliques.

Se você clicar no segundo link de um resultado pode até encontrar conteúdos melhores, mas o primeiro colocado orgânico é considerado o redondo para o PageRank porque correspondeu a mais requisitos e porque já tem mais tempo e histórico de peso, que contam muito nos bastidores.

Hoje pode ser o seu dia de chegar em primeiro no PageRank, mas vai que amanhã você tropeça?

Hoje pode ser o seu dia de chegar em primeiro no PageRank, mas vai que amanhã você tropeça?

O fato é que essa classificação muda a qualquer momento. Depende do que você faz com o conteúdo, mas fica bem a critério de como o PageRank vai te avaliar no futuro.

Por falar em futuro, o Google Instant é outro algoritmo que tem pressa pelo novo. Ele é responsável por apresentar resultados imediatos enquanto você digita, mesmo sem dar enter.

Na visão dos desenvolvedores e pesquisadores do Google, isso te faz ganhar tempo. De fato.  Acabo de digitar Barriche” e o Google Instant já me entregou o site oficial do Rubinho como primeiro Resultado do PageRank. Primeiro lugar? Finalmente…Tan, tan, tan.

Até a próxima vitória do Rubinho. Ou antes, na terça.

 

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *