A mágica do Google
- 5 de março de 2010|
- 8h12|
- Tweet este Post
Por Fernando Martines
Hoje em dia, internet é sinônimo de Google. Ou vice-versa. A empresa e a rede mundial de computadores já se confundem e, para o mundo digital, navegar sem o sistema de buscas criado por Larry Page e Sergey Brin é equivalente a pensar a sociedade moderna sem eletricidade.
O gigante estica seus tentáculos para todos os lados: além de passar por ele toda navegação por sites na web, tem um e-mail com milhões de usuários, projetos que fotografam cidades inteiras e já anunciou que irá distribuir energia e internet em banda larga nos EUA. Mas, mesmo com tudo isso, a grande mágica ainda é a página branca, com a pequena janela para inserir os termos da busca, o botão que começa a varredura em toda a internet com resultados ótimos.
Se a busca é a chave do sucesso Google, o que ela tem que as outras – de concorrentes bilionários como Yahoo e Microsoft – não têm? A resposta para essa pergunta vale mais do que bilhões, vale toda a web. E quem teve um vislumbre disso foi Steven Levy, convidado pelo Google para ir até a sede da empresa, ver com os próprios olhos como funciona o processo de busca do maior site da web e escrever um artigo para a revista norte-americana Wired (em inglês). Para quem não domina o inglês, seguem trechos traduzidos do texto de Steven Levy que explicam um pouco como funciona a busca. Mas Udi Manber, responsável pelas buscas do Google desde 2006, lembrou ao repórter da Wired que o essencial do truque não foi revelado: “O ingrediente muito, muito, mas muito essencial de tudo isso, nós escondemos”.
“O insight histórico dos fundadores do Google foi classificar páginas com base na quantidade e importância dos links que apontam para ela – ou seja, usar a inteligência coletiva da web para determinar que sites eram os mais importantes.
“A busca na web é um processo de várias partes. Primeiro o Google rastreia toda a web para coletar o conteúdo de todos os sites que são acessíveis. Os dados são jogados em um index (organizado por palavras), uma maneira de encontrar um site baseado em seu conteúdo. Toda vez que um usuário faz uma busca, o index combina as páginas relevantes, apresentando uma lista com até milhões de resultados.
“Vários sinais podem ajudar o Google a oferecer os melhores resultados, sendo que todos os outros sites de busca também os usam, mas nenhum com a esperteza do Google. Alguns parecem óbvios agora, mas no começo não eram, como dar destaque para o título da página ou para as palavras que formam os links que levam para determinado site. Mais tarde, foram observados novos sinais: atualidade (para algumas buscas, páginas criadas mais recentemente têm maior valor que as mais velhas) e localização (o Google sabe as coordenadas geográficas de onde foi feita a busca e da preferência para resultados locais).
“A própria busca é uma fonte: em quais resultados que as pessoas clicam, que palavras elas trocam na busca quando estão insatisfeitas, como suas buscas combinam com suas localizações físicas. E agora também existe a opção da busca personalizada, que é baseada na sua localização e no seu histórico de buscas.
“Aprendemos a importância dos sinônimos. Alguém que procura “fotos de cães” pode estar na verdade buscando por “fotos de filhotinhos”. Assim, podemos trocar cães por filhotinhos. A mesma coisa com “água fervendo” e “água quente”. Nós reaprendemos a semântica dos humanos, o que foi um grande avanço. Mas tivemos problemas com isso. O Google aprendeu que “cães” são “filhotinhos” e “fervendo” é “quente”. Mas também concluiu que um “cachorro-quente” é a mesma coisa que um “cão fervendo”. Esse problema foi resolvido em 2002, com base nas teorias de Ludwig Wittgenstein de como palavras são definidas pelo contexto. Assim, quando o Google rastreia a web por resultados de cachorro-quente, da preferência para páginas em que próximas a essas palavras estão outras como “mostarda”, “pão” e “jogos de baseball”. Isso auxiliou a entender o termo “cachorro-quente” e milhões de outros.
“Todo ano o Google promove uma competição interna para melhorar seu sistema de buscas, intitulada Crazy Search Ideas. Em 2001, um funcionário percebeu que a busca por “audrey fino” apresentava sites italianos sobre Audrey Hepburn. E assim, perceberam que havia um problema com buscas por nomes. Para resolver isso, foi desenvolvida a técnica “bi-gram breakage”, que basicamente junta palavras diferentes em apenas uma unidade, como se fossem uma coisa só. Assim, “new york” são palavras que devem ser procuradas juntas (um bi-gram) e não separadamente.”
Chegou até aqui e sabe ler em inglês? Então vai lá na Wired que tem muito mais.
Posts relacionados
Tópicos relacionados
Últimas
-
POR Agências
UE aprova união entre Google e Motorola
A União Europeia aprovou a aquisição da Motorola Mobility pelo buscador pelo valor de US$ 12,5 milhões[...] Leia mais
-
POR Tatiana de Mello Dias
‘O ACTA está desequilibrado’
Presidente do Parlamento Europeu critica acordo internacional antipirataria do qual a União Europeia é signa[...] Leia mais
-
POR Redação Link
Começa hoje o Social Media Week
Evento que reúne analistas, publicitários e universitários discute as relações entre empresas e usuários[...] Leia mais
-
POR Agências
Governo testará modelo de internet grátis
Serviço será uma espécie de 0800 da web, conectado a bancos, compras ou atendimento ao consumidor Leia mais
Blogs do Link
-
Rodrigo Martins |
21h54
Twitteiros profissionais ganham mais de R$ 200 mil por ano nos EUA
Que tal trabalhar com Twitter, Facebook e companhia e ganhar um salário de mais de R$ 200 mil por ano? Nos EUA, está assim.[...] Leia mais
-
Renato Cruz |
17h59
A briga pelos anúncios online
Os sites de notícias não têm conseguido atuar no campo mais lucrativo da publicidade online, que são os anúncios segment[...] Leia mais
-
David Pogue |
15h36
O dilema dos eletrônicos baratos
Ninguém que ver trabalhadores sendo explorados, e se Apple pode pressionar a Foxconn para esta limpar suas operações, ela [...] Leia mais
-
Radar Tecnológico |
14h34
Ação da Apple supera os US$ 500 pela primeira vez
As ações da Apple superaram a marca dos US$ 500 pela primeira vez na história, nesta segunda-feira, 13. Isso dá à comp[...] Leia mais
-
Daniel Gonzales |
12h08
Uma mãozinha na hora de pagar as contas
Chega a hora de pagar as contas e começa aquela “tortura”: ler um por um os 44 dígitos do código de barras do[...] Leia mais
-
Tatiana de Mello Dias |
19h01
O lado delicado do fim do Megaupload
-
Alexandre Matias |
19h01
Quem disse que todo mundo precisa ter opinião sobre tudo?
-
Homem-Objeto |
19h01
Portátil e derrapante
Novo PlayStation Vita deve ser lançado no Brasil no último dia deste mês Leia mais
-
Filipe Serrano |
-1h50
Campus Party empreendedora
Veja a programação da Campus Party relacionada ao empreendedorismo na área de tecnologia Leia mais
-
Que Mario? |
15h38
Livro ou jogo?
Autora carioca cria obra que mistura os dois universos Leia mais
-
TV sem TV |
13h53
Fãs criam versão colaborativa de ‘Star Wars’
Fãs da saga “Star Wars” fizeram uma versão caseira do episódio “Uma Nova Esperança”. O projeto to[...] Leia mais
-
Personal Nerd |
9h51
‘Botão de pânico’ esconde as abas do navegador
Sabe quando você está gastando tempo no Facebook durante o expediente e o chefe aparece de repente? Não é raro se perder [...] Leia mais
-
Nhom |
10h00
Bexigas de aniversário
-
LOL |
11h21
Os maiores fails de 2011
-
Sempre à mão |
17h53
Mais de 700 mil Androids por dia
O cenário dos sistemas operacionais virou em 2011. O ano começou com o Android povoando 31,2% dos aparelhos no mundo. A Res[...] Leia mais
Deixe um comentário: