VoyForums
[ Show ]
Support VoyForums
[ Shrink ]
VoyForums Announcement: Programming and providing support for this service has been a labor of love since 1997. We are one of the few services online who values our users' privacy, and have never sold your information. We have even fought hard to defend your privacy in legal cases; however, we've done it with almost no financial support -- paying out of pocket to continue providing the service. Due to the issues imposed on us by advertisers, we also stopped hosting most ads on the forums many years ago. We hope you appreciate our efforts.

Show your support by donating any amount. (Note: We are still technically a for-profit company, so your contribution is not tax-deductible.) PayPal Acct: Feedback:

Donate to VoyForums (PayPal):

Login ] [ Main index ] [ Post a new message ] [ Search | Check update time | Archives: 12[3]4 ]


[ Next Thread | Previous Thread | Next Message | Previous Message ]

Date Posted: 18:42:03 02/11/02 Mon
Author: José Maria
Subject: Google: a ferramenta mais popular da web (artigo JB)

Confissões de um buscador

Entenda como a ferramenta de pesquisa mais popular da web continua surpreendendo internautas até hoje


LÚCIO TINOCO



Quando o Google http://www.google.com surgiu em 1998, tanto internautas quanto investidores se assustaram: o que faz esses moleques empreendedores (na época um com 23 e outro com 24) pensarem que, entrando 3 anos atrasados no mercado, teriam alguma chance perto de Yahoos, Altavistas, Infoseeks e Inktomis? O que eles teriam de tão inovador assim que viabilizaria um investimento tão alto em um mercado já tão competitivo?
Depois de apenas 4 anos, o Google de Sergey Brin e Larry Page não só se tornou o mecanismo de busca favorito dos internautas, mas também provou a investidores e clientes que seu modelo alternativo de negócios baseado em informads (anúncios descritivos contendo somente texto, sem banners) pôde brevemente se tornar uma alternativa bem lucrativa. Ahn, alguém disse ''lucro''?! Esses contos de fada aparentemente típicos da internet do final de século ainda existem em portais de informação? Acreditar na qualidade do mecanismo de busca parece ser fácil: de fato, as pessoas que usam o Google parecem encontrar o que procuram com maior sucesso e mais rapidamente do que em outros lugares. Mas por que afinal a busca no Google parece produzir resultados tão melhores?

A história do Google, ou melhor, de Sergey e Larry, começa em 1995 durante uma visita de Sergey (então ex-aluno de Stanford e mestrando em Michigan) ao departamento de Ciência da Computação em Stanford, onde Larry ficara encarregado de ciceroneá-lo. Diz a lenda que os dois de início não tinham muito assunto um com o outro, mas que compartilhavam da mesma frustração quanto aos mecanismos de busca da época. A queixa: com a estrondosa democratização da informação disponível na web, estava ficando cada vez mais difícil distinguir conteúdo de qualidade (i.e., com credibilidade e autoridade) de páginas amadoras. Por exemplo, se procurassem sobre ''bibliotecas nos EUA'', no Yahoo!, teriam a mesma chance de encontrar a página da Biblioteca do Congresso Americano (a maior e mais prestigiosa biblioteca do mundo) e a da biblioteca de uma escola primária qualquer nos EUA. Enfim, não havia ainda um método que classificasse os resultados de uma busca levando em conta o ''prestígio'' ou ''autoridade'' de um determinado site. E mais, o problema não parecia ter uma resposta trivial. No passado, alguns mecanismos, como o Magellan (e depois, Excite, Yahoo!, entre outros) , já haviam tentado resolver o problema contratando editores de conteúdo para avaliar manualmente a ''qualidade'' de cada nova página que encontravam, em um método tipo ''Guia Michelin'' (sites importantes valeriam 4 ''estrelas'', sites novos, zero ''estrela'', e assim por diante) -- e falharam terrivelmente ao perceberem que ''prestígio'' é um conceito bem mais dinâmico do que pensavam -- um site de nenhuma importância hoje poderia rapidamente se tornar uma referência na internet ou vice-versa.

Backlinks? - Depois daquele primeiro encontro em Stanford, Sergey e Larry voltaram a prancheta e, à distância (um em Michigan e o outro na Califórnia), desenvolveram em um ano o primeiro protótipo do que seria 3 anos mais tarde o Google. Se chamava ''BackRub'' e se propunha a resolver o ''problema do prestígio'', introduzindo um conceito chave relativamente simples chamado medida de ''backlink''. Um backlink nada mais é do que um link hipertexto ligando alguma página de outro site à página examinada, citando-a como a referência. Uma medida de backlink é calculada, então, somando-se todos esses links de fora pra dentro, ou seja, todas as citações. A hipótese era que uma página que tivesse mais backlinks do que outra, por ter mais referências, provavelmente teria mais prestígio ou autoridade e portanto deveria aparecer primeiro no ranking dos resultados. Voltando ao nosso exemplo anterior, se eu agora digitasse as palavras-chave ''biblioteca EUA'', desta vez a Biblioteca do Congresso Americano apareceria antes da outra biblioteca da escola primária, já que o número de páginas que se refere a primeira (i.e., sua medida de backlink) seria provavelmente maior do que aquelas que se referem à segunda.

Bem, essa foi só a idéia inicial. A coisa foi ganhando mais sofisticação com o tempo. Por exemplo, para uma determinada página, será que um backlink do site do Zezinho (nada contra o Zezinho) deveria ter o mesmo peso de um backlink do site da ONU? Dá pra notar que o método é recursivo: a indicação de alguém de prestígio vale mais do que a de alguém que ninguém conhece, e assim por diante. Eventualmente, a idéia dos backlinks se transformou em um algoritmo bem complicadinho chamado ''Page Rank'' (um trocadilho com Larry Page, co-autor junto com Sergey). É interessante saber que o artigo original é público e pode ser consultado em citeseer.nj.nec.com/brin98anatomy.html.

Capturar a web inteira? - Apesar do método de ''Page Rank'', apresentar res ultados promissores logo de cara, ainda restava o imenso desafio de capturar uma parte da web que fosse grande o suficiente para ser útil a alguém. Em 1997, estimava-se que a web deveria ter pelo menos uns 10 terabytes de informação, crescendo exponencialmente a cada ano (hoje estima-se que o número esteja próximo de 30 terabytes). Mesmo que alguém conseguisse capturar isso tudo, seria provável que ao final do processo a maior parte das páginas já capturadas estivesse completamente desatualizada! Portanto, além de um grande número de máquinas atuando em conjunto (para atingir um volume aceitável), seria necessário estabelecer um critério para selecionar quais sites deveriam ser revisitados com maior freqüência.

Por todos esses problemas, era de se esperar que construir um ''capturador de páginas'' (web crawler, em inglês) dessa escala não fosse das tarefas mais fáceis. Até hoje, é um mistério saber qual das ferramentas de busca possui a maior fatia da web. Cada um se diz o líder: Inktomi, NorthernLight, Altavista, Internet Archive (Alexa) e o próprio Google. Seja lá qual for, sabe-se hoje (através de algumas medições por amostragem) que todos devem possuir mais ou menos o mesmo número de páginas capturadas. A diferença principal está mesmo no processo de seleção de novas páginas e na freqüência de visitação de páginas antigas. E, nesses critérios, estima-se que os capturadores do Google e da Alexa estejam hoje mais avançados que os outros.

No caso do Google, a solução elaborada se baseia em visitar com maior freqüência e profundidade as páginas de maior ''page rank''. Pra ilustrar, voltando novamente ao exemplo das bibliotecas, deduzimos que o site da Biblioteca do Congresso Americano é visitado muito mais vezes do que o da biblioteca da escola primária. Como esses sites mais visitados são também os de ''maior prestígio'', é por isso que as primeiras páginas que aparecem nos resultados de uma busca parecem estar sempre atualizadas. Engenhoso, não?

Como ganhar dinheiro? - Em agosto de 1998, depois de demonstrarem com sucesso o primeiro protótipo do BackRub a amigos e pequenos investidores, Sergey e Larry conseguiram levantar 1 milhão de dólares e, alguns meses depois, rebatizaram o mecanismo para Google, botando no ar uma versão Beta.

Mas se projetar e desenvolver uma ferramenta de busca engenhosa e que aguentasse 10 terabytes já era uma tarefa difícil, viabilizar o projeto a longo prazo parecia ser ainda mais difícil. Pra começar, teriam que convencer investidores que poderiam conquistar popularidade competindo com marcas já estabelecidas. Na verdade, o primeiro impulso foi tentar vender a ferramenta pra uma dos concorrentes. Ainda em 1997, quando ofereceram o Google a um desses sites de busca, ouviram um executivo rejeitá-los sem maiores considerações: ''Por que vou botar no meu site uma ferramenta para as pessoas acharem algo mais rápido se meus clientes (leia-se, os anunciantes) me pagam por excesso de cliques e não por busca!?'' Para esses anunciantes, a internet era um mundo de page views e ''quanto mais cliques melhor''. O plano de uma ferramenta de busca que fosse mais simples e rápida de usar a princípio não agradava muito. Até mesmo David Filo, também ex-aluno de Stanford, co-fundador do Yahoo!, e atual cliente do Google falava: ''Façam um site, provem sua idéia a um número grande de usuários e depois voltem para a gente conversar novamente''.

Foi exatamente o que fizeram. Em meados de 1998, ainda em fase Beta, o Google já contabilizava 10000 buscas/mês. Em 1999, esse número já chegava a 500000 buscas/mês e o site era eleito por várias revistas especializadas como o melhor serviço de busca da internet. Com tanta enchida de bola e adoradores se multiplicando pelo mundo inteiro, os investidores pareciam estar mais amigáveis...

Restava um ''pequeno'' problema, entretanto: com tanto concorrente competindo pelo mesmo mercado publicitário de banners, será que esse modelo de negócio seria uma alternativa viável? Tanto naquela época como hoje, mecanismos de busca têm basicamente duas formas de ganhar dinheiro. A primeira é com propaganda (na maior parte das vezes, em forma de banners) e a segunda, vendendo a ferramenta para outros sites de busca ou portais de informação, evitando assim a concorrência direta pela mesma fatia do bolo publicitário. Os donos do Google optaram pela segunda. O negócio, a princípio, somente se pagaria com acordos B2B, com clientes tipo Washington Post ou qualquer empresa que oferecesse busca em seus sites. Melhor para os usuários comuns, que não teriam que lidar com banners no site principal e poderiam utilizar uma interface tão simples e amigável que seria impossível não gostar.

Vinte e cinco milhões de dólares mais tarde (financiados por grandes firmas de capital de risco, como a Sequoia Investments do notório ''durão'' Joe Doerr), e com acordos com o Yahoo! (David Filo cumpriu a promessa de conversar novamente e fechou contrato, tornando a busca do Google o mecanismo padrão do Yahoo!), Washington Post, entre outros, o mecanismo de busca do Google hoje reina soberano nesse mercado, empurrando concorrentes como o Inktomi e Altavista cada vez mais para o limbo.

Com a adição de múltiplos idiomas e capturadores especializados por região geográfica, o Google hoje conquista mercados até mesmo aqui no Brasil, para a infelicidade de concorrentes tupiniquins como o Radix, o TodoBr etc

''Informads'', busca por imagens, etc - Mas as novidades não pararam aí. Buscando diversificar sua receita, em meados de 2000, o Google iniciou o serviço de anúncios de texto em seu site principal. Para quem nunca viu, um anúncio de texto (ou ''informad'') no Google é um parágrafo de umas 20 palavras que aparece destacado ao lado dos resultados de busca, em uma coluna à parte. Para testar a receptividade dos usuários à idéia e saber se isso traria retorno de investimento aos anunciantes, contrataram nada mais nada menos do que Jakob Nielsen, o todo poderoso expert em usabilidade (ver www.useit.com) , para conduzir testes e entrevistas com usuários. Os resultados foram estimulantes: as pessoas se interessam e clicam mais em informads do que em banners comuns. Explica-se: como informads só aparecem quando existe uma relação direta entre o conteúdo buscado e o conteúdo do anúncio, o usuário implicitamente associa o contexto dos dois tipos de informação, o que gera interesse e conseqüentemente mais cliques.

Outra novidade recente é a adição de busca por imagens. Muitos já perguntaram intrigadíssimos como funciona isso, mas o conceito básico até que é simples. Uma imagem normalmente vem com sua descrição no texto próximo a dela, ou no texto de links que a citem. Por exemplo, se toda a vez que alguém procurar por carro, mostrarmos as imagens associadas a esse contexto, provavelmente essas imagens serão de carro também. O método está longe de ser infalível, mas é um tanto ou quanto pioneiro no mundo comercial também. Até então, buscas por imagens na web só se baseavam nas legendas e nas URLs das imagens para associar as palavras-chave (vide Radix). Como se baseia em mais pistas para determinar as associações entre texto e imagem, o método do Google é comprovadamente mais eficaz, embora seja bem mais caro de implementar.

O que vem por aí? - Antes que todo mundo saia por aí falando que esse artigo parece um ''informad'' do Google, que o mecanismo não é essas maravilhas todas, saibam que eu também tenho as minhas queixas. Para tipos de informação altamente perecíveis e sensíveis ao tempo, como notícias, o método de backlinks simplesmente não funciona bem. Nestes casos, a dimensão do tempo é quase tão importante quanto a do conteúdo. O problema é que uma notícia que é muito apontada pelas outras tende a ser também mais antiga e, logo, não tão valiosa. Curiosamente, para notícias, o mecanismo de backlinks não é um bom indicador de relevância!

Outra queixa comum contra o Google diz respeito a utilidade de seu diretório de sites, o Open Source Directory, incorporado através de um acordo entre a AOL/Netscape e o Google, em 1999. Muitos questionam a qualidade do diretório, que não é nem tão abrangente nem tão atualizado assim, especialmente em lugares fora dos EUA. Além do mais, se o Yahoo! já usa Google pra classificar os resultados em seu diretório, por que alguém iria usar o Open Source? Pessoalmente, algumas vezes tentei cadastrar páginas lá sem sucesso. De que adianta?

Mas enfim, essas são só pequenas queixas. Só de pensar em buscar alguma informação na web hoje sem o Google, já fico de mau-humor. E ter que agüentar aqueles banners inúteis e janelas pop-up se abrindo com propagandas irritantes? E um montão de resultados inúteis que eu tenho que ficar horas pra digerir? Não, não, salvem Larry e Sergey!


Lúcio Tinoco (contato@lexicality.com) é CEO da Lexicality Ltda (www.lexicality.com), empresa de consultoria especializada na aplicação de tecnologia para gestão do conhecimento e inteligência de negócios.


[07/FEV/2002]
http://jbonline.terra.com.br/

[ Next Thread | Previous Thread | Next Message | Previous Message ]


Forum timezone: GMT-4
VF Version: 3.00b, ConfDB:
Before posting please read our privacy policy.
VoyForums(tm) is a Free Service from Voyager Info-Systems.
Copyright © 1998-2019 Voyager Info-Systems. All Rights Reserved.