27 julho 2006

Sistemas com inteligência artificial abastecem buscadores

Por Juliano Barreto
em Folha Online
19 julho 2006

Nem todo mundo sabe, mas o sistema buscador de páginas mais popular da internet é alimentado por um robô. Trata-se do Googlebot, um código especial que varre o mundo virtual visitando sites e colhendo informações sobre eles.

O bot do Google não é o único nem o primeiro a realizar tal tarefa. Desde os primeiros sites de busca, esse tipo de mecanismo, que também é chamado de spider (aranha) e de crawler (rastejador), ajudou a criar um guia da rede mundial. Hoje, a técnica ganhou sofisticação e precisão. Portais de notícias contam com robôs que procuram e selecionam conteúdo de milhares de fontes diferentes.


TRABALHO PESADO

Quando você consulta algum tema no Google, ou em qualquer outro serviço do gênero, o sistema de buscas não visita site por site procurando a informação desejada. O buscador conta com um índice com títulos, resumos e palavras-chave que definem cada endereço, e quem escreve tal lista é um bot.

No caso do Google, o robô visita uma página e segue todos os seus links. Dessa forma, de maneira progressiva e cumulativa, os sites que são indicados por mais links ganham posições e são mostrados para os usuários no topo da lista de resultados. Para ter uma idéia da complexidade desse trabalho, basta imaginar que existem mais de 10 bilhões de documentos on-line e que cada um deles possui dezenas de links.

Outra tarefa dos bots é atualizar os índices com novidades. Para tanto, é feita uma varredura mais freqüente em uma seleção de endereços cujo conteúdo muda mais rápido, como sites informativos. Portais noticiosos também podem ser administrados por robôs. Os serviços que fazem as vezes de editor-chefe são realizados automaticamente e sem a interferência de humanos.

Os bots usam critérios como o número de visitas que uma notícia recebeu, quantos portais deram destaque para esse conteúdo e quais são os interesses do internauta cadastrado. A seleção de informações tem grande riqueza de fontes.

O MSNBC Newsbot tem 4.800 fontes e o Google News tem cerca de 4.500. Ambos são em inglês.


XERETA

Nem tudo é perfeito no mundo dos robôs de buscas. A eficiência desses mecanismos às vezes é tanta que, muitas vezes, conteúdos de sites pagos ou de acesso restrito vão parar na tela principal de um site de buscas.

Para evitar isso, os donos de sites precisam incluir um código especial com instruções para os robôs. Quem quiser manter sua página fora do alcance do Google pode aprender como fazê-lo em www.google.com/intl/pt-BR/webmasters/bot.html