Resultados de Pesquisa

.

29 de julho de 2008

Ele quer desbancar o Google

Barney Pell, CEO da Powerset, aposta na busca semântica para dominar o mercado de buscas na internet

Divulgação

Pell, da Powerset: aliado da Microsoft na guerra dos buscadores

Por Denise Dweck

EXAME Nesta semana foi lançado um novo site de buscas, o Cuil, criado por ex-funcionários do Google. Com uma ferramenta capaz de indexar mais de 120 bilhões de páginas na internet, o site pretende ser uma alternativa ao Google. Na trilha do Cuil, há uma série de empresas dispostas a desbancar o site que domina as buscas na internet. Uma das mais promissoras é a americana Powerset, vendida à Microsoft no início de julho. Ela aposta numa tecnologia diferente da usada atualmente: a busca semântica, que entende o significado dos textos e responde perguntas, no lugar de simples palavras-chave. Lançada em maio deste ano, a ferramenta da Powerset ainda está restrita aos sites da Wikipedia e da Freebase, mas o CEO da empresa, Barney Pell, diz que em três a cinco anos haverá sistemas de busca semântica varrendo toda a internet. E, segundo ele, o mercado verá mudanças.“Assim como o cenário será diferente, também haverá um balanço de poder e de lideranças diferente no mercado de buscas”, diz Pell. “A combinação da Powerset com a Microsoft é um divisor de águas no cenário de busca”. Preparando-se para vir a São Paulo, onde participará do Search Marketing Expo, em agosto, Pell falou a EXAME.

Qual a diferença da busca semântica para os sistemas de busca que usamos hoje, como o do Google? Por semântico, queremos dizer que o sistema tem algum entendimento sobre o significado do que se busca. Não é só uma exploração das palavras e dos caracteres. Esse significado pode ser de um documento, de uma página, de um anúncio, do contexto do anúncio ou da busca. Os sistemas de busca de hoje entendem os documentos como uma série de palavras-chave. Quando os usuários vão fazer uma busca, eles têm de focar em usar apenas essas palavras. Já nos sistemas que trabalham com significado, os usuários, ao invés de digitarem apenas palavras-chave, vão poder digitar uma pergunta, uma expressão ou uma palavra na forma coloquial para fazerem suas buscas. Usa-se a linguagem natural.

Será possível adicionar o significado de um texto ou o sistema vai captá-lo sozinho? Os sistemas serão capazes de ler os textos e captar o significado automaticamente. Mas também haverá ferramentas que vão dizer que significados o sistema entendeu de cada página. Aí o redator vai poder reescrever o texto se preferir dar outro sentido. A Search Engine Optimization (SEO, o sistema que permite às empresas gerenciarem como seus links aparecem em sites de buscas) vai se transformar numa otimização semântica. Claro que a necessidade e o desejo de fazer o link de sua página ficar mais bem posicionado entre os resultados de uma busca também vai continuar. Mas as ferramentas para se conseguir esse posicionamento vão ficar mais amigáveis. Elas vão ser baseadas em significado, e não em algoritmos.

Como a busca semântica pode mudar o cenário de busca atual? Uma das principais mudanças é a eficiência. Entre um terço e metade das buscas feitas hoje não são respondidas na primeira tentativa. Há dados que apontam que quando o usuário não consegue encontrar o que quer é porque houve uma má combinação lingüística. O usuário não sabia expressar de forma que a ferramenta de busca compreendesse. Isso vai mudar. Os usuários vão poder expressar o que querem com uma linguagem natural. Também esperamos ter resultados mais relevantes para os usuários, de forma mais rápida.

A ferramenta da Powerset faz a busca semântica apenas nos sites da Wikipedia e da Freebase. Quando haverá um sistema de busca semântica capaz de varrer todos os sites da internet? As ferramentas de busca semântica disponíveis hoje são restritas a alguns tipos de documentos, porém já tiveram um bom avanço. Até pouco tempo, essa tecnologia estava sendo usada em cerca de 10.000 artigos. Hoje, na Wikipedia, já aplicamos a tecnologia em quase 3 milhões de artigos. Há empresas que já aplicam a busca semântica em boa parte da internet, como a Hakia. Mas o trabalho deles se foca em palavras e sinônimos. A nossa ferramenta faz isso também, mas ainda analisa o texto profundamente, para extrair seu verdadeiro significado, não só o das palavras. É uma operação mais complexa, que exige mais computadores para fazê-la. Sendo conservador, teremos uma ferramenta mais completa varrendo todas as páginas da internet em três a cinco anos. A parte mais difícil para ampliar esse alcance já foi obtida.

Quais foram as barreiras para chegar a esse estágio de alcance? Houve muito trabalho para descobrir como pegar a tecnologia de linguagem natural dos laboratórios de pesquisa e colocá-la para funcionar em várias máquinas, de forma confiável, e para fazer os algoritmos rodarem mais rápido.

Há outras barreiras para a expansão desse tipo de busca, além do trabalho computacional? Há algumas coisas que precisam ser feitas. Uma delas é a disponibilização da busca semântica em várias línguas. Já há sistemas bem amadurecidos para línguas como inglês, japonês, francês e alemão. Mas há línguas que ainda precisam ser trabalhadas, como o português e o espanhol, para que a ferramenta possa ser aplicada na internet brasileira e na espanhola. Vamos ver esses sistemas ganharem escala de alcance em algumas línguas antes de outras até ganhar escala mundial. A busca por palavra-chave, por não entender direito o que diz o artigo, funciona quase em todas as línguas. O sistema que funciona em inglês é muito parecido com o de português. Já o sistema de busca semântica, de linguagem natural, tem de entender como a língua funciona. Isso remete à forma como o sistema opera.

Como o sistema de busca semântica funciona na prática? Como se aprende na escola, cada língua tem uma gramática, que é a forma como as frases são construídas com pequenas partes, como substantivos, verbos e adjetivos. Cada língua tem uma série de regras distintas. Para a abordagem da Powerset, uma abordagem lingüística, tivemos de ensinar o computador como é a estrutura da língua. No caso, a língua inglesa. Ensinamos ao sistema que para fazer uma frase em inglês geralmente há um sujeito, um verbo e um predicado, com os objetos diretos ou indiretos. E nós fizemos uma lista de todas as palavras da língua, uma espécie de dicionário, que define as palavras e como elas se conectam com as regras da gramática, o que é substantivo, adjetivo, verbo, etc.

Quanto tempo levou para criar a ferramenta da Powerset? A tecnologia da Powerset foi originalmente desenvolvida na Xerox Parc (Palo Alto Research Center, uma subsidiária de pesquisa da Xerox). As primeiras pesquisas de tecnologias que entendessem linguagem natural começaram em 1972. Nesse meio tempo, os computadores ficaram mais rápidos, a internet apareceu trazendo uma quantidade enorme de novos dados para o sistema ser melhorado e testado e surgiram as aplicações comerciais de busca, aumentando a necessidade de se melhorar a forma de processar o conteúdo. Junto com o progresso na tecnologia, essas mudanças permitiram que a ferramenta pudesse ser aberta para uso geral. Em 2005, a Powerset foi criada e licenciou a tecnologia da Parc. A partir daí tivemos de fazê-la funcionar para busca em larga escala. Isso foi feito em três anos. Em maio lançamos nosso primeiro produto, que varre a Wikipedia. Em junho, lançamos uma versão para o iPhone.

A busca na internet móvel será diferente com as ferramentas semânticas? Sim. Os aparelhos móveis trazem uma série de desafios diferentes. A tela é pequena e há limitações para inserir informações na busca. Quando você tem vários resultados, tem de esperar eles baixarem e perde-se tempo descendo a página para encontrar o melhor. O processo é frustrante. No celular, é melhor conseguir encontrar a resposta mais próxima do que se deseja, mesmo que haja menos resultados. E essa é uma das mudanças. A tecnologia semântica consegue apresentar os resultados de forma melhor, seja na ordem dos resultados, seja no texto. Os sistemas podem ler o artigo antes para sublinhar partes importantes e fazer um sumário. Isso já colocamos na ferramenta para o iPhone. Ele marca as partes principais do artigo e você pode clicar e chegar direto à informação que quer. A busca semântica é a melhor forma de fazer busca nos aparelhos móveis.

O que pode mudar em termos de anúncios com a busca semântica? Ao invés de tentar pensar nas palavras específicas que os usuários vão colocar na ferramenta, no preço delas e tentar comprar todas, o anunciante vai poder dizer apenas o que ele tem a oferecer e a intenção que espera do consumidor. Por exemplo, se ele vende câmeras digitais, vai dizer que tem a maior variedade de câmeras com o menor preço do mercado. O anunciante vai comprar essas intenções. A infra-estrutura básica que temos hoje, com anúncios de texto, links patrocinados, pagamento por clique ou só patrocínio, vai continuar a existir. A grande diferença é que a combinação do que o anunciante oferece e o que o usuário expressa que quer, vai ter uma dimensão semântica. Os anunciantes vão chegar aos usuários de forma mais eficiente em termos de custo e os usuários vão achar anúncios mais relevantes.

Por que você decidiu vender a Powerset para a Microsoft? Não foi uma decisão só minha. Foi de toda a empresa. A Powerset tem pessoas e tecnologia fantásticas. E o que queremos fazer é gerar um impacto no mundo o mais rápido possível. Para chegarmos a esse nível, de levar a tecnologia à web mundial, precisamos fazer investimentos substanciais em maquinário e também precisamos melhorar outros aspectos comuns da busca, que grandes empresas como a Microsoft já construíram no Live Search. Nós teríamos de fazer isso por nós mesmos ou fazer uma parceria para integrar essa tecnologia. Decidimos pela parceria para levar nossa capacidade para o mundo rapidamente.

A busca semântica será o trunfo da Microsoft para ganhar a disputa com o Google pelas ferramentas de busca? A ferramenta da Powerset aponta para o futuro da busca. A busca semântica é a maior transformação que está no horizonte para busca. Ela é melhor para os usuários, para os anunciantes e para os produtores de conteúdo. Esse será o futuro da batalha para inovação em buscas. A busca semântica se tornará um recurso exigido pelos usuários. Com a parceria entre a Microsoft e a Powerset, teremos a capacidade de busca semântica mais poderosa que o mundo já viu.

Um website dessa parceria poderia tomar o lugar de Google como o principal site para busca na internet? Seja com um site novo ou o existente Live Search, vamos ver que as ferramentas de busca daqui a cinco anos vão trazer um cenário diferente. Assim como o cenário será diferente, também haverá um balanço de poder e de lideranças diferente no mercado de busca. Olhando a nossa tecnologia, vejo que vamos ter um período muito estimulante nos próximos cinco anos. A combinação da Powerset com a Microsoft é um divisor de águas no cenário de busca. O que você vê com a ferramenta da Powerset é só o início. As buscas vão evoluir para uma espécie de diálogo. Os sistemas vão poder fazer um diálogo com os usuários quando não encontrarem o que a pessoa está buscando. Se estiver errado, por exemplo, ele vai poder fazer mudanças na pergunta para a pessoa escolher o que quer. Já definimos o padrão do futuro da experiência de busca. Agora é uma questão de expandi-la para toda a internet.

http://portalexame.abril.com.br/tecnologia/m0165028.html

Nenhum comentário: