Powerset é uma empresa sediada no Vale do Silício com projetos relacionados à busca pela web.
Você pode pensar “ai não, mais uma acando que vai virar o novo Google!”, mas a proposta do Powerset é realmente diferente e bacana. “Proposta” em negrito, já que quando uma idéia é boa, não necessariamente o serviço também é.
A promessa do Powerset, que vem virando hype desde o meio do ano passado, é tirar uma parte do mercado do Google com seu revolucionário sistema de busca que aplica conceitos da web semântica.
Qual é a inovação?
Por exemplo, os mecanismo como Google desconsideram certas palavras, como preposições: de, por, com, em, etc. Ou seja, pesquisar “jantar para família”, “jantar em família”, “jantar da família”, tem absolutamente o mesmo significado para os mecanismos de buscas utilizados hoje. Ele apenas utilizará as palavras jantar + família e realizará uma busca relevante de acordo com esses termos.
Com o Powerset, em teoria, você pode fazer perguntar específicas, que serão interpretadas de acordo com a linguagem natural do usuário, com as palavras sendo interpretadas dentro de um contexto. A idéia é de que palavras isoladas não significam absolutamente nada, mas com outros termos, sinônimos e estruturados em uma sentença, podem trazem a resposta exata e mais próxima da realidade.
Agora, depois de toda a teoria, vamos comparar.
Busca no Google para a frase “Who is Adam Smith?”
Busca no Powerset para a frase “Who is Adam Smith?”
Notam as abas “Politician”, “defender”, “foward”, “Kentucky politician” e “ice hockey”? Cada uma fala a respeito de um Adam Smith diferente, já trazendo uma descrição do camarada e uma foto.
Ok, essa foi fácil. Agora vamos forçar a barra um pouco mais.
Busca no Google para a frase “famous people who died in 2005”
Busca no Powerset para a frase “famous people who died in 2005”
Perceberam a enooorme diferença? O Powerset me trouxe exatamente o que eu queria saber. Batendo o olho eu já sei da lista de veteranos da primeira guerra que morreram em 2005, do Charles Martin, Martin Lings, etc.
Conclusões
O Powerset só indexa, até agora, artigos da Wikipedia. Ou seja, o desafio é trabalhar com uma grande quantidade de dados e manter a boa relevância.
Nessa fase inicial, o Powerset ainda me lembra um pouco o Mahalo, que refina sua busca utilizando pessoas que passam o dia filtrando os resultados. Até hoje o Mahalo não parece ter decolado.
Como avisei no começo, a idéia é ótima, o site já está no ar e mostrando na prática como se dá o conceito, mas os desenvolvedores ainda vão ter um bom trabalho antes do Powerset conseguir tomar mercado do Google.
Opa cara, tudo bom?
Vou ter que discordar de alguns pontos que você falou no post:
“os mecanismo como Google desconsideram certas palavras, como preposições: de, por, com, em, etc. Ou seja, pesquisar “jantar para família”, “jantar em família”, “jantar da família”, tem absolutamente o mesmo significado para os mecanismos de buscas utilizados hoje.”
Não tenho certeza quanto aos outros grandes buscadores mas o Google já utiliza (indexa) stopwords (de,por,com e afins) faz um bom tempo. Os exemplos que você deu (jantar .. famíla) retornam resultados diferentes. As vezes até bem diferentes.
Antes de tudo, é um pouco desleal comparar o Powerset que indexa só a Wikipedia em Inglês com o Google indexando tudo. Por isso, testando aqui, eu coloquei “site:en.wikipedia.org” antes das consultas no Google.
Na consulta por “Adam Smith”, aquele monte de informações extras no topo são retiradas da base estruturada do Freebase, ou seja, não tem nada a ver com processamento de linguagem natural (ainda).
Na consulta por “famous people who died in 2005”, mesmo fazendo uma consulta no google só dentro do site da wikipedia, os resultados não são muito interessantes. Talvez pelo fato de a consulta estar um pouco com suja com muitas palavras-chave. Se você procurar por apenas “died in 2005” (sem aspas) vai ter resultados semelhantes ao do Powerset.
Fazer uma consulta no estilo de linguagem natural para o google é um pouco desleal também, apesar de ele não reclamar, o ideal é fazer a consulta estilo palavras-chave mesmo.
É isso!
Abraço!
Olá Felipe!
Eu não chamaria nada de desleal. É somente uma comparação.
“Antes de tudo, é um pouco desleal comparar o Powerset que indexa só a Wikipedia em Inglês com o Google indexando tudo.”
Exatamente por isso que eu disse no fim do artgo que o Powerset ainda parece mais um protótipo e será um desafio trabalhar assim com um volume maior de informações.
“Na consulta por “famous people who died in 2005″, mesmo fazendo uma consulta no google só dentro do site da wikipedia, os resultados não são muito interessantes. Talvez pelo fato de a consulta estar um pouco com suja com muitas palavras-chave. Se você procurar por apenas “died in 2005″ (sem aspas) vai ter resultados semelhantes ao do Powerset.”
Ora, mas é exatamente o que estou querendo mostrar. Com o Powerset, em teoria, você não precisa ficar tentando adivinhar qual a melhor maneira de fazer uma busca e quais palavras-chave você deve digitar. A proposta do Powerset é justamente entender o que você está querendo dizer.
Quanto ao Google reconhecer stopwords, você tem razão, my mistake 🙂
Tudo bem, só quis explicar que na verdade o Google tem um outro “paradigma” de consultas, então é meio chato comparar diretamente a mesma consulta entre os dois. De qualquer forma, a comparação é válida.
Eu ainda não botei muita fé nesse Powerset, quero ver se eles conseguem escalar bem. Só o tempo dirá.
Valeu pela resposta!
Abraço!