Powerset; Sistema de Busca Natural da Língua

Powerset é uma empresa sediada no Vale do Silício que possui uma incubadora de projetos direcionados à busca pela Web. Nada demais, considerando-se que nos últimos anos, depois do advento Google, surgiram vários sites voltados ao mercado da pesquisa. Mas o Powerset tem como promessa uma revolucionária forma de fazer pesquisa na internet, por um meio ainda desconhecido dos usuários web. A empresa tem sido objeto de intensa especulação, no estrito dizer do hype, devido à inovação que se pretende revelar e à inviabilidade do acesso, visualização ou experiência com o projeto que por ora se encontra em desenvolvimento.

Inovações:

Ele, o Powerset, segundo informações que encontramos na web, traria como inovação a busca direcionada à linguagem natural, segundo um processamento de dados com base na estrutura semântica da língua, determinada pela valoração das palavras contextualizadas dentro do enunciado. Segue o princípio de que as palavras encontram-se interligadas e não possuem significados apenas em si mesmas, mas na sua relação entre as outras que compõem o enunciado.

O que se pretende é um melhor, (não perfeito, visto ser impossível), reconhecimento pelo motor de busca da nuances da linguagem humana, a natural. Ao possibilitar tal engenhosidade teríamos a inteligência artificial do sistema de indexação de modo que uma busca natural se daria de forma intuitiva, em que ela não apenas montasse resultados segundo palavras chaves, mas reconheceria a intenção do usuário ao digitar seu enunciado, oferecendo resultados relevantes, uma verdade real dos resultados, determinado pela busca.

O sistema:

Em sua maioria, os sites de busca são indexadores de conteúdo, o que significa que eles não fazem uma busca nos documentos no momento em que um usuário a realiza; eles montam seus resultados segundo uma complexa cadeia de parâmetros muitas vezes desconhecido do público, sendo que, nessa indexação, eles amoldam os dados processado ao se fazer uma varreduras na documentação dos websites de modo que conferem relevância aos resultados oferecidos. A estrutura dos resultados é referendada segundo uma predeterminação do que é indexado dos documentos a partir da ligação contextual das palavras que ali se encontram, (no todo do documento).

Com o desenvolvimento da tecnologia no campo da busca, os sistemas passaram a interpretar melhor estas ligações. Um dessas inovações são os operadores que determinam a busca segundo uma estrutura ordenada de fatores, como o “E” e “OU”, entre outros parâmetros. Ainda, nesses motores, há uma forma de interpretar as palavras pretendidas de modo que certos termos da língua perdem o seu valor semântico quanto à sua necessidade ao determinar os resultados; a eles damos os nomes de StopWords, em contrapartida das KeyWords (palavras-chave). Palavras como “por”, “em”, “com” e “de” são consideradas irrelevantes para estes motores, de modo que ao pesquisar por “Garota de Ipanema”, ele apenas reconhecerá as palavras chaves Garota + Ipanema, determinando a busca por elas.

Temos em mente que estes termos são determinantes na tradução da linguagem para o falante de uma língua. A exemplo disso, sabemos que “Livro de Criança” não é o mesmo que “Livro para Criança” ou “Livro da Criança”. Os sistemas de busca atuais interpretariam, a princípio, como simplesmente “Livro Criança”. Recorrendo aos seus dados indexados, fariam uma busca das palavras e montariam os resultados. Quando um sistema de busca passasse a entender os significados de todas as palavras dentro do enunciado, ele segmentaria o conteúdo à informação contida na sua estrutura, com uma interpretação mais próxima do seu real significado; os resultados seriam, portanto, mais direcionados à verdade real da busca. Um sistema de natural da linguagem possibilitaria uma interação tal com o usuário, que daria a esta relação uma experiência singular que os motores de busca não oferecem hoje em dia.

Conclusão:

E se os sistemas de busca não apenas reconhecessem as palavras que usamos para fazer uma pesquisa, mas dessem a elas um significado, ou melhor, as traduzissem de modo que pudessem nos responder de forma satisfatória. Assim, se colocássemos nos campo de busca “Filmes produzidos no Brasil” o sistemas não apenas nos daria resultados de textos com o enunciado elucidado (Filmes Produzidos Brasil), mas nos responderia de forma intuitiva com resultados relevantes e links diretos às páginas que geraram as respostas.
Aqui teríamos que repensar técnicas na escolha das palavras ao redigir nossos textos, sendo que títulos de artigos como “Como se faz”, “O que é” entre tantos outras não teriam tanta primazia no PowerSet quanto o é nos sistemas não naturais.

Em um dos primeiros screenshtos do Powerset, temos um exemplo um tanto esclarecedor da usabilidade nas buscas. Ao se pesquisar por “politicians who died in a office?”, “Políticos que morreram no escritório?”, recebemos resultados que demonstram o poder da busca pela linguagem natural, entre eles temos “candidate, Michael Carr, died after just 57 days in office”; o que temos no resultados não é apenas palavras-chave, mas uma resposta uma resposta ao enunciado, uma interpretação estrutural do vocabulário, a conjugação, a gramática, o significado da pergunta e uma resposta sincera, reconhecidos numa semântica contextual.

Textos de Apoio:

  1. Barney Pell’s Blog – CEO
  2. Steve Newcomb’s Blog – COO
  3. Lorenzo Thione’s Blog – Product Architect
  4. Powerset Blog
  5. Techcrunch
  6. Fotos oficiais do Powerset – Flickr

Abraços!

Ps.: Aberto a observações e críticas!

Palavras Deste Artigo:

  • powerset busca
  • site de busca power set
Pesquise no Site

WWW.

5 respostas a Powerset; Sistema de Busca Natural da Língua

  1. Diego Matias disse:

    Cara, li o feed e vim correndo comentar! Parece que eles conseguiram explorar com exatidão uma “exceção” do Google. Isso ainda vai render uma boa grana pra esses caras. Já consigo imaginar quem vai comprar… Excelente post!

    Abraço, Calebe!

  2. Claudia disse:

    Achei bem legal post!
    Falando em semantica, vale a pena dá uma olhada nesse link!

    http://www.cortex-intelligence.com

  3. Pingback: PowerSet: para que haja uma bolha, é necessária uma tensão » Gattune!

  4. João Brasil Gomes Fonseca disse:

    Interessante! Parece-nos que a lógica contextual sintática adotada reduzirá a dispersão e as pequisas se tornarão mais focalizadas dentro da perspectiva do autor.

  5. Pingback: Os Mais Ricos em Tecnologia segundo a Forbes

Deixe um Comentário

O seu endereço de email não será publicado Campos obrigatórios são marcados *

*

Você pode usar estas tags e atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>