FuturePower Probase je projekt Microsoft Research-a opisan kao “tekući projekt koji je usmjeren na stjecanje znanja i posluživanje znanja”. Njegov primarni cilj je da se “omogući strojevima da razumiju ljudsko ponašanje i ljudsku komunikaciju.” Može se uporediti sa Cyc, DBpedia ili Freebase u smislu da pokušava sastaviti masivnu kolekciju strukturiranih podataka koji se mogu koristiti za input aplikacija umjetne inteligencije.

Iza projekta Probase stoji nova graph baza podataka pod nazivom Trinity, koja je također projekt Microsoft Research-a. Ni jedan ni drugi projekt nisu još uvijek dostupni za javnosti.

Ovi a i ostali projekti bacaju svijetlo na Microsoft-ove velike ambicije u pravcu pretraživanja i podataka.

Probase

Na sajtu projekta se tvrdi da je Probase bogatija od ostalih ontološko/taksonomskih baza znanja poput gore navedenih, jer strukturira podatake u skladu sa tri dimenzije: koncept, podaci i odnos dimenzija. Njegov pojam koncepta sadrži oko 2,7 milijuna koncepata. Prema Probase sajtu, Freebase sadrži 1450 koncepata DBPedia sadrži 259 i ResearchCyc sadrži oko 120.000.

probase_illustration_0311

Jedan od najvažnijih elemenata projekta Probase je da ne smatra podatke koje sadrži, kao činjenice. Podaci u Probase, su kao znanja u našem umu, nisu crna niti bijela. Probase kvantificira neizvjesnost,

navodi se na stranici projekta.

Evo još šireg objašnjenja:

Probase ima veliki prostor za podatke. Kao primjer, Cyc sadrži oko dvadesetak slikara, dok Probase ima blizu 1.000 sortiranih po popularnosti. Važnost razmjera podataka postaje sve očitiji za pojmove koji se rjeđe koriste, ili koncepte long tail. Uzmimo koncept Kineske provincije kao primjer, Cyc ne sadrži kompletan popis Kineskih provincija, dok Probase ima sve provincije i to poredane po popularnosti. Razlog da Probase je u stanju akumulirati veliku količinu podataka zbog svoje probabilističke prirode. Mi ne smatramo podatke u Probase-u kao činjenice, umjesto toga, mi ih smatramo tvrdnjama ili vjerovanjima povezanim sa vjerojatnostima modeliranje njihove vjerodostojnosti, dvosmislenosti i drugih karakteristika. Nadalje, smatramo vanjske podatke, kao što su Web, Freebase, DBPedia, rječnici i enciklopedije, IMDB, Amazon, itd., kao dokaze koji mogu dodati ili mijenjati tvrdnje i vjerovanja u Probase. To znači da je Probase ju mogućnosti da integrira podatke različitih kvaliteta iz heterogenih izvora podataka.

Ovo će biti vrlo korisno za Microsoft Bing, koja je u početku i predstavljen kao semantički inteligentnija tražilica.

2008 godine Microsoft je stekao Powerset, semantičku tražilicu koja pretražuje Freebase i Wikipediju tražeći odgovore. S druge strane, Google je stekao Metaweb, tvrtku koja je razvila Freebase.

Trinity

Glavna obilježja Trinity-ja su:

  • Model podataka: hypergraph.
  • Distribuiran: Trinity može biti implementiran na jednoj mašini ili na nekoliko stotina mašina.
  • Graph baza podataka: Trinity je graph temeljen na memoriji sa bogatim značajkama baze podataka, uključujući visoko konkurentne online upite za obradu, ACI transakciona podrška, itd. Trenutno, Trinity pruža C # API korisnicima za graph obradu.
  • Paralelni sustav graph obrade: Trinity podržava obradu velikih količina offline procesa. Podržani su i sinkroni i asinkroni.

Evo ilustracija njegove arhitekture:

trinity_architecture_0311

Microsoft-ovi ostali NoSQL projekti uključuju Windows Azure Table Storage, velika baza podataka, bazirana na tabelama, za Azure platformu, i Dryad koji je alternativa za Hadoop. Ostali primjeri graph baza podataka uključuju Neo4j, HyperGraphDB, InfiniteGraph i FlockDB.

Budućnost

To nije teško spojiti točkice između Bing, Dryad, Probase i Trinity. Microsoft gradi skup alata koji bi konkurirali onima koje se koriste interno u Google-u i open-source alatima koje koriste tvrtke kao što su Facebook i Twitter. Zanimljivo će biti ono što Microsoft radi sa svojim podacima.

Za Microsoft, softver je oduvijek bio proizvod. Google je to okrenuo, koristeći vlasnički softvera i prilagođenu infrastrukturu kako bi istakao snagu usluge. Facebook je otišao i korak dalje, on koristi robni open-source softver. On koristi PHP i MySQL i poklanja veliku pažnju softverima poput Cassandra i Hip Hop. Njegova strateška prednost je u njegovim podacima.

Hoće li Microsoft biti u mogućnosti da se okrene svoje poslovanje i postanje kompanija koja se bavi podacima umjesto softverske kompanije?