Webben som en databas: Den största knowledge graph någonsin

0
112

Noll

Webben är bland mänsklighetens största prestationer och resurser. Ständigt växande och nästan allomfattande, har vi alla kommit att bero på det. Det finns bara ett problem: Det krävs arbete för att få information ur det.

Det beror på att informationen i dokument och dokument på webben är överallt, och någon måste hitta dem och läsa dem för att extrahera information. Sökmotorer har kommit en lång väg, och att de till stor hjälp i att hitta en del, men inte så mycket i att extrahera en del. Åtminstone inte förrän idag.

Också: Zen och konsten av datastrukturer: Från självjusterande att själv designa datasystem

Google och dess likar kan ibland ge intryck av att de kan förstå och svara på frågor. En del av anledningen är dessutom av mänsklig kunskap i mixen. Google bekant gick från att använda enbart en text-baserad och statistiska metoder för att lägga till en form av bevarande när det köpte MetaWeb. MetaWeb utvecklat Freebase, som var en crowd-sourcade knowledge graph, liknande inställning till Wikipedia, som var integrerad i Googles sökmotor.

Äta ditt hjärta ut, Google

Som gör det möjligt för Google att göra en del av sin magi. Om du googlar “Google” till exempel, du inte bara få en massa länkar. Du får också en info-ruta som listar fakta som Googles VD, grundare och adress. Det beror på att det finns en post i Googles knowledge graph som listar Google som ett företag, och dessa är några av de egenskaper som företag har, så att Google hämtar och visar att information från Wikipedia.

Men om du provar att Googla “hur många anställda har Google” eller “vad är Google ‘s address”, vad du får är en massa länkar. Du är din egen-du måste läsa de handlingar och få reda på svaret. Om att all information i en databas, om du skulle skriva något i stil med “VÄLJ Adress FRÅN Organisationer DÄR Namn=Google” och skulle du ha ditt svar på några sekunder. Det är skillnaden mellan strukturerad och ostrukturerad information.

Också: MemSQL 6.5: NewSQL med autonoma arbetsbelastning optimering, förbättrad data förtäring och fråga exekveringshastighet

Det är också vad Diffbot är avtäckningen idag: förmågan att fråga webben som en databas. Denna imponerande bedrift är också baserat på en knowledge graph. Skillnaden är att i Diffbot är fallet, kunskap diagram är endast delvis omskötta av människor, och fylls automatiskt genom att genomsöka webben. ZDNet pratade med Mike Tung, Diffbot VD och Grundare, för att ta reda på hur Diffbot gör detta.

opera-snapshot2018-08-30101415www-diffbot-com.png

Diffbot intar och tolkar hela webben i en knowledge graph – en databas som du kan fråga. Bild: Diffbot

Först och främst, du har att genomsöka webben. Det är där Gigablast och Matt Wells kommer in. Gigablast är en sökmotor skapad av Matt Wells, Diffbot s VP of Search, 2000. Tung säger att detta är vad Diffbot använder för att genomsöka och butik, varje dokument på webben. Svårt det än kan vara, dock, det är inte ens halva jobbet.

Det riktigt svåra är att få information ur handlingar, och det är där magin ligger. Tung förklarar detta görs med hjälp av dator vision, machine learning (ML), och natural language processing (NLP).

Computer vision hjälper Diffbot förstå strukturen av dokument. Det efterliknar det sätt människor bryta ner dokument, räkna ut vilka strukturella element av varje dokument-saker som till exempel rubriker, block, etc. I en perfekt värld, bör detta vara möjligt genom att inspektera HTML-strukturen av webbdokument. Men inte allt på webben är HTML och HTML-dokument är inte perfekt heller.

Också: MemSQL 6.5: NewSQL med autonoma arbetsbelastning optimering, förbättrad data förtäring och fråga exekveringshastighet

Efter struktur gäller innehåll. Innehåll analyseras med hjälp av en kombination av NLP och ML, resultatet av vilket är strukturerad kunskap som läggs till Diffbot s knowledge graph (DKG). Tung och visade upp ett exempel som bygger på Marissa Mayer, ex-VD för Yahoo.

Med en kort text om Mayer som indata, Diffbot system bearbetat det och kunde extrahera alla typer av fakta som beskrivs i texten: mayers kön, sysselsättning historia, utbildning, etc. Genom att göra detta, Diffbot lägger till en post för Mayer i sin knowledge graph, och fyller det med egenskaper såsom kön, ålder och liknande.

“I motsats till den allmänna uppfattningen, Googles knowledge graph är inte härrör främst från automation, säger Tung. “Till skillnad från Google, målet med vår behandling är inte att ranka sidor för människor att läsa (och spruta in lite reklam längs vägen), utan snarare för att undvika mänskliga behandlingen helt och hållet.

DKG är det första webb-skala knowledge graph som är helt syntetiseras av en automatiserad AI-system, utan en människa-in-the-loop. Därför är det viktigaste kravet att tillväxt är antalet maskiner som vi ägnar åt att det förvärvande av kunskap”, tillägger han, och drog slutsatsen att DKG innehåller för närvarande något i området på en miljard fakta.

Från ett nätverk av dokument till ett nätverk av data

Detta är inte helt nytt. Den första som lagt fram visionen om att gå från ett nätverk av dokument till ett nätverk av data var ingen annan än webbens uppfinnare Tim Berners Lee, som publicerade sin Semantiska Webben manifest 2001.

Som Tung, men konstaterar “en lång rad av historia (allt från RDF/mikroformat/RSS/semantisk uppmärkning) har visat att det krävs en mänsklig kommentar kommer aldrig att skala i form av ekonomiska incitament och noggrannhet för att all kunskap.”

Även om kommentaren inte nödvändigtvis måste vara människa (det kan komma från automation), Tung har en punkt: de Flesta av innehåll på webben är mycket dåligt, om alls, kommenterad. Tung tänker att bygga denna global knowledge graph med den aktuella staten AI är rätt strategi-och det verkar fungera.

Också: rör sig snabbt utan att bryta data: – Styrning för att hantera risk i maskininlärning och bortom

Tillämpningarna är många och långtgående. Tung konstaterar att “enterprise funktioner såsom försäljning, rekrytering, logistik, redovisning, business intelligence och omvärldsbevakning alla att arbeta bort av databaser som kan hållas uppdaterad och korrekt genom att integrera direkt med knowledge graph.”

diffbot-kg-record-linking.jpg

Diffbot behandling av naturligt språk i handling. Notera hur fakta som utvinns från text representeras som omfattas — c — objekt tripplar. (Bild: Diffbot)

Tung visat ett sådant scenario, med DKG att fråga för människor som arbetar för Uber. Inledningsvis frågan returnerar nästan 40.000 resultat som Tung möjlighet att filtrera med hjälp av standard-filtrering som man skulle förvänta sig från en databas: Får endast nuvarande anställda, filter per region, etc.

Och att en hänvisning till integrering med databaser har långtgående konsekvenser också. Ovanstående scenario bygger enbart på den information som finns på webben. Men företagen behöver inte bara arbeta med det som de hittar på nätet-de har också sina egna interna system och databaser, och Tung säger DKG kan stödja dem också, med en åtkomstpunkt för att styra dem alla.

Också: GraphQL för databaser: Ett lager för universal database access?

DKG får väl räknas som Diffbot största prestation hittills, men det kom inte från ingenstans. Tung har starka referenser att visa för dessa, som har utformats för web-scale information utvinning arkitekturer och arbetat för Microsoft, eBay och Yahoo. Diffbot har funnits sedan 2008 har det namn som till exempel eBay Microsoft Bing, och Salesforce bland sina kunder, och Tencent och Bloomberg bland sina investerare.

Imponerande som allt detta kanske låter, men det finns några gotchas.

Språk, son

Till att börja med, inte alla DKG är auto-magiskt skapas. Det är inte nödvändigtvis en dålig sak, men det går att visa att de begränsar ens vad “den nuvarande staten AI” kan göra. DKG är seedade genom Diffbot kunskap ingenjörer, som har beslutat att de enheter som det kommer att hantera är människor, företag, platser, varor, produkter, diskussioner och bilder.

Detta innebär att allt Diffbot kryper från webben kommer att vara klassad som en av de sakerna. Det är tydligt att detta beslut drevs av vad Diffbot kunder är mest intresserad av, men det betyder inte att varje sida på webben är klassad som en av de 20 olika typer DKG för närvarande vet. Tung säger att de planerar att utöka detta till att omfatta kategorier såsom händelser eller medicinsk information.

Med andra ord, Diffbot har medvetet valt att begränsa omfattningen av vad som hanterar, för att göra ett välkänt problem hanterbar. Att någon bekant med kunskap grafer (också kommer av namnet på ontologier för connaisseurs), vad Diffbot gör är att definiera en övre ontologi, och fylla den från webben. Begreppet och relaterade utmaningarna är väl känt, men hur Diffbot hanterar detta är state of the art.

Också: AWS Neptunus kommer GA: det goda, Det dåliga och det fula för grafdatabas användare och leverantörer

Föra oss till en annan viktig fråga: Fråga att besvara. Om du har hela webben till hands, hur kommer ni att fråga det? Det beror på. Om du är en person från näringslivet som helst du skulle vilja att använda naturligt språk. För närvarande, DKG inte har stöd för detta. Det har dock sin egen Diffbot Query Language (DQL).

DQL ser ganska enkelt, om du är bekant med frågan språk. Men sedan igen, om du är bekant med frågan språk, varför skulle du vilja ha för att lära sig ännu en? Det finns redan massa av diagram-fråga språk, som till exempel SPARQL, Gremlin, och OpenCypher, och med ökningen av grafdatabaser, vi förväntar oss att bli mer och mer utbrett.

Detta berör en annan fråga: Även om Diffbot synsätt delar många likheter med den semantiska webben begrepp och normer (Tung även uttryckligen nämns RDF-som subjekt-predikat-objekt tripplar i hans uppdelning av text processing), dess strategi är egenutvecklade.

Oavsett om du vet eller som de normer, skulle det inte ha gjort Diffbot livet enklare att använda dem? Till exempel genom att bygga DKG på toppen av en off-the-shelf grafdatabas. Tung erkänner det skulle, men han säger att de testade över ett dussin grafdatabaser, och de alla gick sönder på runt 10-100M enheter, så att de var tvungna att bygga något eget.

För språkfrågan, Tung säger att deras strategi är att möta användarna där de är, vilket eliminerar behovet av direkt med hjälp av en query language (eller en API, som DKG stöder också) så mycket som möjligt. Sättet att göra detta, Tung säger, är genom att integrera DKG med populära system som Salesforce, SAP, eller Tablån, så att användarna kan på ett öppet sätt att få uppgifter från DKG i sina ansökningar.

Det kan vara bra för användarna, men det ställer också en stor börda av Diffbot att utveckla och underhålla alla dessa integrationer. Tung säger att de har för avsikt att utveckla broar för populära frågespråk, dock så integrationer kommer inte att vara handgjorda.

Också: Planet analytics 1.0: Från FN: s labb i världen

Sist men inte minst, inte att kunna fråga webben också innebära att du bör automatiskt lita på resultaten? Inte nödvändigtvis. Detta är anledningen till att Google och dess gelikar har utvecklat sofistikerade algoritmer för att rangordna resultat, att försöka bestämma de mest relevanta. DKG endast delvis gör detta.

Du kan filtrera Uber anställda av ålder, till exempel, men vad är den definitiva källan för det? Om källan X säger att en person är född 1974, och källan Y säger att de föddes 1947, vilken ska man lita på? Hur vet du att de pratar om samma person till att börja med?

Dessa är väl kända, är svåra att ta itu med problem, och Diffbot har att ta itu med dem som alla andra som har kommit före dem. Även som det är, dock, DKG är en imponerande prestation med många potentiella tillämpningar.

Tidigare och relaterade täckning:

AI marker för big data och maskininlärning: Grafikprocessorer, Fpga: er och svåra val i molnet och on-premise

Hur kan Grafikprocessorer och Fpga: er hjälp med data-intensiva aktiviteter som verksamheten, analys och lärande, och vad finns det för alternativ?

Data-driven katastrofhjälp: att Mäta effekterna av räddningsinsatser

Med naturkatastrofer ökar i frekvens och intensitet, de icke-statliga organisationernas roll i katastrofhjälp är att plocka upp. En förutsättning för att alla icke-statliga Organisationer är öppenhet och insyn, och tillämpa data-driven tekniker som kan hjälpa till.

Wolfram Research går för Programvara 2.0, släpper neurala nätet arkiv

Wolfram, efter att ha varit i AI innan det var coolt, nu får en bit av den djupa lärande hype, i sin sui generis sätt. Där står det i förhållande till konkurrenterna, och hur lätt är det att använda och integrera Wolfram med resten av världen?

Relaterade Ämnen:

Innovation

Big Data Analytics

CXO

Artificiell Intelligens

Affärssystem

Förvaring

0