SVENSKA

Kunskap graphs bortom hype: att Få kunskap i och ut diagram och databaser

153

Noll

Kunskap grafer är överreklamerade. Vi officiellt kan säga detta nu, eftersom Gartner ingår kunskap grafer i 2018 hype cycle för ny teknik. Även om vi inte har att vänta Gartner — deklarera detta som “År av Diagrammet var förband till 2018. Som alla som är verksamma inom området, vi ser möjlighet, liksom hotet i detta: Med hype kommer förvirring.

Kunskap grafer är riktiga. De har varit under de senaste 20 åren åtminstone. Kunskap grafer, i sin ursprungliga definition och inkarnationen, har varit om kunskapsrepresentation och resonemang. Saker som kontrollerade vokabulärer, taxonomier, scheman, och ontologier har alla varit en del av detta, byggt på en Semantisk Webb grund av normer och praxis.

Också: Planet analytics 1.0: Från FN: s labb i världen

Så, vad har förändrats? Hur kommer det sig att de tycker om Airbnb, Amazon, Google, LinkedIn, Uber, och Zalando idrott kunskap grafer i deras kärnverksamhet? Hur kommer det sig att Amazon och Microsoft gick skara diagram leverantörer databas med sina senaste produkter? Och hur kan du göra detta arbete?

Kunskap graphs innan de var coola

Kunskap graphs ljud cool och allt. Men vad är de, egentligen? Det kanske låter som en naiv fråga, men att faktiskt få definitioner höger är hur du bygger en knowledge graph. Från klassificering till ontologier — i huvudsak, scheman och regler av varierande komplexitet-det är hur människor har gjort det i flera år.

RDF, den standard som används för att koda dessa scheman, har en graf struktur. Så, ringer kunskap som kodas på toppen av ett diagram struktur en “knowledge graph” låter naturliga. Och de människor som gör detta, de uppgifter som modellbyggare, har kallats kunskap ingenjörer, eller ontologists.

Också: AWS Neptunus kommer GA: det goda, Det dåliga och det fula för grafdatabas användare och leverantörer

Det kan vara många tillämpningar av dessa kunskaper graphs — från katalogisering av föremål, integrering av data och publicering på webben, till komplexa resonemang. För några av de mest framträdande sådana, kan du titta på schema.org, Airbnb, Amazon, Diffbot, Google, LinkedIn, Uber, och Zalando. Detta är varför människor kryddat med kunskap graphs fnysa åt den hype.

pr4908665trendsintheemergingtechhypecycle2018hypecycle.png

Precis som alla datamodellering, detta är svårt och komplicerat arbete. Den måste ta hänsyn till många intressenter och syn på världen, hantera härkomst och schema drift, och så vidare. Lägg till i mixen resonemang, och web skala, och saker man lätt kan få ut av sidan, vilket kan förklara varför fram till nyligen, att detta tillvägagångssätt inte var den mest populära i den verkliga världen.

Gå schema-mindre, å andra sidan, har varit och är fortfarande populär. Gå schema-mindre kan komma igång snabbt, det är enklare och mer flexibelt, åtminstone upp till en viss punkt. Enkelheten av att inte använda ett schema kan vara förrädiskt dock. För i slutändan, oavsett din domän, ett schema kommer att finnas. Schema-på-att läsa? Bra. Men inget schema alls?

Också: GraphQL för databaser: Ett lager för universal database access?

Du kanske inte vet ditt schema tillräckligt bra på förhand. Det kan vara komplexa, och det kan komma att utvecklas. Men det kommer att existera. Så, att ignorera eller att tona ned schema löser inte några problem, det gör bara saker värre. Frågor som kommer lurar, och kostar tid och pengar, som de kommer att hämma utvecklare och analytiker som kommer att försöka att utveckla applikationer och härleda insikter på en suddig klump av data.

Poängen då är att inte kasta schemat bort, men för att göra det funktionella, flexibla och utbytbara. RDF är ganska bra på detta, eftersom det även ligger till grund för standardiserade format för utbyte av data, såsom JSON-LD. RDF kan också användas för lätt schema och schema-mindre metoder och data integration, förresten.

Att få kunskap in i eller ut ur graphs

Så, vad är det med hype? Hur kan en 20-årig teknik vara på den framväxande sluttningen av den ökända hype cycle? Hype är riktigt också, som är orsaken till detta. Det är samma berättelse som den explosionsartade ökningen av AI hype: Det är inte så mycket att saker och ting har förändrats i synen, det är mer att data och beräkna makt är där nu för att få det att fungera i stor skala.

Plus, AI själv hjälper till. Eller för att vara mer exakt, en typ av bottom-up, maskininlärning-baserade AI som får den hype i dessa dagar. Kunskap grafer i huvudsak är AI, också. Bara en annan typ. Inte lite hyped upp-och-nu-AI, men den symboliska, top-down, som grundar sig på slag. Den hittills impopulära slag.

Det är inte att denna strategi inte har sina begränsningar. Det är svårt att koda kunskap om komplexa domäner på ett funktionellt sätt, och för att resonera om det i stor skala. Så, maskininlärning sätt att göra saker, precis som schema-mindre sätt, blev populär. Och av goda skäl.

Med big data explosion, och ökningen av NoSQL, något annat börjat hända också. Verktyg och databaser för icke-RDF-grafer dök upp på marknaden, och började finna framgång. Dessa grafer, märkt fastighet typ (LPG), är enklare och mindre detaljerad. De antingen saknar schema, eller har grundläggande schema kapacitet i förhållande till RDF.

Och de brukar fungera bättre för operativa program, diagram algoritmer, eller graf analytics. Nyligen, grafer börjar användas för maskininlärning. Dessa är alla mycket användbara saker.

Algoritmer, analyser och lärande kan ge insikter om grafer, med några vanliga användningsfall för att upptäcka bedrägerier eller rekommendationer. Man kan därför säga att dessa tekniker och tillämpningar få kunskap ur diagram, bottom-up. RDF-grafer på andra sidan få kunskap i grafer, top-down.

Så, är bottom-up-graphs kunskap grafer, också?

Också: rör sig snabbt utan att bryta data: – Styrning för att hantera risk i maskininlärning och bortom

Som en kunskap ingenjör skulle säga, det är en fråga om semantik. Det är frestande att rida knowledge graph hype. Men i slutet, brist på tydlighet kan bevisa för lite service. Diagram algoritmer, diagram analytics, och grafen-baserade maskin lärande och insikter är alla bra, korrekta termer. Och de är inte ömsesidigt uteslutande med “traditionell” kunskap graphs heller.

Alla de framstående använda de fall vi nämnde tidigare är baserad på en kombination av metoder. Ha en knowledge graph och fylla i det med hjälp av maskininlärning till exempel har hjälpt till att bygga den största knowledge graph någonsin-åtminstone i termer av fall, om inte enheter. Och det är vad AI pionjärer som DeepMind är att forska, liksom.

Vissa gamla saker, vissa saker är nya och några saker som lånat för grafdatabaser

Som vanligt, val av metod och verktyg att använda för din graf beror på dina mål. Detta gäller även för grafdatabaser, som vi har varit noga de utvecklas, med nya leverantörer och resurser läggs snabbt.

Förra veckan på Strata, både vinnare och runner-up för de Mest Omvälvande Start utmärkelsen var grafdatabaser: TigerGraph och Memgraph. I fall du behöver mer bevis på hur snabba framsteg görs inom området, det du har det. Både nystartade företag är inte mer än ett par år gamla, förresten.

För TigerGraph, som kom ut ur stealth i September 2017, detta har varit ett mycket aktivt år. Idag, TigerGraph är att tillkännage en ny version. Och den har några gamla saker, vissa saker är nya och några saker som lånade — men vi kunde inte riktigt se något blått.