Semantisk data sjön arkitektur i hälso-och bortom

0
174

0

Läkarna vill använda IBM: s superdator för att diagnostisera hälsotillståndet

En ontologisk data rörledning

En ontologisk data rörledning låter fint, men vad är det exakt och varför ska du bry dig? Det är en data rörledning där inkommande data förses med metadata med hjälp av en ontologi. En ontologi är utan tvekan den mest avancerade form av schema runt om i termer av dess förmåga att fånga semantik, därav den semantiska aspekten av data sjön.

Vi diskuterade förhållningssätt och arkitektur med Dr Jans Aasman, VD, Franz, Inc. Franz Inc. är säljaren bakom AllegroGraph, RDF-grafen databas som hanterar den beskrivande metadata/ontologiska pipeline aspekt av lösningen.

Aasman förklarar att SDL stöder både snabbt realtid ingång (till exempel HL7 strömmar) och stora batch-orienterade bulk inlägg från ETL (Extract Transform Load) processer.

Men miljoner dollar frågan är hur semantisk annotering hända. Alla uppgifter som kommer in i sjön redan kommenterad vid förtäring, eller är det ytterligare en kommentar som krävs? Hur är det utförs — automatiskt, semi-automatiskt, manuellt? Finns det verktyg för detta?

Aasman säger att de använder en visuell ETL verktyg för att rita en mappning mellan data i EDW eller HL7 strömmar till hälso-och ontologi som täcker allt som någonsin skulle kunna hända att en patient på sjukhuset livscykel:

pasted-image-0-4.png

Semantisk data sjön arkitektur. (Bild: Franz Inc.)

“Detta skapar en deklarativ kartläggning som läses in av ett Java-program som automatiskt omvandlar (för det mesta) relationell data i en graf representation (aka tripplar). Varje element i diagrammet är kommenterad av den tabell och kolumn som den kom ifrån och ETL-datum.

“Dessutom kommer vi att kommentera varje trippel med vad vi kallar för “triple attribut” som gör det möjligt för oss att selektivt göra data tillgängliga för användarna i deras olika roller. Det här är en spektakulär ny funktion i AllegroGraph att vi kommer att offentligt tillkännage snart.

“I denna miljö, ordförråd förvaltningen är mycket viktigt. Hälso-och sjukvård har mer än 180 ordförråd, systematik och terminologi system, såsom Nät, Snomed, UMLS, LOINC, RxNorm, etc.”

Data integration är en av de starka punkterna i ontologiska modellering, och Aasman säger att dessa taxonomier är alla sammanlänkade och koppling till viktiga “real life” – ett begrepp som ICD9 och ICD10, förfarande koder och NDC för läkemedel:

“Denna kombination och integrerade system terminologi (hälso-och ontologi) ligger i hjärtat av ETL-processen, och är otroligt viktig för frågor och analyser, säger han.

SPARQL över Gnista

Ontologier och grafdatabaser bra ljud och allt, men det finns mer att SDL-lösning. Var och hur exakt gör den ontologiska modellering och AllegroGraph passar in i den stora bilden?

Aalman förklarar: “Vi kör distribuerad AllegroGraph på Cloudera kluster. Vi kan läsa/skriva från HDFS och vi kan köra Spark på topp och använda MLlib för våra analytics. Distribuerade AllegroGraph, databasen under SDL-arkitektur, erbjuder alla funktioner i en Lambda-arkitektur.”

Det är ett ovanligt val, vilket till exempel innebär att i stället för SQL, SPARQL används som frågespråk. Varför gå för det? Och hur väl fungerar det presterar i jämförelse med konventionella lösningar?

“Relationsdatabaser göra stor när din data passar i relativt enkla schema, det är inget nätverk i dina uppgifter och du gör stora sammanfattande frågor. Grafdatabaser göra bättre när du gör diagram algoritmer där det är oförutsägbart hur djupt din graf algoritm kommer att gå.

“Dessutom, grafdatabaser utföra mycket bättre när du har en massa ad hoc-förfrågningar eller när dina data är löjligt komplexa eller om din ansökan kommer att dra nytta av resonemang,” Aasman säger.

Vad sägs om att fråga komplexitet? Aasman säger att en leverantör de ser frågor, allt från en linje till 1 500 rader kod, och som en typisk SPARQL-fråga från Montefiore projektet för bra åtgärd:

pasted-image-0-2.png

En verklig SPARQL-fråga från Montefiore användningsfall. (Bild: Franz Inc.)

“Denna fråga finner topp 100 patienter som är mest lik en viss patient från en uppsättning av 2,7 miljoner patienter. Den första delfråga finner för en viss patient, hans eller hennes kön och ras och alla icd9-koder.

“Eftersom dessa icd9-koder är mycket specifika, vi länka icd9-koder till begrepp i vår kunskapsbas och vi går upp terminologi stege rekursiva sätt och sedan ner igen för att hitta alla familjemedlemmar som icd9-kod.

“När vi har dessa hittar vi alla andra patienter som har den högsta överlappning i icd9-koder (ja, super medlemmar) med vår start patienten. Detta är ytterligare ett exempel på den kompakta SPARQL.

“Vi kan också använda Gnista för att göra en SPARQL query mot distribuerade AllegroGraph. Vi använder Gnista för analytics och sedan kan vi spara resultatet av analytics tillbaka till AllegroGraph som nyligen lärt sig information, säger han.

SDL har stöd för både snabbt realtid ingång och stort, batch-orienterade bulk inlägg från ETL processer. AllegroGraph är en tilläggsfråga bara grafdatabas, förklarar Aasman, så att nya data läggs till i den befintliga index:

“Det finns en kontinuerlig bakgrund optimering processer som samman alla bitar av data i ett linjärt sorteras index utrymme, men verkligheten är att om uppgifterna är streaming 24/7 indexen är aldrig perfekt sorterade så frågan motorn har att se både i befintliga index och läggs nya bitar.”

Diagram webbläsare, tiden maskiner och maskininlärning

Aasman tillägger att Bruse, AllegroGraph graf webbläsare tillåter användare att visuellt skapa en fråga och sedan generera SPARQL (eller Prolog) fråga kod. Franz Inc precis släppt en ny version av Bruse, lägga till vad de kallar “Time Machine” – kapacitet till det.

Många användningsfall för grafdatabaser innebär tidsmässiga händelser. Händelser modelleras som ett objekt som har en starttid, sluttid, en typ, som vissa aktörer och geografisk plats.

Aasman säger Gruff v7.0 ny tid slider-funktionen gör det möjligt för användare att visuellt visa hur grafer består av tillfälliga händelser konstrueras över tid, så du har tid att maskinen som prospektering av dina data.

Sist men inte minst, maskininlärning del. Detta är inte något grafdatabaser normalt erbjuder, så hur fungerar det för AllegroGraph?

Data forskare bryr mig egentligen inte vad de gör sina analytics mot, påstår Aasman, så länge som de kan få sina funktionsuppsättningar från den underliggande datalagret som en csv-fil, eller ännu bättre, som en (panda) data frame.

“För att göra livet mer enkelt för data forskare som vill arbeta med AllegroGraph vi har för närvarande en öppen källkod R gränssnitt och en öppen källkod AllegroGraph – Python-gränssnitt som är direkt går att installera via Anaconda.

“Men vi har en ännu bättre integration punkt och det är att vi sätter alla resultat av analytics tillbaka i AllegroGraph som tre-och sedan göra som trafikeras via Bruse.

“Se ett exempel nedan. Vi har inte bara lagra alla resultat, men också metadata om de resultat, till exempel: som gjorde analysen, när, vilka skript används, och vilka datamängder som användes, etc, säger han.

pasted-image-0-1.png

Riklig metadata är en av fördelarna med semantisk data sjöar. (Bild: Franz Inc.)

Semantisk data sjöar i molnet?

Detta ser ut som ett bra sätt att spela på varje enskilt system: s styrkor i en SDL lösning, även om den teknik använder gör det till en ganska komplex. Skulle det inte hjälpa om organisationer haft tillgång till sådan productized lösningar i molnet?

Franz Inc erbjuder från hyllan verktyg som AllegroGraph som en del av genomförandet tillsammans med skräddarsydda verktyg och programmering för en komplett lösning. För Montefiore, lösning används på ett lokalt kluster av maskiner i sina datacenter.

Aasman säger att de flesta sjukhus inte är van att sätta sin data i molnet ännu, men med HIPAA överensstämmelse med Amazon, Azure och Google Cloud framtiden kommer att vara i molnet, även för Montefiore. Fortfarande Aasman känns som lokala kluster är bättre för tillfället, för 2 anledningar.

Den första är bekvämlighet: “är Det verkligen praktiskt att ha ett lokalt kluster för utveckling som du kan använda direkt för att en liknande produktion kluster. Vi kan enkelt installera kärnor, fixa säkerhetsfrågor, och minimera användningen tid.”

Den andra är priset: “Alla grafdatabaser är mer prestanda med hög prestanda Ssd och massor av RAM-minne – om uppgifterna är mycket större än minnet. Vi tycker att stora minne maskiner med Ssd-enheter i molnet är fortfarande mycket dyra.”

Aasman tillägger att de ser en hel del av efterfrågan för AllegroGraph i molnet, i första hand på AWS och de är för närvarande på att undersöka AWS för den AMERIKANSKA Underrättelsetjänsten. Franz Inc används för att erbjuda en hanterad tjänst i molnet, men Aasman tror det var före sin tid eftersom de flesta av deras kunder ville behålla kontrollen.

Aasman men ser möjligheter i att utveckla lyckades taxonomier och ontologier som är domänspecifika och planerar att återkomma till detta erbjudande nästa år. Det skulle förmodligen vara meningsfullt för många organisationer som är intresserade av SDLs att kunna lasta så mycket av den know-how och arbetsbelastning att de moln som möjligt.

Who really owns your Internet of Things data?

Vem som egentligen äger din Internet of Things data?

I en värld där fler och fler objekt kommer online och leverantörer får delta i leveranskedjan, hur kan du hålla koll på vad som är ditt och vad är inte?

Läs Mer

0