DANSK

Semantisk data sø-arkitektur i sundhedsvæsenet og ud

203

Læger, der ønsker at bruge IBM ‘ s supercomputer til at diagnosticere sundhedsmæssige betingelser

En ontologisk data pipeline

En ontologisk data pipeline lyder fancy, men hvad er det præcis, og hvorfor bør du pleje? Det er en data-rørledningen, som indgående data er annoteret med metadata ved hjælp af en ontologi. En ontologi er velsagtens den mest avancerede form for schema rundt i form af dens evne til at fange semantik, og dermed det semantiske aspekt af data søen.

Vi diskuterede strategi og arkitektur med Dr. Jans Aasman, CEO Franz, Inc. Franz Inc. er sælgeren bag AllegroGraph, RDF graf-database, der håndterer den beskrivende metadata/ontologisk pipeline aspekt af løsningen.

Aasman forklarer, at SDL understøtter både hurtige real time input (for eksempel HL7 vandløb) og large, batch-orienteret bulk skær fra ETL (Extract Transform, Load) processer.

Men den million-dollar-spørgsmålet er, hvordan gør de semantisk annotering ske. Er alle data, der kommer ind i søen, der allerede er kommenteret ved indtagelse, eller er der yderligere kommentering påkrævet? Hvordan er det udført — automatisk, semi-automatisk, manuelt? Er der værktøjer til dette?

Aasman siger, at de bruger en visuel ETL værktøj til at tegne en mapping mellem data i EDW eller HL7-streams til en sundhedsydelser ontologi, der dækker alt, hvad der nogensinde kunne ske, at en patient på hospitalet livscyklus:

“Dette skaber en deklarativ kortlægning, der er læst i af et Java-program, som automatisk omsætter (for det meste) relationelle data i en graf repræsentation (aka tripler). Hvert element i den graf, der er kommenteret af bordet og kolonne det kom fra, og ETL-dato.

“Hertil kommer, at vi anmærke hvert triple med, hvad vi kalder “triple attributter’, der sætter os i stand til selektivt at stille data til rådighed for brugerne i deres forskellige roller. Dette er en spektakulær ny funktion i AllegroGraph, at vi vil være offentligt annoncerer snart.

“I denne indstilling, ordforråd management er ekstremt vigtigt. Sundhedsydelser, der er mere end 180 ordlister, taksonomier og terminologi systemer, såsom Mesh, Snomed, UMLS, LOINC, RxNorm, osv.”

Data integration er et af de stærke punkter af ontologiske modellering, og Aasman siger, at disse taksonomier er alle forbundet med hinanden og knyttet til vigtige ‘det virkelige liv’ begreber som ICD9 og ICD10, procedure-koder og NDC for medicin:

“Dette kombineret og integreret terminologi system (healthcare ontologi), som ligger i hjertet af ETL-processen, og er utrolig vigtige for søgninger og analyser,” siger han.

SPARQL over Gnist

Ontologier og graf, databaser, lyd store og hele, men der er mere til SDL-løsning. Hvor og hvordan præcist gør ontologiske modellering og AllegroGraph passer ind i det store billede?

Aalman forklarer: “Vi kører fordelt AllegroGraph på en Cloudera klynge. Vi kan læse/skrive fra HDFS, og vi kan køre Gnist på toppen, og brug MLlib for vores analytics. Fordelt AllegroGraph, database nedenunder SDL-arkitektur, der giver alle de funktioner, en Lambda-arkitektur.”

Det er et usædvanligt valg, hvilket betyder, at for eksempel, at i stedet for SQL, SPARQL er brugt som query language. Hvorfor gå efter det? Og hvor godt er det klarer sig i forhold til mere konventionelle løsninger?

“Relationelle databaser gøre stor, når dine data passer ind i relativt simpelt schema, der er ikke noget net i dine data, og du må kæmpe samlede forespørgsler. Graf databaser gøre det bedre, når du gør graf algoritmer, hvor det er uforudsigeligt, hvor dybt din graf algoritme vil gå.

“Hertil kommer, at grafen databaser udføre langt bedre, når du har en masse af ad hoc-forespørgsler, eller når dine data er latterligt kompliceret, eller hvis din ansøgning vil drage fordel af argumentation,” Aasman siger.

Hvad med forespørgsel kompleksitet? Aasman siger, at som sælger de ser forespørgsler, der spænder fra én linje til 1.500 linjer af kode, og forudsat, at en typisk SPARQL forespørgsel fra Montefiore projekt for god foranstaltning:

“Denne søgning finder top 100 patienter, der er mest lig en bestemt patient fra et sæt af 2,7 millioner patienter. Den første underforespørgsel finder for en bestemt patient, hans eller hendes køn, race og alle de icd9-koder.

“Fordi disse icd9-koder er meget specifikke, og vi linker icd9-koder til begreber i vores knowledge base, og vi går op i den terminologi, stigen rekursiv måde, og derefter ned igen for at finde alle medlemmer af familien til at icd9-kode.

“Når vi har dem, vi finder alle de andre patienter, der har den højeste overlapper hinanden i icd9-koder (godt, super medlemmer) med vores start patient. Dette er endnu et eksempel på, kompakthed af SPARQL.

“Vi kan også bruge Gnist til at gøre en SPARQL forespørgsel i forhold til distribueret AllegroGraph. Vi bruger Gnist til analytics, og derefter kan vi gemme resultatet af analytics tilbage i AllegroGraph som nyligt lærte oplysninger,” siger han.

SDL understøtter både hurtige real time input og store, batch-orienteret bulk skær fra ETL-processer. AllegroGraph er en append kun grafdatabase, forklarer Aasman, så nye data tilføjes de eksisterende indekser:

“Der er løbende baggrund optimering af processer at fusionere alle bidder af data i et lineært sorteret indeks plads, men virkeligheden er, at hvis data er streaming 24/7 indeksene er aldrig perfekt sorteret så forespørgslen motoren er til at se både i den eksisterende indekser og tilføjes nye bidder.”

Graf browsere, tid maskiner og machine learning

Aasman tilføjer, at Bruse, AllegroGraph graf browser, giver brugerne mulighed for visuelt at oprette en forespørgsel, og derefter generere SPARQL (eller Prolog) søge kode. Franz Inc netop frigivet en ny version af Brysk, at tilføje, hvad de kalder “Time Machine” evner til det.

Mange use cases for graf databaser inddrage temporale begivenheder. Begivenheder, der er modelleret som objekter, der har en start og sluttidspunkt, en type, nogle aktører og geografiske placering.

Aasman siger Brysk v7.0 s nye tid slider-funktion giver brugerne mulighed for visuelt at demonstrere, hvordan grafer består af tidsmæssige begivenheder, der er opbygget over tid, så der er tid maskinen, som udforskning af dine data.

Sidst, men ikke mindst, Machine Learning del. Dette er ikke noget graf databaser tilbyder typisk, så hvordan fungerer det for AllegroGraph?

Data forskere ikke virkelig ligeglad med, hvad de gør deres analytics imod, hævder Aasman, så længe de kan få deres funktion-sæt fra de underliggende data skal opbevares som en csv-fil, eller endnu bedre, som en (panda) data frame.

“For at gøre livet mere enkelt for data forskere, der ønsker at arbejde med AllegroGraph vi har i øjeblikket en open source-R-interface og en open source AllegroGraph – Python-grænseflade, der er direkte installeres via Anaconda.

“Men vi har en endnu bedre integration point, og det er, at vi lægger alle resultaterne af analytics tilbage i AllegroGraph som tripler og derefter gøre at navigere via Brysk.

“Se et eksempel nedenfor. Ikke alene har vi gemme alle resultaterne, men også metadata om de resultater, såsom: hvem gjorde analyse, når, hvilke scripts, der blev brugt, hvilke datasæt, der blev brugt, osv.,” siger han.

Semantisk data søer i skyen?

Dette ser ud som en god måde at spille på hver enkelt system ‘ s styrker i en SDL løsning, selv om den vifte af teknologier anvender gøre det en temmelig kompleks. Ville det ikke hjælpe, hvis organisationer har haft adgang til sådanne productized cloud-løsninger?

Franz Inc giver off the shelf værktøjer som AllegroGraph som en del af gennemførelsen sammen med skræddersyede værktøjer og programmering for at få en komplet løsning. For Montefiore, den løsning, der er indsat på en lokal klynge af maskiner i deres datacenter.

Aasman siger, at de fleste hospitaler er ikke vant til at sætte deres data i skyen, men med HIPAA overholdelse af Amazon, Azure og Google Cloud fremtiden vil være i skyen, også for Montefiore. Stadig Aasman føler, at de lokale klynger er bedre for tiden, af 2 grunde.

Den første er bekvemmelighed: “Det er virkelig praktisk at have en lokal klynge for udvikling, som du kan implementere direkte til en lignende produktion klynge. Vi kan nemt geninstallere kerner, løse sikkerhedsproblemer, og minimere udbredelsen tid.”

Den anden er prisen: “Alle grafen databaser er mere ydedygtigt med højtydende Ssder og masser af RAM – hvis data er meget større end hukommelsen. Vi finde, at store hukommelse maskiner med Ssd ‘ er i skyen er stadig meget dyrt.”

Aasman tilføjer, at de ser en masse af efterspørgslen efter AllegroGraph i skyen, primært på AWS, og de er i øjeblikket ved at undersøge, AWS for den AMERIKANSKE Efterretningstjeneste. Franz Inc bruges til at tilbyde en service i skyen, men Aasman mener, at det var forud for sin tid, da de fleste af deres kunder, der ønskede at bevare kontrollen.

Aasman men ser muligheder i at udvikle lykkedes taksonomier og ontologier, der er domæne-specifikke og planlægger at vende tilbage til dette tilbyder til næste år. Det ville nok give mening for mange organisationer, som er interesseret i SDLs at være i stand til at aflaste så meget af know-how og en stor arbejdsbyrde at sky som muligt.

Who really owns your Internet of Things data?

Hvem der egentlig ejer din Internet af Ting, data?

I en verden, hvor flere og flere objekter kommer online og leverandører er ved at blive involveret i forsyningskæden, hvordan kan du holde styr på, hvad der er dit og hvad er ikke?

Læs Mere