Semantische gegevens lake architectuur in de gezondheidszorg en daarbuiten

0
185

0

Artsen willen gebruik maken van IBM ‘ s supercomputer te diagnosticeren aandoeningen

Een ontologisch data pipeline

Een ontologisch data pipeline klinkt fancy, maar wat is het precies en waarom zou je? Het is een data-pijplijn in welke binnenkomende gegevens is verrijkt met metadata met behulp van een ontologie. Een ontologie is misschien wel de meest geavanceerde vorm van schema rond in termen van de mogelijkheid tot het vastleggen semantiek, vandaar het semantische aspect van de gegevens meer.

We bespraken de aanpak en architectuur met Dr. Jans Aasman, CEO van Franz, Inc. Franz Inc. is de verkoper achter AllegroGraph, de RDF grafiek database verwerkt de beschrijvende metadata/ontologische pijplijn aspect van de oplossing.

Aasman legt uit dat de SDL ondersteunt zowel snelle real-time-ingang (bijvoorbeeld HL7-streams) en grote, batch-georiënteerde voegt bulk van ETL (Extract Transform Load) processen.

Maar de miljoen dollar vraag is hoe de semantische annotatie gebeuren. Zijn alle gegevens die in het meer al geannoteerde bij inslikken, of is er nog meer annotatie nodig? Hoe wordt het uitgevoerd — automatisch, semi-automatisch, handmatig? Zijn er tools voor dit?

Aasman, zegt ze gebruik maken van een visuele ETL-tool voor het trekken van een mapping tussen de gegevens in het EDW of HL7 stromen naar een zorg-ontologie die alles dekt dat ooit zou kunnen gebeuren bij een patiënt in het ziekenhuis levenscyclus:

pasted-image-0-4.png

Semantische gegevens lake architectuur. (Afbeelding: Franz Inc.)

“Dit creëert een declaratieve kaarten lezen door een Java-programma dat automatisch verandert (meestal) relationele gegevens in een grafiek vertegenwoordiging (voorheen drie). Elk element in de grafiek is van commentaar voorzien door de tabel en kolom het vandaan kwam en de ETL-date.

“Daarnaast zijn we annoteren elke triple met wat we noemen ‘triple attributen’ die ons in staat stellen om selectief data beschikbaar voor gebruikers in hun verschillende rollen. Dit is een spectaculaire nieuwe functie in AllegroGraph dat we in het openbaar aankondigen snel.

“In deze instelling, woordenschat management is zeer belangrijk. De gezondheidszorg heeft meer dan 180 woordenlijsten, taxonomieën en terminologie systemen, zoals Mesh, Snomed, UMLS, LOINC, RxNorm, enz.”

Data-integratie is een van de sterke punten van ontologische modellen en Aasman zegt dat deze taxonomieën zijn allemaal met elkaar verbonden en gekoppeld aan belangrijke ‘het echte leven’ concepten, zoals de ICD9 en ICD10, procedure-codes en NDC voor medicijnen:

“Dit gecombineerd en geïntegreerd terminologie systeem (de gezondheidszorg ontologie) is in het hart van het ETL-proces, en het is ongelooflijk belangrijk voor query’ s en analyses,” zegt hij.

SPARQL over Vonk

Ontologieën en grafiek databases klinkt geweldig, maar er is meer aan de oplossing van SDL. Waar en hoe precies doet ontologische modellen en AllegroGraph passen in het grote plaatje?

Aalman legt uit: “We voeren verdeeld AllegroGraph op een Cloudera cluster. We kunnen lezen/schrijven van HDFS en kunnen we die Vonk op de top en gebruik MLlib voor onze analyses. Verspreid AllegroGraph, de database onder de SDL architectuur, biedt alle functies van een Lambda-architectuur.”

Dat is een opvallende keuze, die betekent bijvoorbeeld dat in plaats van SQL, SPARQL wordt gebruikt als de query taal. Waarom gaan? En hoe goed presteert het in vergelijking met meer conventionele oplossingen?

“Relationele databases goed doen wanneer uw gegevens past in een relatief eenvoudig schema, er is geen netwerk in uw gegevens en hoeft u grote statistische query’ s. Grafiek-databases beter als je dat doet grafiek algoritmen waar het is onvoorspelbaar hoe diep de grafiek algoritme zal gaan.

“Bovendien, graph databases uit te voeren veel beter wanneer je veel ad hoc query’ s of wanneer uw gegevens is belachelijk complex of als uw aanvraag zal profiteren van de redenering,” zegt Aasman.

Wat over de complexiteit van de query? Aasman zegt dat als een verkoper zien ze query ‘ s, variërend van de ene lijn tot 1.500 regels code, en op voorwaarde dat een typische SPARQL-query van het Montefiore project voor de goede orde:

pasted-image-0-2.png

Een real-world SPARQL-query van het Montefiore use case. (Afbeelding: Franz Inc.)

“Deze query vindt de top 100 patiënten die het meest vergelijkbaar is met een bepaalde patiënt uit een set van 2,7 miljoen patiënten. De eerste subquery vindt voor een bepaalde patiënt zijn of haar geslacht en ras en de icd9-codes.

“Omdat deze icd9-codes zijn zeer specifieke, koppelen we de icd9-codes van de concepten in onze kennisbank en wij gaan op de terminologie ladder recursieve manier, en dan weer naar beneden om alle familie leden van de icd9-code.

“Zodra we die zien we dat alle andere patiënten die de hoogste overlap in de icd9-codes (nou ja, de super-leden) met de start van de patiënt. Dit is een ander voorbeeld van de compactheid van SPARQL.

“We kunnen ook gebruik maken van Vonk te doen van een SPARQL-query verdeeld AllegroGraph. Wij maken gebruik van Spark voor analytics en dan kunnen we het opslaan van de resultaten van de analyses weer in AllegroGraph als nieuw geleerde informatie”, zegt hij.

De SDL ondersteunt zowel snelle real-time-ingang en een grote, batch-georiënteerde voegt bulk van ETL-processen. AllegroGraph is een append alleen grafisch gegevensbestand, legt Aasman, zodat nieuwe data zijn toegevoegd aan de bestaande indexen:

“Er zijn continue achtergrond optimalisatie van de processen die het samenvoegen van de segmenten van gegevens in een lineair gesorteerde index ruimte, maar de realiteit is dat als de gegevens streaming 24/7 de indices zijn nooit perfect gesorteerd, zodat de query-engine heeft om te kijken, zowel in de bestaande indexen en toegevoegd nieuwe stukken.”

Grafiek browsers, tijd, machines en machine learning

Aasman voegt er aan toe dat Norse, AllegroGraph grafiek browser, stelt gebruikers in staat om visueel een query maken en dan het genereren van SPARQL (of Prolog) query code. Franz Inc zojuist een nieuwe versie van de Norse, het toevoegen van wat zij noemen “Time Machine” mogelijkheden.

Veel use cases voor grafische gegevensbestanden betrekken van tijdelijke evenementen. Evenementen zijn gemodelleerd als objecten met de start tijd, eindtijd, een type, een aantal acteurs en een ruimtelijke locatie.

Aasman, zegt Norse v7.0 van de nieuwe tijd slider functie stelt gebruikers in staat om visueel te laten zien hoe de grafieken uit de stoffelijke gebeurtenissen zijn gebouwd in de tijd, waardoor de tijd machine net als de exploratie van uw gegevens.

Laatste maar niet de minste, de ‘Machine Learning’ – deel. Dit is niet iets graph databases doorgaans bieden, dus hoe werkt het voor AllegroGraph?

Gegevens wetenschappers niet echt schelen wat ze doen hun analytics tegen aanspraken Aasman, zo lang als ze kunnen krijgen hun functie sets van de onderliggende gegevens op te slaan als een csv-bestand, of nog beter, als een (panda) frame gegevens.

“Te maken die het leven makkelijker voor data-wetenschappers die willen werken met AllegroGraph we hebben momenteel een open source-R-interface en een open source AllegroGraph – Python interface die direct te installeren via Anaconda.

“We hebben echter een nog betere integratie van het punt en dat is dat we al de resultaten van de analyses terug in AllegroGraph als triples en zorg dat bevaarbare via Barse.

“Zie een voorbeeld hieronder. Niet alleen slaan we alle resultaten, maar ook de metadata over de resultaten, zoals: wie heeft de analyse, wanneer, wat scripts werden gebruikt, welke gegevens sets werden gebruikt, enz”, zegt hij.

pasted-image-0-1.png

Rijke metadata is een van de voordelen van semantische gegevens meren. (Afbeelding: Franz Inc.)

Semantische gegevens meren in de cloud?

Dit lijkt een goede manier om te spelen op elk afzonderlijk systeem van de sterke punten in een SDL oplossing, hoewel het scala van technologieën, gebruikt het een nogal complex. Zou het niet helpen als organisaties had de toegang tot dergelijke productized oplossingen in de cloud?

Franz Inc biedt kant-en-klare tools zoals AllegroGraph als onderdeel van de uitvoering samen met op maat gemaakte tools en programmering voor een complete oplossing. Voor Montefiore, de oplossing is geïmplementeerd op een lokale cluster van machines in het datacenter.

Aasman, zegt dat de meeste ziekenhuizen worden niet gebruikt om het zetten van hun gegevens in de cloud, maar met HIPAA naleving door Amazon, Azure en Google Cloud de toekomst in de cloud, ook voor Montefiore. Nog Aasman voelt dat lokale clusters zijn beter voor het moment, voor 2 redenen.

De eerste is gemak: “Het is echt handig om een lokale cluster voor de ontwikkeling die je kunt inzetten rechtstreeks op een soortgelijke productie-cluster. We kunnen gemakkelijk kernels installeren, beveiligingsproblemen oplossen, en het minimaliseren van de implementatie van de tijd.”

De tweede prijs: “Alle graph databases zijn meer performant met high-performance Ssd’ s en veel RAM – indien de gegevens is veel groter dan het geheugen. Wij vinden dat een groot geheugen, machines met Ssd ‘ s in de cloud zijn nog steeds erg duur.”

Aasman voegt er aan toe dat ze zien dat er veel vraag naar AllegroGraph in de cloud, vooral op de AWS en ze zijn momenteel aan het verkennen AWS voor de US Intelligence Community. Franz Inc gebruikt om het bieden van een managed service in de cloud, maar Aasman is van mening dat het zijn tijd vooruit was, zoals de meeste van hun klanten wilden onder controle te houden.

Aasman echter ziet kansen in de ontwikkeling van managed taxonomieën en ontologieën die zijn domein specifieke en zijn van plan om opnieuw dit het aanbieden van volgend jaar. Het zou wellicht zinvol zijn voor veel organisaties geïnteresseerd in SDLs te kunnen ontlasten als veel van de know-how en werkdruk tot de cloud mogelijk te maken.

Who really owns your Internet of Things data?

Wie echt de eigenaar van uw Internet der Dingen gegevens?

In een wereld waar meer en meer objecten komen online en leveranciers zijn betrokken te raken in de supply chain, hoe kan je houden van wat van jou is en wat niet?

Lees Meer

0