DEUTSCH

Semantische data-lake-Architektur im Gesundheitswesen und darüber hinaus

201

Ärzte verwenden möchten, IBM supercomputer, um gesundheitlichen Bedingungen zu diagnostizieren

Ein ontologisches Daten-pipeline

Ein ontologisches Daten-pipeline schick anhört, aber was ist es genau und warum sollte Sie das kümmern? Es ist eine Daten-pipeline, in der eingehende Daten annotiert mit Metadaten in einer Ontologie. Eine Ontologie ist die wohl am meisten fortgeschrittene form der schema-etwa in Bezug auf Ihre Fähigkeit zur Erfassung der Semantik, also den semantischen Aspekt der Daten-See.

Wir diskutierten das Konzept und Architektur mit Dr. Jans Aasman, CEO von Franz, Inc. Franz Inc. ist sich der Anbieter die hinter AllegroGraph, die RDF-graph-Datenbank, mit der die beschreibenden Metadaten/ontologische pipeline Aspekt der Lösung.

Aasman erklärt, dass die SDL unterstützt sowohl fast-Echtzeit-Eingabe (zum Beispiel HL7-Ströme) und großen, batch-orientierte bulk-inserts von ETL – (Extract Transform Load) Prozesse.

Aber die Millionen-dollar-Frage, wie die semantische annotation geschehen. Sind alle Daten, die den See bereits kommentierte nach dem Verschlucken, oder gibt es weitere Anmerkungen erforderlich? Wie wird Sie durchgeführt-automatisch, semi-automatisch, manuell? Gibt es tools dafür?

Aasman sagt, dass Sie ein visuelles ETL-Werkzeug zeichnen Sie eine Zuordnung zwischen den Daten in der EDW-oder HL7-Ströme zu einer medizinischen Ontologie, die umfasst alles, was jemals geschehen um einen Patienten in das Krankenhaus-Leben-Zyklus:

“Das schafft eine deklarative Zuordnung eingelesen wird, die von einem Java-Programm, das automatisch umwandelt (meistens) relationale Daten in einer graph-Darstellung (auch als Dreibettzimmer). Jedes element im Diagramm ist mit Anmerkungen durch die Tabelle und Spalte, es kam, und der ETL-Datum.

“Darüber hinaus kommentieren wir jedes triple mit dem, was wir als “triple-Attribute”, die es uns ermöglichen, selektiv die Daten für Benutzer in Ihren unterschiedlichen Rollen. Dies ist ein spektakuläres neues feature in AllegroGraph, werden wir öffentlich ankündigen, bald.

“In dieser Einstellung, Wortschatz-management ist äußerst wichtig. Das Gesundheitswesen hat mehr als 180 Vokabulare, Taxonomien und Terminologie-Systeme, wie z.B. Mesh, Snomed, die MÖGLICHKEIT, LOINC, RxNorm, etc.”

Daten-integration ist einer der starken Punkte der ontologischen Modellierung und Aasman sagt, dass diese Taxonomien sind alle miteinander verbunden und im Zusammenhang mit wichtigen ‘real life’ – Konzepten wie ICD9 und ICD10 -, Verfahrens-codes und NDC für Medikamente:

“Dieses kombinierte und integrierte Terminologie-system (der healthcare-Ontologie) ist das Herzstück des ETL-Prozesses und ist unglaublich wichtig für Abfragen und Analysen”, sagt er.

SPARQL über Spark

Ontologien und graph-Datenbanken Klang toll und alles, aber es gibt mehr zu der SDL-Lösung. Wo und wie genau funktioniert ontologische Modellierung und AllegroGraph passen in das große Bild?

Aalman erklärt: “Wir laufen verteilt AllegroGraph auf Cloudera-cluster. Wir können schreiben/Lesen aus HDFS und wir Funken auf der Oberseite und verwenden Sie MLlib für unsere Analysen. Verteilt AllegroGraph, die Datenbank unterhalb des SDL-Architektur, bietet alle Funktionen einer Lambda-Architektur.”

Das ist eine ungewöhnliche Wahl, das heißt zum Beispiel, dass anstelle von SQL, SPARQL als Abfragesprache. Warum für ihn gehen? Und wie gut funktioniert es ausführen, im Vergleich zu herkömmlichen Lösungen?

“Relationale Datenbanken große, wenn Sie Ihre Daten in relativ einfachen schema, kein Netzwerk Ihre Daten ein und tun Sie große Aggregat-Abfragen. Graph-Datenbanken nicht besser, wenn Sie tun, graph-algorithmen, wo es ist unvorhersehbar, wie tief der Algorithmus für den Graphen gehen.

“Außerdem, graph-Datenbanken durchführen, die weit besser ist, wenn Sie haben eine Menge von ad-hoc-Abfragen, oder wenn Sie Ihre Daten ist lächerlich Komplex oder wenn Ihre Anwendung profitieren Sie von denken,” Aasman sagt.

Was ist mit Komplexität bei der Abfrage? Aasman sagt, dass, als ein Verkäufer sehen Sie Abfragen reicht von einer Zeile bis 1.500 Zeilen code, und eine typische SPARQL-Abfrage aus der Montefiore-Projekt für eine gute Maßnahme:

“Diese Abfrage sucht nach der top-100-Patienten, sind die meisten ähnlich wie einen bestimmten Patienten von einer Reihe von 2,7 Millionen Patienten. Die erste Unterabfrage findet für einen bestimmten Patienten sein oder Ihr Geschlecht und Rasse und alle die icd9-codes.

“Weil diese icd9-codes sind sehr spezifisch, binden wir die icd9-codes auf Konzepte in unserer knowledge base und wir gehen die Terminologie Leiter rekursive Art und Weise und dann wieder nach unten zu finden, die alle Familienmitglieder, die icd9 code.

“Einmal haben wir diejenigen, die wir finden, alle anderen Patienten, die die höchsten überschneidungen in den icd9-codes (gut, die super-Mitglieder) mit unseren start-Patienten. Dies ist ein weiteres Beispiel für die Kompaktheit von SPARQL.

“Wir können auch Funken zu tun, eine SPARQL-Abfrage für verteilte AllegroGraph. Wir verwenden Funke für die Analytik und dann können wir speichern Sie die Ergebnisse von analytics zurück in AllegroGraph als neu Gelernte Informationen”, sagt er.

Die SDL unterstützt sowohl fast-Echtzeit-Eingang und großen, batch-orientierte bulk-inserts von ETL-Prozessen. AllegroGraph ist ein append only graph-Datenbank, erklärt Aasman, so dass neue Daten angefügt werden, um die bestehenden Indizes:

“Es gibt kontinuierliche Optimierung im hintergrund-Prozesse, die alle verbinden die Stücke von Daten in Linear sortierten index Platz, aber die Realität ist, dass, wenn die Daten-streaming-24/7 die Indizes sind nie perfekt sortiert, so dass die Abfrage-engine zu suchen, sowohl in den bestehenden Indizes und hängten neue Stücke.”

Grafik-Browser, Zeit, Maschinen und machine learning

Aasman fügt hinzu, dass die Ruppigen, AllegroGraph Grafik, browser, ermöglicht es Benutzern, visuell eine Abfrage erstellen und dann zu erzeugen, SPARQL (oder Prolog) – Abfrage-code. Franz Inc soeben eine neue version von Ruppigen, hinzufügen, was Sie es nennen, “Time Machine” – Funktionen.

Viele Anwendungsfälle für graph-Datenbanken beinhalten zeitliche Ereignisse. Ereignisse werden modelliert als Objekte, die start-Zeit, end-Zeit, einen Typ, einige Akteure und räumliche Lage.

Aasman, sagt Schroff v7.0 neue time-slider-Funktion ermöglicht es Benutzern, visuell demonstrieren, wie Graphen, die aus zeitlichen Ereignisse sind konstruiert, im Laufe der Zeit, so dass time machine wie exploration der Daten.

Last but not least-die Machine-Learning-Teil. Dies ist nicht etwas, was graph-Datenbanken bieten in der Regel, wie es funktioniert für AllegroGraph?

Daten, die Wissenschaftler nicht wirklich darauf, was Sie tun, Ihre Analysen gegen Ansprüche Aasman, so lange wie Sie bekommen können, um Ihre feature-sets aus den zugrunde liegenden Daten zu speichern als csv-Datei oder, noch besser, als ein (panda -) Daten-frame.

“Um das Leben einfacher für Daten-Wissenschaftler, die arbeiten wollen, mit AllegroGraph wir haben derzeit eine open-source-R-Schnittstelle und ein open-source-AllegroGraph – Python-Schnittstelle, die direkt installiert werden via Anaconda.

“Wir haben jedoch eine noch bessere integration Stelle, und das ist, dass wir alle die Ergebnisse von analytics zurück in AllegroGraph als verdreifacht und dann machen Sie, dass schiffbar über die Ruppig.

“Ein Beispiel finden Sie unten. Wir haben nicht nur alle Ergebnisse, sondern auch die Metadaten über die Ergebnisse, wie: wer hat die Analyse, Wann welche Skripte wurden verwendet, welche Daten-sets verwendet wurden, usw.”, sagt er.

Semantische Daten, die Seen in der cloud?

Das sieht aus wie ein guter Weg, um zu spielen, auf jedes einzelne system seine stärken in einem SDL-Lösung, obwohl die Palette von Technologien, Einsatzmöglichkeiten machen es zu einem ziemlich Komplex. Würde es nicht helfen, wenn Organisationen hatten Zugang zu solchen productized solutions in der cloud?

Franz Inc bietet off-the-shelf-tools wie AllegroGraph als Teil der Implementierung zusammen mit maßgeschneiderten tools und Programmierung für eine komplette Lösung. Für Montefiore, der Bereitstellung der Lösung auf einem lokalen cluster von Maschinen in Ihrem Rechenzentrum.

Aasman sagt, dass die meisten Krankenhäuser werden nicht verwendet, um Ihre Daten in der cloud noch nicht, aber mit Einhaltung der HIPAA-Vorschriften von Amazon, Azure und Google Cloud die Zukunft in der cloud, auch für Montefiore. Noch Aasman fühlt, dass die lokalen Cluster sind besser für die Zeit, für 2 Gründe.

Die erste ist die Bequemlichkeit: “Es ist wirklich bequem, um eine lokale cluster für die Entwicklung, die Sie bereitstellen können direkt zu einem ähnlichen Produktions-cluster. Wir können leicht neu installieren, Kernel, beheben Sie Sicherheitsprobleme, und minimieren die Bereitstellungszeit.”

Der zweite Preis: “Alle graph-Datenbanken sind mehr performant mit high-performance-SSDs, viel RAM, wenn die Daten ist viel größer als Speicher. Wir finden, dass große Speicher-Maschinen mit SSDs in die cloud sind immer noch sehr teuer.”

Aasman fügt hinzu, dass Sie sehen, eine Menge von Nachfrage nach AllegroGraph in der cloud, vor allem auf AWS, und Sie sind derzeit die Erkundung AWS für die US-Intelligence Community. Franz Inc verwendet, um bieten einen managed service in der cloud, aber Aasman der Meinung, es war seiner Zeit Voraus, als die meisten Ihrer Kunden wollte um die Kontrolle zu behalten.

Aasman jedoch sieht Chancen in der Entwicklung von verwalteten Taxonomien und Ontologien, sind Domänen-spezifisch und plan zu überdenken, dieses Angebot im nächsten Jahr. Es würde wahrscheinlich Sinn machen und für viele Unternehmen daran interessiert, SDLs, um in der Lage sein, zu verlagern, wie viel von dem know-how und workload in die cloud wie möglich.

Who really owns your Internet of Things data?

Wer wirklich besitzt Ihre Internet der Dinge, Daten?

In einer Welt, wo mehr und mehr Objekte kommen online und Hersteller engagieren sich in der supply chain, wie können Sie verfolgen, was Ihnen und was nicht?

Lesen Sie Mehr