ITALIANO

Semantica dei dati lago di architettura in ambito sanitario e di là

I medici vogliono utilizzare IBM supercomputer per diagnosticare le condizioni di salute

Ontologico pipeline di dati

Ontologico pipeline di dati suoni di fantasia, ma che cos’è esattamente e perché dovremmo cura? E ‘ una pipeline di dati in cui i dati in ingresso vengono annotati con metadati utilizzando un’ontologia. Un’ontologia è senza dubbio la più avanzata forma di schema di tutto in termini di capacità di catturare la semantica, e quindi l’aspetto semantico dei dati lago.

Abbiamo discusso l’approccio e l’architettura, con il Dr. Jans Aasman, CEO di Franz, Inc. Franz Inc. è il venditore dietro AllegroGraph, RDF grafico database che gestisce i metadati descrittivi/ontologico pipeline aspetto della soluzione.

Aasman spiega che la SDL supporta sia veloce in tempo reale di input (per esempio HL7 flussi) e di grandi dimensioni, lotto orientato massa inserti di ETL (Extract Transform Load) processi.

Ma la domanda un milione di dollari è: “come fa l’annotazione semantica accadere. Sono tutti dati che inserisci il lago già commentato in caso di ingestione, o c’è un ulteriore annotazione? Come viene effettuato — automaticamente, semi-automaticamente, manualmente? Ci sono strumenti per questo?

Aasman dice di utilizzare un visual strumento ETL per disegnare una mappatura tra i dati del EDW o HL7 flussi sanitari ontologia che copre tutto ciò che potrebbe mai accadere a un paziente in un ospedale del ciclo di vita:

“Questo crea un dichiarativa di mappatura che viene letto da un programma Java che trasforma automaticamente (per lo più) di dati relazionali in una rappresentazione grafico (aka triple). Ogni elemento grafico è annotata dall’di tabella e di colonna è venuto da e ETL data.

“Abbiamo, inoltre, annotare ogni tripla con quello che noi chiamiamo ‘tripla attributi che ci permettono di fare in modo selettivo i dati disponibili per gli utenti con ruoli diversi. Questa è una spettacolare nuova funzionalità di AllegroGraph che ci sarà pubblicamente annunciato a breve.

“In questa impostazione, il vocabolario di gestione è estremamente importante. Healthcare ha più di 180 vocabolari, tassonomie e terminologia sistemi, come la Maglia, Snomed, UMLS, LOINC, RxNorm, etc.”

L’integrazione di dati è uno dei punti di forza di modellazione ontologica, e Aasman dice che queste tassonomie sono tutti interconnessi e legati a ‘vita reale’ concetti come ICD9 e ICD-10, i codici di procedura e CONTRIBUTIVO per i farmaci:

“Questo, combinato e integrato terminologia di sistema (sanitario ontologia) è il cuore del processo di ETL, ed è incredibilmente importante per le query e analisi,” dice.

SPARQL oltre Scintilla

Ontologie e grafico database suono grande e tutti, ma c’è di più SDL soluzione. Dove e come esattamente ontologica di modellazione e AllegroGraph fit big picture?

Aalman spiega: “Abbiamo distribuito AllegroGraph su Cloudera cluster. Siamo in grado di leggere/scrivere da HDFS e siamo in grado di eseguire Scintilla sulla parte superiore e utilizzare MLlib per la nostra analisi. Distribuito AllegroGraph, il database sotto la SDL architettura, fornisce tutte le funzionalità di un Lambda di architettura.”

Che è una scelta inusuale, che significa, per esempio, che invece di SQL, SPARQL è utilizzato come linguaggio di query. Perché andare per esso? E come eseguire rispetto a soluzioni più tradizionali?

“I database relazionali fare quando i dati si inserisce nella relativamente semplice schema, non c’è nessuna rete dati e fare grandi query di aggregazione. Grafico database di fare meglio quando si esegue algoritmi di grafico in cui è imprevedibile come profondo è il tuo grafico algoritmo.

“Inoltre, il grafico database di eseguire molto meglio quando si dispone di un sacco di query ad hoc o quando i dati sono incredibilmente complessi, o se la vostra applicazione potranno beneficiare di ragionamento,” Aasman dice.

Che cosa circa la query complessità? Aasman dice che, come un produttore vedono le query che vanno da una linea a 1500 righe di codice, e ha fornito una tipica SPARQL query da Montefiore progetto per buona misura:

“Questa query trova la top 100 pazienti che sono più simile a un paziente determinato da un insieme di 2,7 milioni di pazienti. Il primo sottoquery trova per un particolare paziente il suo o la sua razza e il sesso e tutti i codici icd9.

“Perché questi codici icd9 sono molto specifiche, siamo in collegamento i codici icd9 per concetti nella nostra knowledge base riportato di seguito e risaliamo la terminologia scala ricorsiva modo e poi giù di nuovo a trovare tutti i membri della famiglia che icd9 codice.

“Una volta che abbiamo è quello che tutti gli altri pazienti che hanno il più alto si sovrappongono in codici icd9 (beh, il super membri), con la nostra start paziente. Questo è un altro esempio di compattezza di SPARQL.

“Possiamo anche usare la Scintilla per fare un SPARQL query distribuite AllegroGraph. Usiamo la Scintilla di analisi e quindi siamo in grado di salvare i risultati di analytics di nuovo in AllegroGraph come appena apprese le informazioni,” dice.

SDL supporta sia veloce in tempo reale di ingresso e di grandi dimensioni, lotto orientato massa inserti di processi ETL. AllegroGraph è un aggiungere solo grafico database, spiega Aasman, in modo che i nuovi dati vengono aggiunti a quelli esistenti indici:

“Ci sono continui sfondo processi di ottimizzazione che unire tutti i blocchi di dati in uno linearmente ordinati indice di spazio, ma la realtà è che se i dati in streaming 24/7 gli indici non sono mai perfettamente ordinati in modo che la query motore di guardare in entrambe le esistenti indici e aggiunto nuovi pezzi”.

Grafico browser, macchine del tempo e del machine learning

Aasman aggiunge che il Burbero, AllegroGraph grafico di browser, permette agli utenti di creare visivamente una query e quindi generare SPARQL (o Prolog) codice della query. Franz Inc ha appena rilasciato una nuova versione di Gruff, l’aggiunta di ciò che essi chiamano “Macchina del Tempo” in grado di farlo.

Molti casi di utilizzo per grafico database di coinvolgere gli eventi temporali. Gli eventi sono modellati come oggetti che hanno un orario di inizio, ora di fine, un tipo, alcuni attori e una posizione geospaziale.

Aasman dice Burbero v7.0 del nuovo dispositivo di scorrimento temporale funzionalità consente agli utenti di dimostrare visivamente come grafici composta di eventi temporali sono costruiti nel tempo, consentendo una macchina del tempo come esplorazione dei dati.

Ultimo ma non meno importante, la Macchina è parte dell’Apprendimento. Questo non è qualcosa di grafico database offrono in genere, così come funziona per AllegroGraph?

Dati gli scienziati in realtà non importa quello che fanno loro analytics contro, sostiene Aasman, come a lungo possibile ottenere la loro funzione di set di immagazzinamento dei dati in un file csv, o meglio ancora, come una panda) frame di dati.

“Per rendere la vita più semplice per i dati di scienziati che vogliono lavorare con AllegroGraph attualmente abbiamo un open source R di interfaccia open source AllegroGraph – interfaccia Python che è installabile direttamente via Anaconda.

“Tuttavia, abbiamo anche un migliore punto di integrazione e che è che abbiamo messo tutti i risultati di analytics indietro nel AllegroGraph come triple e quindi rendere navigabile tramite il Burbero.

“Vedere un esempio qui sotto. Non solo memorizza tutti i risultati, ma anche i metadati sui risultati, come per esempio: chi ha fatto l’analisi, quando, che cosa gli script sono stati utilizzati, quali insiemi di dati sono stati utilizzati, ecc”, dice.

Semantica dei dati laghi nel cloud?

Questo sembra un buon modo per giocare su ogni singolo sistema di punti di forza in un SDL soluzione, anche se la gamma di tecnologie utilizza la rendono piuttosto complessa. Non sarebbe aiutare le aziende che hanno avuto accesso a tali productized soluzioni in cloud?

Franz Inc fornisce la piattaforma di strumenti come AllegroGraph nell’ambito dell’attuazione con su misura e strumenti di programmazione per una soluzione completa. Per Montefiore, la soluzione è distribuita su un cluster di macchine nel loro data center.

Aasman dice che la maggior parte degli ospedali non sono abituato a mettere i propri dati in cloud, ma con conformità di HIPAA da Amazon, Azure e Google Cloud sarà il futuro del cloud, anche per Montefiore. Ancora Aasman si sente che i distretti locali che sono migliori per il momento, per 2 motivi.

Il primo è la convenienza: “è davvero comodo avere un cluster locale per lo sviluppo che è possibile distribuire direttamente a un simile cluster di produzione. Si può facilmente reinstallare il kernel, per risolvere i problemi di sicurezza, e ridurre al minimo i tempi di distribuzione.”

Il secondo è il prezzo: “Tutti graph database più performante, con elevate prestazioni di Ssd e un sacco di RAM – se i dati è molto più grande di memoria. Troviamo che le grandi macchine della memoria con Ssd nel cloud sono ancora molto costosi.”

Aasman aggiunge che vedono un sacco di domanda per AllegroGraph nel cloud, principalmente su AWS e che sta esplorando AWS per la Comunità dell’Intelligence. Franz Inc utilizzato per offrire un servizio gestito nel cloud, ma Aasman crede che era in anticipo sui tempi, come la maggior parte dei loro clienti voluto mantenere il controllo.

Aasman tuttavia vede opportunità in via di sviluppo gestito tassonomie e ontologie di dominio specifico e piano di rivedere questa offerta il prossimo anno. Avrebbe senso per molte organizzazioni interessate a tali posizioni per essere in grado di eliminare quanto più possibile del know-how e il carico di lavoro per il cloud possibile.

Who really owns your Internet of Things data?

Chi davvero possiede il vostro Internet delle Cose?

In un mondo dove sempre di più gli oggetti sono in linea e i fornitori coinvolti nella catena di fornitura, come si può tenere traccia di ciò che è tuo e ciò che non lo è?