0

Getty Images/iStockphoto – MapR
I dati di governance; – la disciplina di inventariazione e di annotazione dei set di dati, determinare la loro accuratezza, pedigree e la qualità e la corretta protezione di loro-è un’importante area di messa a fuoco per l’industria. Nel convenzionale mondo dei database, la Gestione delle Informazioni aziendali (tra cui ETL, gestione della qualità dei dati e la gestione dei dati master) ha risposto a queste esigenze per qualche tempo. Nei dati lago di mondo, anche se gli sforzi sono stati molto meno sul serio.
Concesso, ci sono dei dati catalogo dei prodotti, e della famiglia di prodotti. Ci sono vari di sicurezza/soluzioni per il controllo accessi e ci sono metadati sistemi di gestione. Cloudera ha il suo Navigatore prodotto, e c’è anche open source di Apache Atlas (incubazione), a carico di un Hortonworks progetto chiamato “i Dati di Iniziativa in materia di Governance.” Alcuni prodotti di analisi hanno anche caratteristiche della governance di loro, che invita i clienti lontano da portare in un altro fornitore e la piattaforma per gestire i requisiti di governance.
Martedì, MapR annunciato una data governance iniziativa propria. Esso è composto di un interessante approccio all’architettura, un paio di importanti partnership, e un’offerta di servizio per andare con esso. Io prima di dettaglio MapR s ha annunciato che offre, e concluderò con alcune analisi sullo stato della governance dei dati nel Grande mondo dei Dati.
Pre-processori
Sul lato tecnico, MapR ha un approccio che, almeno a me, è un bel romanzo e intelligente. L’azienda ha assunto un atteggiamento prescrittivo qui e consulenza ai clienti che tutti i dati ingestione deve passare attraverso MapR Flussi di Eventi (MapR-ES, formalmente conosciuto come MapR Flussi di), la società di Kafka API a base di publish/subscribe piattaforma per la gestione dei dati basati su eventi ingerire.
Il gancio, come dire, è questo: tramite la configurazione di un pre-processore MapR-ES argomento, tutti i dati spinto attraverso di essa può essere osservata, la sua atmosfera metadati acquisiti in un MapR-DB database di documenti, e le modifiche dei metadati può anche registrato. Questo permette di metadati per la catalogazione e, se derivati set di dati creazione è gestito allo stesso modo, e tutti MapR-ES eventi sono mantenuti, di derivazione dei dati può essere determinato in modo completo, solo da “riproduzione” gli eventi.
Il partner di parte
Così MapR fornisce il raw infrastruttura per ottenere i metadati e le informazioni di derivazione. Ma non offre un catalogo di dati dell’impianto che consenta di dati lago di ricerca degli utenti per insiemi di dati, tag, vedere quali sono certificati e vedere stelle di classificazione per loro, forniti da altri utenti.
Questo è dove i partner e i loro prodotti sono. Linea di galleggiamento i Dati e Collibra, ciascuno dei quali offre dati catalogo di dati e di lignaggio funzionalità, sono i principali partner. Botte, i cui Dati Application Platform (CDAP) fornisce un unico API e Grandi componenti di Dati, e le Api specifiche per i metadati di ispezione e di controllo, è un partner come bene.
Dai stessi, ciascuno di questi prodotti solo cataloghi di quello che entrato in loro. Funzionano fintanto che ognuno li usa (o codici per loro, in caso di CDAP). Essenzialmente c’è un sistema d’onore.
Il tocco umano
Quando combinato con la MapR-ES governance bit, le cose possono diventare più irreggimentato, ma solo con una completa implementazione. MapR Rapida di Avvio di Soluzione (QSS) per la Governance dei Dati include un professionista componente servizi, che garantisce un’implementazione di successo. Si che si può, tra cui la configurazione di sicurezza e le autorizzazioni in modo che i dati ingestione deve avvenire attraverso MapR-ES, rispetto all’attuazione di tale capacità come una semplice opzione.
Con tutto cucito insieme in questo modo, i clienti possono disporre di governance dei dati sui loro dati lago. L’ingestione è forzato attraverso MapR-ES dove un pre-processore embedded per acquisire i metadati e le informazioni di derivazione. Questo significa che tutti i dati on-boarding è attivamente osservato e catalogato. Questa è la buona notizia.
Limiti della giurisdizione
La cattiva notizia è che, mentre questa soluzione fa per una buona governance dei dati sul dati lago, è ancora isolati di distanza da sistemi implementati su altre piattaforme. Per esempio, OLTP di Data Warehouse e sistemi sono regolati separatamente-e un sacco di analisi possono essere condotte su tali basi di dati, al di fuori della competenza del MapR sistema e la sua governance.
E tutto questo in un momento in cui di alto profilo, la violazione dei dati-sia presso i rivenditori, società di intrattenimento o di governi — accade costantemente. Di conseguenza, i dati onere normativo, tra cui l’imminente scadenza per la conformità con la GDPR (Generale dell’UE Regolamento sulla Protezione dei Dati) è in crescita immensamente, come dovrebbe. Per quanto aneliamo per la governance dei dati, ci sono, essenzialmente, in un periodo di dati anarchia.
Cerchiamo di essere chiari qui: MapR sta facendo la sua parte. Non è solo facendo la convergenza di Dati Piattaforma inter-operabile con un numero di governance dei dati prodotti, ma è in grado di fornire orientamento e anche servizi di implementazione per rendere l’integrazione obbligatoria anziché discrezionale.
Tutti per uno?
Ma il settore nel suo insieme ha bisogno di fare meglio di qui. C’è bisogno di essere a livello di settore e le Api standard, così come una guida su come usarli, presso i fornitori. C’è anche bisogno di automazione, e un sacco di esso. Manuale per la catalogazione e la fornitura di informazioni di derivazione si basa sulla piena partecipazione di origine dati proprietari. La probabilità di ottenere la piena partecipazione sono dubbi e anche se le migliori sforzi potrebbero essere assunti, il gran numero di fonti di dati, e il tasso di crescita, manuale di catalogazione insostenibile.
Dati lago di governance è un nascente stato, solo quando ha bisogno di essere in una fase di vera maturità. Questa è una crisi. E mentre i fornitori sono, infine, prestare attenzione, apprezzamento per la sua profondità è ancora carente, come è il livello di urgenza di ottenere buone soluzioni sul mercato. Automazione e di apprendimento automatico sono disperatamente necessari qui, perché avere dati cataloghi non funziona a meno che non siano completamente popolato, alla massima precisione.
Disclosure: io lavoro con due aziende, Datameer e Io-Tahoe, la cui offerta di prodotti di governance dei dati e funzionalità.
0