0

Getty Images/iStockphoto – MapR
Data governance — die Disziplin der Inventarisierung und Kommentierung der Datensätze, die Bestimmung Ihrer Genauigkeit, pedigree und Qualität und richtig sichern Ihnen-ist ein wichtiger Schwerpunkt für die Industrie. In der konventionellen Datenbank-Welt, Enterprise Information Management (einschließlich ETL, data quality management und master data management) hat sich diesen Anforderungen für einige Zeit. In der data-lake-Welt, obwohl, es wurden weit weniger ernst.
Zugegeben, es gibt Daten Katalog-Produkte und Herkunft der Produkte. Es gibt verschiedene security/access control Lösungen, und es gibt Metadaten-management-Systeme sowie. Cloudera hat seine Navigator-Produkt, und es gibt sogar open-source-Apache-Atlas (ausbrüten), getragen von einer Hortonworks Projekt namens “Data Governance-Initiative.” Einige analytics-Produkte haben sogar governance-Funktionen der eigenen, verlockenden Kunden Weg zu bringen, in einem anderen Hersteller-und Plattform zur Abwicklung governance-Anforderungen.
Am Dienstag, MapR kündigte eine data governance-initiative von seiner eigenen. Es besteht aus einer interessanten architektonischen Ansatz, ein paar wichtige Partnerschaften, und ein service-Angebot zu gehen mit allem. Ich werde zunächst ausführlich MapR ist angekündigt mit, und ich werde schließen mit einigen Analyse über den Stand der data governance in Big-Data-Welt.
Pre-Prozessoren
Auf der technischen Seite, MapR hat sich ein Ansatz, der, zumindest für mich, ist ziemlich neuartig und clever. Das Unternehmen hat eine präskriptive Haltung hier und ist die Beratung von Kunden, dass alle Daten, die Einnahme sollte gehen durch MapR Event-Streams (MapR-ES, formal bekannt nur als MapR-Streams), die Unternehmens-Kafka-API-basierten publish/subscribe-Plattform für den Umgang mit event-basierten Daten-ingest.
Der Haken ist, wie es war, ist dieser: durch die Konfiguration eines pre-Prozessors auf die MapR-ES Thema, alle Daten durchgeschoben es kann beobachtet werden, seine erkennbaren Metadaten erfasst, die in ein MapR-DB Dokumenten-Datenbank, und änderungen an den Metadaten können auch dort gespeichert. Dies ermöglicht Metadaten-Katalogisierung und, wenn abgeleiteter Datensatz-Erstellung verwaltet wird, wird in ähnlicher Weise, und alle MapR-ES-events bleiben erhalten, data lineage kann bestimmt werden, umfassend, einfach, indem Sie “Wiedergabe” der Ereignisse.
Die partner Teil
So MapR bietet das raw-Infrastruktur zu bekommen, Metadaten und herkunftsinformationen. Aber es funktioniert nicht bieten eine Daten-Katalog-Einrichtung, dass die Daten-See für die Suche nach Datensätzen, – tag finden Sie, die von Ihnen zertifiziert sind und sehen Sterne-Bewertungen für Sie, die von anderen Benutzern bereitgestellt.
Das ist, wo die Partner und Ihre Produkte kommen in. Wasserlinie Daten und Collibra, von denen jede bietet Daten-Katalog und data-lineage-Funktionen sind wichtige Partner. Fass, dessen Daten Application Platform (CDAP) bietet eine einheitliche API über verschiedene Big-Data-Komponenten und spezifische APIs für Metadaten Inspektion und audit, ist ein partner.
Von selbst, dass jedes dieser Produkte nur Kataloge, was in Sie eingegeben. Sie arbeiten so lange wie jeder nutzt Sie (oder codes, um Sie, im Fall von CDAP). Im wesentlichen es ist eine Ehre system.
Die human touch
In Kombination mit der MapR-ES-governance-bits, die Dinge können mehr reglementiert, sondern nur mit einer gründlichen Umsetzung. MapR ist Quick-Start-Lösung (QSS) für Data Governance beinhaltet eine professionelle services-Komponente, die sicherstellt, dass ein Kunde die Implementierung erfolgreich ist. Sie tut dies, indem Sie die Konfiguration der Sicherheit und der Berechtigungen, dass die Daten nach der Einnahme muss durch MapR-ES, im Gegensatz zu der Umsetzung, die Fähigkeit, als eine bloße option.
Mit alles zusammen genäht in diesem Mode können die Kunden die Daten-governance über Ihre Daten See. Verschlucken ist gezwungen, durch MapR-ES, wo ein pre-Prozessor eingebettet ist, zu erfassen, Metadaten und herkunftsinformationen. Dies bedeutet, dass alle Daten on-boarding ist aktiv beobachtet und katalogisiert. Das ist die gute Nachricht.
Rechtliche Grenzen
Die schlechte Nachricht ist, dass, während diese Lösung ist für gute data governance über die Daten-See ist es noch isolierte entfernt-Systeme implementiert, die auf anderen Plattformen. Zum Beispiel, OLTP-und Data-Warehouse-Systeme unterliegen getrennt-und viele Analysen durchgeführt werden können, auf diejenigen Datenbanken, die außerhalb der Zuständigkeit der MapR-system und seine governance-Fazilität.
Und all dies zu einer Zeit, als high-profile-Datenmissbrauch-ob im Handel, entertainment-Unternehmen und Regierungen-sind ständig geschieht. Entsprechend werden die Daten Verwaltungsaufwands, einschließlich der bevorstehenden Frist für die Einhaltung der GDPR (die EU-Datenschutz-Grundverordnung), wächst immens, wie es sollte. So viel wie wir sehnen uns danach, für data governance, wir sind im wesentlichen in einem Zeitraum von Daten, die Anarchie.
Lassen Sie uns klar sein hier: MapR tut seinen fairen Anteil. Es ist nicht nur seine Converged-Data-Plattform interoperabel mit einer Reihe von data-governance-Produkte, aber es ist die Beratung und auch Umsetzung-Dienste zu machen, dass integration zwingend eher als willkürlich.
Alle für einen?
Aber die Branche als ganzes muss besser hier. Es muss der Industrie-weiten-APIs und standards, sowie Hinweise, wie Sie zu verwenden sind, von den Anbietern. Es muss auch die Automatisierung, und viel davon. Die manuelle Katalogisierung und Bereitstellung von herkunftsinformationen stützt sich auf die umfassende Beteiligung der Datenquelle Besitzer. Die Chancen, dass eine vollständige Teilnahme sind zweifelhaft und auch wenn die besten Bemühungen konnte davon ausgegangen werden, dass die schiere Anzahl der Daten-Quellen, und die rate der Ihr Wachstum, machen die manuelle Katalogisierung nicht nachhaltig.
Daten See-governance ist in einem noch Jungen Staat, nur wenn es sein muss, in einer phase, in der wirkliche Reife. Dies ist eine Krise. Und während die Anbieter sind schließlich die Aufmerksamkeit auf, Würdigung seiner Tiefe noch fehlt, ist die Dringlichkeit in immer gute Lösungen auf den Markt. Automation und machine learning werden dringend hier gebraucht, weil die Daten der Kataloge funktioniert nicht, es sei denn, Sie sind vollständig aufgefüllt, bei maximaler Genauigkeit.
Offenlegung: ich arbeite mit zwei Firmen, Datameer und Io-Tahoe, deren Produkte bieten data-governance-Funktionen und-Funktionalität.
0