MapR neemt een steek op het gebied van data governance, in een tijd van anarchie gegevens

0
171

0

distributed-deep-learning-mapr.jpg
Getty Images/iStockphoto – MapR

Data governance — de discipline van het inventariseren en annoteren van uw gegevens, het bepalen van hun juistheid, de afkomst en de kwaliteit en een goede beveiliging van hen-is een belangrijk aandachtsgebied voor de industrie. In de conventionele wereld van databases, Enterprise Information Management (met inbegrip van ETL, data quality management en master data management) heeft aangesproken, deze moet voor een bepaalde tijd. In de gegevens lake wereld, maar de inspanningen zijn veel minder ernstig.

Toegegeven, er zijn gegevens catalogus de producten, en de afkomst van producten. Er zijn diverse security/oplossingen voor toegangscontrole en er zijn metadata management systemen. Cloudera zijn Navigator product, en er is zelfs open source Apache Atlas (incubatie), ten laste van een Hortonworks project genaamd “Data Governance Initiative.” Sommige analytics producten hebben zelfs governance kenmerken van hun eigen, verleidelijke klanten weg te brengen in een andere leverancier en platform om de governance-eisen.

Op dinsdag, MapR aangekondigd een data governance initiatief van zijn eigen. Het bestaat uit een interessante architecturale benadering, een paar belangrijke samenwerkingsverbanden, en een service-aanbod om te gaan met dit alles. Ik zal eerst detail MapR is aangekondigd, en zal ik afsluiten met een analyse over de toestand van data governance in de Big Data-wereld.

Pre-processors
Aan de technische kant, MapR is gekomen tot een aanpak die, althans voor mij, is vrij nieuw en slim. Het bedrijf heeft een normatieve houding hier en is het adviseren van klanten voor dat alle gegevens, inname moet gaan door middel van MapR Event Streams (MapR-ES, formeel bekend als MapR Stromen), het bedrijf Kafka API-gebaseerde publish/subscribe platform voor de afhandeling van de event-gebaseerde data binnenkrijgt.

De haak, als het ware, is dit: door het configureren van een pre-processor op de MapR-ES onderwerp, alle gegevens geduwd door middel van het waargenomen kunnen worden, zijn waarneembaar metadata vastgelegd in een MapR-DB document database, metadata, kunnen ook wijzigingen opgenomen. Dit maakt het voor de metagegevens van het catalogiseren en, als afgeleide gegevens, het maken van sets wordt beheerd op dezelfde manier, en alle MapR-ES gebeurtenissen worden bewaard, data lineage kan bepaald worden uitgebreid, gewoon door “afspelen” de gebeurtenissen.

De partner deel
Dus MapR biedt de raw-infrastructuur om metadata en lineage informatie. Maar het niet bieden van een data catalog faciliteit waarmee gegevens meer gebruikers zoeken naar datasets, tag ze kunnen zien welke van hen zijn gecertificeerd en zie star-waarden voor hen, die door andere gebruikers.

Dat is waar de partners en hun producten komen. Waterlijn Gegevens en Collibra, die data catalog en data lineage functionaliteit zijn belangrijke partners. Vat, van wie de Gegevens Application Platform (CDAP) levert een enkele API over verschillende Big Data componenten en specifieke Api ‘ s voor metadata inspectie en audit, is een partner zijn.

Door zelf, elk van deze producten is alleen catalogi wat is aangegaan. Ze werken zolang iedereen gebruikt ze (of codes aan hen, in het geval van CDAP). In wezen is er een eer systeem in de plaats.

De ‘human touch’
Wanneer gecombineerd met de MapR-ES governance bits, de dingen kunnen meer gedisciplineerd, maar alleen met een gedegen uitvoering. MapR de Quick Start-Oplossing (QSS) voor Data Governance omvat een professionele diensten component die ervoor zorgt dat een klant de implementatie is succesvol. Het doet dat door de configuratie van de beveiliging en machtigingen, zodanig dat gegevens inslikken dient plaats te vinden door middel van MapR-ES, in tegenstelling tot de implementatie van dat vermogen als louter een optie.

Met alles aan elkaar gestikt op deze manier kunnen klanten hebben data governance over hun data meer. Inslikken wordt gedwongen door MapR-ES waar een pre-processor is ingesloten op het vastleggen van metadata en lineage informatie. Dit betekent dat alle gegevens on-boarding is actief waargenomen en gecatalogiseerd. Dat is het goede nieuws.

Juridische grenzen
Het slechte nieuws is dat, hoewel deze oplossing is voor een goede data governance over de gegevens meer, het is nog steeds een gescheiden afstand van systemen die op andere platformen. Bijvoorbeeld, OLTP-en Data Warehouse systemen worden apart bestuurd worden — en veel van de analyse kan worden uitgevoerd op die databases, buiten de actieradius van de MapR systeem en de governance van de faciliteit.

En dit alles in een tijd waarin high-profile data-inbreuken, of bij retailers, entertainment bedrijven of overheden-zijn gebeurt voortdurend. Bijgevolg zijn de gegevens van administratieve lasten, met inbegrip van de op handen zijnde termijn voor de naleving van de GDPR (de EU, de Algemene Verordening gegevensbescherming) groeit enorm, zoals het hoort. Zo veel als we verlangen voor data governance, we zijn wezen in een periode van gegevens anarchie.

Laten we hier duidelijk: MapR doet haar fair share. Het is niet alleen het maken van de Converged Data Platform inter-operabel met een aantal data governance producten, maar het is voor het begeleiden en zelfs de uitvoering van diensten op te maken dat de integratie van de verplichte plaats van discretionaire.

Allen voor één?
Maar de industrie moet als geheel beter te doen hier. Er moet een industrie-brede Api ‘ s en normen, evenals advies over het gebruik van hen, en van de verkopers. Er moet ook automatisering, en veel van. Handleiding voor catalogiseren en bepaling van de afstamming informatie is gebaseerd op de volledige participatie van de gegevensbron eigenaren. De kans dat de volledige participatie zijn dubieuze en zelfs als beste inspanningen kan worden aangenomen, het grote aantal gegevensbronnen, en de snelheid van de groei, met de hand catalogiseren onhoudbaar.

Gegevens meer governance in een jonge staat, alleen als het moet in een fase van echte volwassenheid. Dit is een crisis. En terwijl verkopers zijn eindelijk aandacht, waardering van haar diepten is nog ontbreekt, is de mate van urgentie bij het verkrijgen van goede oplossingen op de markt. Automatisering en machine learning zijn hard nodig, want met data catalogi werkt niet tenzij ze volledig zijn ingevuld, bij een maximale nauwkeurigheid.

Disclosure: ik werk met twee bedrijven, Datameer en Io-Tahoe, waarvan de producten bieden data governance functies en functionaliteit.

0