0

Getty Images/iStockphoto – MapR
Data governance-disciplin af indeksering og anmærkning af dine data sæt, som er afgørende for deres nøjagtighed, stamtavle og kvalitet og korrekt sikring dem-er et vigtigt fokusområde for branchen. I den konventionelle database verden, Enterprise Information Management (herunder ETL, data quality management og master data management) har behandlet disse behov for lidt tid. I de data, sø verden, om en indsats har været langt mindre alvor.
Indrømmet, der er data catalog produkter, og afstamning produkter. Der er forskellige security/adgangskontrol løsninger, og der er metadata management systemer. Cloudera har sin Navigator produkt, og der er endda open source Apache-Atlas (inkubering), der bæres af en Hortonworks projekt kaldet “Data Governance Initiativ.” Nogle analytics produkter selv har styring funktioner af deres egne, lokke kunder væk fra at bringe sig i en anden leverandør og platform til at håndtere governance krav.
Tirsdag, MapR annonceret en data governance initiativ af sine egne. Det består af en interessant arkitektonisk tilgang, et par vigtige partnerskaber, og en service der tilbyder at gå med det hele. Jeg vil først detaljer MapR har meddelt, at man tilbyder, og jeg vil slutte af med en analyse på staten af data governance i Big Data verden.
Pre-processorer
På den tekniske side, MapR er kommet en tilgang, der, for mig i hvert fald, er ret ny og smart. Virksomheden har truffet et normativt standpunkt her og rådgive kunderne om, at alle data indtagelse bør gå gennem MapR Begivenhed Vandløb (MapR-ES, formelt kendt blot som MapR Vandløb), virksomhedens Kafka API-baseret publish/subscribe platform til håndtering af event-baserede data, der indtages.
Krogen, som det var, er denne: ved konfiguration af en pre-processor på MapR-ES emne, hvor alle data skubbes gennem det, der kan observeres, sin synlig metadata fanget i en MapR-DB dokument database -, og metadata ændringer kan også indspillet der. Dette giver mulighed for metadata, katalogisering og, hvis afledte datasæt skabelse er lykkedes på samme måde, og alle MapR-ES begivenheder er bevaret, data slægt kan bestemmes omfattende, bare ved at “spille back” arrangementer.
Den partner, der er en del
Så MapR giver den rå infrastruktur til at få metadata og slægt oplysninger. Men det er ikke en data catalog facilitet, der ville lade data søen brugere søge efter data sæt, tag dem, og se, hvilket af dem er certificerede og se star-klassifikationen for dem, der leveres af andre brugere.
Det er her, partnere og deres produkter kommer i. Vandlinjen Data og Collibra, som alle tilbyder data katalog og data slægt funktionalitet, er centrale partnere. Cask, hvis Data Application Platform (CDAP) giver et samlet API over forskellige Big Data-komponenter, og specifikke Api ‘ er til metadata inspektion og revision, er en partner som godt.
Af sig selv, hver enkelt af disse produkter kun kataloger, hvad der er trådt ind i dem. De arbejde så længe som alle bruger dem (eller koder til dem, i tilfælde af CDAP). I det væsentlige, at der er en ære system på plads.
Den menneskelige kontakt
Når det kombineres med MapR-ES styring bits, kan det blive mere ensrettet, men kun med en grundig gennemførelse. MapR ‘ s Hurtig Start-Løsning (QSS) for Data Governance omfatter en professionel service komponent, der sikrer, at en kunde med implementeringen er vellykket. Det betyder, at ved at medtage konfiguration af sikkerhed og tilladelser, således at data indtagelse skal finde sted gennem MapR-ES, som i modsætning til gennemførelse af denne evne som en simpel løsning.
Med alt syet sammen på denne måde, kan data styring over deres data-søen. Indtagelse er tvunget gennem MapR-ES, hvor en pre-processor er indbygget for at fange metadata og slægt oplysninger. Det betyder, at alle data on-boarding er aktivt observeret og katalogiseret. Det er den gode nyhed.
Jurisdiktionelle grænser
Den dårlige nyhed er, at mens denne løsning giver for gode data governance data over søen, det er stadig siloed væk fra systemer, der implementeres på andre platforme. For eksempel, OLTP-og Data Warehouse-systemer styres separat — og masser af analysen kan udføres på de databaser, uden for rammerne af den MapR system og styring, anlægget.
Og alt dette på et tidspunkt, hvor høj profil sikkerhedsbrud — uanset om det er på detailhandlere, underholdning virksomheder eller regeringer — sker hele tiden. I overensstemmelse hermed, er de data, reguleringsmæssige byrder, herunder den forestående fristen for overholdelse af GDPR (EU ‘ s Generel Forordning om databeskyttelse) vokser utroligt, som det skal. Så meget som vi længes efter data governance, vi i bund og grund i en periode af data anarki.
Lad os være klar her: MapR gør sin fair andel. Ikke alene er det at gøre sin Konvergerede Data Platform inter-betjenes med en række data governance produkter, men det er at yde vejledning og selv implementering gør, at integration obligatorisk snarere end en selv.
Alle for én?
Men branchen som helhed er nødt til at gøre det bedre her. Der er behov for branchen Api ‘ er og standarder, samt vejledning om, hvordan man bruger dem, fra leverandører. Der er også behov for automatisering, og masser af det. Manuel katalogisering og levering af slægt oplysninger, der bygger på den fulde deltagelse af data source ejere. Chancerne for at få det fulde deltagelse er tvivlsom, og selv om de bedste bestræbelser herpå kunne være antages, antallet af datakilder, og antallet af deres vækst, foretage manuelle katalogisering uholdbar.
Data søen styring er i en begyndende stat, bare når det skal være i en fase af fast løbetid. Det er en krise. Og mens leverandører er endelig opmærksom på det, påskønnelse af dens dybder mangler stadig, som er det niveau af, at det haster med at få gode løsninger på markedet. Automation og machine learning er et desperat behov for her, fordi det at have data i kataloger, virker ikke, medmindre de er fuldt befolket med højeste nøjagtighed.
Oplysning: jeg arbejder med to virksomheder, Datameer og Io-Tahoe, hvis produkter, data governance funktioner og funktionalitet.
0