0

Getty Images/iStockphoto – MapR
Data governance — disciplin för att inventera och beskriva dina data, avgör deras riktighet, stamtavla och kvalitet och med rätt säkra dem — är ett viktigt fokusområde för branschen. I vanlig databas världen, Enterprise Information Management (inklusive ETL, data quality management och master data management) har tagit itu med dessa behov för viss tid. I data sjön världen, men insatserna har varit långt mindre allvar.
Beviljats, det finns data catalog produkter, och lineage produkter. Det finns olika security/access control-lösningar och det är metadata management system. Cloudera har sin Navigator produkt, och det är även öppen källkod Apache Atlas (ruvande), som bärs av en Hortonworks projekt som kallas “Data Governance Initiative.” Vissa analytics produkter även har styrning har sin egen locka kunder från att föra i en annan leverantör och plattform för att hantera styrning krav.
På tisdag, MapR meddelade en data governance initiativ av sina egna. Det består av en intressant arkitektonisk strategi, några viktiga partnerskap, och en tjänst som erbjuder att gå med det hela. Jag ska först detalj MapR har meddelat att det har att erbjuda, och jag ska avsluta med några analyser om läget i data governance i Big Data världen.
Pre-processorer
På den tekniska sidan, MapR har kommit upp en strategi som, för mig åtminstone, är ganska ny och smart. Företaget har tagit en normativ hållning här och ge råd till kunder om att alla data intag bör gå igenom MapR Händelse Strömmar (MapR-ES, formellt känd som MapR Strömmar), företagets Kafka API-baserad publicera/abonnera plattform för hantering av händelse-baserad data äter.
Kroken, som det var, är denna: genom att konfigurera en pre-processor på MapR-ES ämne, alla data som drivit igenom det som kan observeras, dess urskiljas metadata fångade i en MapR-DB dokument databas, och ändringar av metadata kan också spelat in det. Detta gör det möjligt för metadata katalogisering och, om derivat data som skapande hanteras på samma sätt, och alla MapR-ES-händelser finns kvar, ursprungsinformation kan fastställas på ett heltäckande, bara genom att “spela upp” de händelser.
Partnern del
Så MapR ger rå infrastruktur för att få metadata och lineage information. Men det är inte en data catalog anläggning som skulle låta data sjön användare söka efter data, tag dem, se vilken av dem som är certifierade och se star-märkning för dem, som tillhandahålls av andra användare.
Det är där partners och deras produkter kommer in. Vattenlinjen Data och Collibra, varje av som erbjuder data-katalog och ursprungsinformation funktionalitet, är viktiga samarbetspartners. Cask, vars Uppgifter Application Platform (CDAP) ger en enhetlig API över olika Stora Uppgifter komponenter, och specifika Api: er för metadata inspektion och revision, är en partner också.
Av sig själva, var och en av dessa produkter bara kataloger vad som trädde i dem. De fungerar så länge alla använder dem (eller koder till dem, i händelse av CDAP). I huvudsak är det är en ära system på plats.
Den mänskliga kontakten
När de kombineras med MapR-ES styrning bitar, kan det blir mer likriktat, men bara med ett noggrant genomförande. MapR s Quick Start-Lösning (QSS) för Data Governance innefattar en professionell tjänst komponent som säkerställer att kundens genomförandet är framgångsrik. Det gör det genom att bland annat konfiguration av säkerhet och behörigheter så att data förtäring måste ske genom MapR-ES, i motsats till att genomföra denna förmåga som en ren alternativ.
Med allt sytt ihop på detta sätt kan kunderna få data styrning över sina uppgifter sjön. Förtäring tvingas genom MapR-ES där en pre-processor är inbyggda för att fånga metadata och lineage information. Detta innebär att alla data on-boarding är aktivt observerade och katalogiseras. Det är goda nyheter.
Jurisdiktion gränserna
Den dåliga nyheten är att även denna lösning ger bra data governance över data sjön, det är fortfarande skarpt avgränsade bort från system som tillämpas på andra plattformar. Till exempel, OLTP och Data Warehouse system regleras separat — och massor av analys kan utföras på dessa databaser, utanför ramen för MapR systemet och dess styre.
Och allt detta på en gång när uppmärksammade dataintrång-om hos återförsäljare, underhållning företag eller regeringar — händer hela tiden. Därmed data regelbördan, inklusive den förestående tidsfristen för att följa med GDPR (Allmän uppgiftsskyddsförordning) växer enormt som det ska. Så mycket som vi längtar efter data governance, vi är i huvudsak i en period av data anarki.
Låt oss vara tydliga här: MapR gör sin beskärda del. Inte bara är det att göra sin Data Plattform för Konvergerade sammarbetande med ett antal data governance produkter, men det är att ge vägledning och även genomförandet tjänst ska göra är att integration obligatoriska snarare än frivilliga.
Alla för en?
Men branschen som helhet behöver för att göra bättre här. Det måste vara branschgemensam Api: er och standarder, samt vägledning om hur man använder dem, från leverantörer. Det måste också finnas automation, och massor av det. Manuell katalogisering och tillhandahållande av härstamning information bygger på full delaktighet i datakällan ägare. Chanserna att full sysselsättning är tvivelaktiga och även om bästa insatser kan antas, är det stora antalet datakällor, och graden av deras tillväxt, gör manuell katalogisering ohållbar.
Data sjön styrning är i en spirande staten, bara när det måste vara i en fas av verklig mognad. Detta är en kris. Och medan leverantörer är äntligen betala uppmärksamhet, uppskattning av dess djup saknas fortfarande, som är den nivå av brådska för att få bra lösningar på marknaden. Automation och lärande är i desperat behov här, på grund av att data kataloger fungerar inte, såvida de inte är fullständigt ifyllt, vid maximal noggrannhet.
Disclosure: jag arbetar med två företag, Datameer och Io-Tahoe, vars produkter erbjuder data governance funktioner och funktionalitet.
0