FRANÇAIS

MapR prend un coup de couteau à la gouvernance des données, à l’âge de données de l’anarchie

201

La gouvernance des données — la discipline de l’inventaire et de l’annotation des ensembles de données, la détermination de leur exactitude, de la généalogie et de la qualité et de la sécurité — est un domaine d’intérêt important pour l’industrie. Dans le monde des bases de données classiques, Entreprise Gestion de l’Information (y compris l’ETL, des données de gestion de la qualité et de la gestion des données de base) a répondu à ces besoins pendant un certain temps. Dans les données du lac de monde, même si des efforts ont été beaucoup moins sérieux.

Certes, il ya des données du catalogue de produits, et de la lignée des produits. Il existe diverses mesures de sécurité/solutions de contrôle d’accès et il y a des métadonnées des systèmes de gestion. Cloudera a son Navigateur produit, et il ya même open source Apache Atlas (incubation), à la charge d’un projet hortonworks a appelé la “Gouvernance de Données de l’Initiative.” Certains produits d’analyse ont même gouvernance de leurs, à inciter les consommateurs à l’écart de porter un autre fournisseur et de la plate-forme pour gérer les exigences en matière de gouvernance.

Mardi, MapR a annoncé des données, initiative de gouvernance des sa propre. Il est composé d’une intéressante approche architecturale, un peu de partenariats clés, et une offre de service pour aller avec tout ça. Je vais d’abord de détail MapR est annoncé offre, et je vais conclure avec une analyse sur l’état de la gouvernance des données dans les Données importantes du monde.

Pré-processeurs
Sur le plan technique, MapR a une approche qui, pour moi, au moins, est assez nouvelle et intelligente. L’entreprise a pris une position normative ici et est de conseiller les clients de toutes les données de l’ingestion doit passer par MapR Événement Flux de revenus (MapR-ES, officiellement connu comme MapR Flux), de la société Kafka API à base de publier/souscrire plate-forme pour le traitement de l’événement base de données de l’ingérer.

Le crochet, comme c’était le cas, est-ce: par la configuration d’un pré-processeur de la MapR-ES sujet, toutes les données ont poussé à travers elle peut être observée, reconnaissables métadonnées recueillies dans un MapR-DB, base de données de documents, et des modifications de métadonnées peuvent également enregistrées. Cela permet de catalogage de métadonnées et, si les données dérivées de création du jeu est géré de la même façon, et tous les MapR-ES événements sont conservés, le lignage de données peut être déterminé de manière exhaustive, tout en “jouant les événements.

Le partenaire de la partie
Donc, MapR offre les premières infrastructures d’obtenir des métadonnées et les informations de lignage. Mais il n’offre pas un catalogue de données installation qui permettrait à des données d’utilisateurs de lac de recherche pour les jeux de données, de les marquer, de voir qui d’entre eux sont certifiés et voir les étoiles pour eux, fournis par d’autres utilisateurs.

C’est là que les partenaires et de leurs produits. Ligne de flottaison de Données et Collibra, qui offre catalogue de données et de lignage des données de la fonctionnalité, sont les principaux partenaires. Fût, dont les Données de la Plateforme d’Applications (CDAP) fournit une API unifiée sur les divers composants Big Data, et des Api spécifiques pour les métadonnées de l’inspection et de l’audit, est un partenaire.

Par eux-mêmes, chacun de ces produits que les catalogues de ce qui est entré en eux. Ils travaillent aussi longtemps que tout le monde utilise (ou des codes pour eux, dans le cas de la CDAP). Essentiellement, il y a un système d’honneur en place.

Le contact humain
Lorsqu’il est combiné avec le MapR-ES de la gouvernance bits, les choses peuvent devenir plus strict, mais seulement avec une mise en œuvre rigoureuse. MapR Rapide du Début de la Solution (QSS) pour la Gouvernance des Données comprend un professionnel de services composant qui assure un client, le succès de l’application. Il n’est que la configuration de la sécurité et des autorisations telles que l’ingestion de données doit avoir lieu par le biais de MapR-ES, par opposition à la mise en œuvre de cette capacité comme une simple option.

Avec tout cousu ensemble dans ce mode, les clients peuvent avoir de la gouvernance des données sur leurs données lac. L’Ingestion est forcé à travers MapR-ES où un pré-processeur est intégré pour capturer les métadonnées et les informations de lignage. Cela signifie que toutes les données sur l’embarquement est observée et catalogués. C’est une bonne nouvelle.

Les limites de compétence
La mauvaise nouvelle est que, bien que cette solution ne fournir pour une bonne gouvernance des données sur les données du lac, il est encore en silo à l’écart de systèmes mis en œuvre sur d’autres plates-formes. Par exemple, OLTP et de l’Entrepôt de Données systèmes sont régis séparément-et beaucoup d’analyse peut être menée sur ces bases de données, en dehors du champ de la MapR système et de sa facilité de gouvernance.

Et tout cela à un moment où les graves violations de données-que ce soit à des détaillants, des sociétés de divertissement ou les gouvernements-sont produisent constamment. En conséquence, les données du fardeau de la réglementation, y compris l’approche de la date limite pour la conformité avec GDPR (Général de l’UE à la Protection des Données le Règlement) est croissante énormément, comme il se doit. Autant que nous aspirons pour la gouvernance des données, nous sommes essentiellement dans une période d’anarchie.

Soyons clairs ici: MapR est en train de faire sa juste part. Non seulement est-il de rendre ses Données Convergent Plate-forme inter-opérable avec un certain nombre de gouvernance des données produits, mais c’est fournir des conseils et même des services de mise en œuvre pour faire de cette intégration obligatoire plutôt que discrétionnaire.

Tous pour un?
Mais l’ensemble de l’industrie se doit de faire mieux ici. Il faut être à l’échelle de l’industrie des Api et des normes, ainsi que des conseils sur la façon de les utiliser, de les vendeurs. Il doit également être l’automatisation, et beaucoup d’elle. Manuel de catalogage et de mise à disposition de la lignée de l’information repose sur la pleine participation de la source de données propriétaires. Les chances d’obtenir que la pleine participation sont douteux, et même si des efforts pourraient être assumé, le nombre de sources de données, et le rythme de leur croissance, faire de manuel de catalogage insoutenable.

Les données de lac de la gouvernance est dans un nouvel état, juste au moment où il doit être dans une phase de véritable maturité. C’est une crise. Et tandis que les vendeurs sont enfin de prêter attention à elle, l’appréciation de ses profondeurs est pas encore, comme c’est le niveau d’urgence à obtenir de bonnes solutions sur le marché. L’automatisation et l’apprentissage de la machine sont désespérément nécessaire ici, car le fait d’avoir des catalogues de données ne fonctionne pas, sauf s’ils sont entièrement remplie au maximum de précision.

Divulgation: je travaille avec deux sociétés, Datameer et Io-Tahoe, dont les produits offrent de gouvernance des données les caractéristiques et la fonctionnalité.