NORSK

Alation: het Vinden van de naald in het midden van… de gegevens meer

117

De natuur verafschuwt een vacuüm en eenvoud verafschuwt beste van het ras. In een ideale wereld, zou er een alles-overkoepelende oplossing die kan voldoen aan al uw behoeften van soep tot noten. Je zou hebben minder bewegende delen, minder integratie vraagstukken, en belangrijker nog, slechts een enkele keel te verstikken. Het debat tussen de paraplu vs. best-of-breed blijft zo relevant dan ooit, vooral wanneer het gaat om het balanceren van het gemak van het gebruik van slechts managed services van een van de usual suspects, versus het behoud van de vrijheid van keuze en het vermijden van vendor lock-in.

Kijk maar naar de discussies die bovenkomen als ondernemingen serieus over cloud migratie. Als je op AWS, is er het gemak van het gebruik van Amazon ‘ s DynamoDB door elkaar met EMR en integratie met de Gegevens Doorsluizen service voor gelaagde gegevens te S3 opslag. De keerzijde van de medaille is de vraag hoe afhankelijk uw organisatie wil bereiken met AWS of een andere cloud-provider. Dat is een thema zullen we later nog terugkomen.

Dus toen we keken naar gegevens meer governance, wij vinden dat transparantie (te weten welke gegevens wordt in de gegevens een meer) en security waren voorop. Maar er is geen enkel gereedschap voor het maken van uw gegevens meer transparant zijn en dat de gegevens content vindbaar. Er is weinig te vrezen van vendor lock-in hier. Business teams en HET delen van de verantwoordelijkheid voor het beheren van de gegevens wordt in de gegevens meer. Business teams zijn verantwoordelijk voor de programmering van hun eigen gegevens, terwijl HET op de haak er voor te zorgen dat de gegevens beveiligd zijn en beheerst goed.

Het beheren van de content van uw gegevens meer omvat meerdere taken. Er is profilering en de voorbereiding van gegevens voor het maken van het onderdeel, en de matching en de-duplicatie voor het helpen valideren. Om te zorgen dat de gegevens bruikbaar zijn, is er de noodzaak te verrijken door het mengen van gerelateerde gegevens (zoals demografische of gedrags-gegevens van een klant) en/of de inzichten van uw collega ‘ s op de utility-land van oorsprong of herkomst van de informatie. En om het toegankelijk te maken, is het zinvol om het publiceren van metadata in een catalogus. Dus vele taken, en niet zo verrassend, zo veel tools zijn ontstaan. En er is zo weinig tijd.

Onze kneejerk reactie is dat een gereedschap set van vier of vijf instrumenten voor het uitvoeren van deze taken zal niet duurzaam zijn. Maar dat veronderstelt dat je werkt tegen een enkele, monolithische doel. De werkelijkheid is zelden zo zwart-wit. Net als de wereld verhuisd vanuit de gedachte van één galactische enterprise data warehouse, het verstrekken van de enige bron van waarheid rond die google analytics en een satelliet-data marts bloeide, zo ook gegaan, met het idee dat de gegevens meer zou leven in een enkele Hadoop-cluster. De kans is groot, uw gegevens lake is de universe van opgeslagen gegevens zit in uw onderneming, of dat uw enterprise data warehouse, Oracle database, Hadoop-cluster, en/of BI-tool cache. Misschien dat denkbeeldige single-purpose Zwitsers zakmes gegevens inventory tool zal niet voldoende.

Alation is één van die nieuwe golf van tools voor het helpen van de business zin van wat gegevens is in het meer en hoe query. Vorige week verzekerd van $23 miljoen in Serie B financiering, die voornamelijk zijn gericht op de uitbreiding van haar kanalen naar de markt.

Zoals veel van deze tools, Alation zekeringen machine learning en crowdsourcing voor het uitvoeren van de magie. Voor Alation, het is over met het catalogiseren van de inhoud van uw gegevens meer door kruipen enterprise databases voor het oogsten van metadata; het bijhouden van het gebruik van patronen voor het verstrekken van query aanbevelingen; en het aanbieden van natuurlijke taal te zoeken voor het identificeren van tabellen.

Alation is niet de enige speler die een catalogus, maar de meeste van zijn rivalen op te nemen als onderdeel van een breder aanbod. In de Hadoop wereld, Cloudera Navigator omvat catalogiseren als onderdeel van een bredere data governance framework. Zaloni bevat een data-catalogus als onderdeel van een bundel die beheert en regelt het invullen van de gegevens meren.

Leveranciers als IBM en Collibra ook bieden catalogi als bijproduct van de informatie beheer benaderingen omvat business woordenlijsten, gegevens woordenboeken, beleid managers, en meester van gegevens als referentiegegevens. Maar de IBM-catalogus (en gegevens lake governance) mogelijkheden worden momenteel heroverwogen in het licht van de nieuwe OEM-relatie met Hortonworks, dat brengt de Apache Atlas technologie voor het labelen van metadata. En je kunt catalogiseren als een verlengstuk van de gegevens voorbereiding mogelijkheden die door de wil van Paxata.

Functioneel, zowat de enige directe concurrentie is Waterlijn Gegevens, die is gericht op een mix van machine learning en de menselijke curation voor het identificeren van de herkomst van de gegevens. Maar dat is niet van toepassing op bijstand die Alation biedt eigenlijk voor het opvragen van de gegevens.

Dus Alation de uitdaging is te bewijzen, het is meer dan alleen een eigenschap van het product. Op zijn naam, het is al succesvol in het kweken van een OEM-overeenkomst met Teradata en een unieke integratie met Trifacta waar gebruikers van elke tool kunt heen en weer schakelen tussen het catalogiseren en gegevens prep. Sinds de Trifacta aankondiging live ging eind vorig jaar, beide hebben gevoerd tot een handvol van de gezamenlijke klanten die nu het zetten van de gekoppelde oplossing in productie. Hoewel beide worden gepositioneerd als self-service tools in de praktijk, gegevens prep zal waarschijnlijk het domein van de meer technisch onderlegde gebruikers of gegevens ingenieurs. Dus de vraag of de gegevens die mensen prep gegevens voor de business catalogus of vice versa zal de chick-of-ei-vraag voor het verkennen van de gegevens meer.