Alation: Hitta nålen i mitten av… uppgifter sjön

0
157

0

alationlogoweb-2017.png

Naturen avskyr tomrum och enkelhet avskyr bäst i rasen. I en perfekt värld, skulle det vara ett allomfattande paraply lösning som kan uppfylla alla dina behov från soppa till nötter. Du skulle ha färre rörliga delar, färre integrationsfrågor, och viktigast av allt, bara en enda hals för att strypa. Debatten mellan paraply vs best-of-breed är fortfarande lika relevant än någonsin idag, särskilt när det gäller att balansera bekvämlighet för att bara använda hanterade tjänster från någon av de vanliga misstänkta vs. bevara valfrihet och undvika inlåsning.

Titta bara på de debatter som är ytan som företag få allvarliga om cloud migration. Om du är på AWS, det är bekvämligheten av att använda Amazons DynamoDB omväxlande med EMR och integration med sina Uppgifter Pipelining service för nivåindelning data till S3 lagring. Baksidan av myntet är frågan om hur beroende av din organisation vill få med AWS eller någon annan molnleverantör. Det är ett tema som vi ska återkomma till senare.

Så när vi tittade på data sjön styrning, fann vi att öppenhet (att veta vilka data som finns i data sjön) och säkerhet var avgörande. Men det är inget enkelt verktyg för att göra din data sjön öppen och uppgifternas innehåll kan upptäckas. Det finns lite rädsla för vendor lock-in här. Business teams, och DET delar på ansvaret för att hantera vilken information som finns i data sjön. Business team är ansvariga för att kurera sina egna uppgifter, när DET är på kroken för att säkerställa att data är säkrad och styrs korrekt.

Att hantera innehållet på din data sjön innebär att flera uppgifter. Det är profilering och förbereder data för att göra det förbrukningsmaterial, samt matchning och de-duplicering för att hjälpa validera den. För att göra informationen användbar, det är behovet av att berika det med en blandning av relaterad data (till exempel demografiska eller beteendemässiga uppgifter för en kund) och/eller insikter av dina kollegor på verktyget eller varifrån informationen. Och att göra det tillgängligt, är det vettigt att publicera metadata i en katalog. Så många uppgifter, och inte så överraskande, så många verktyg har tillkommit. Och det finns så lite tid.

Våra kneejerk reaktion är att ett toolchain av fyra eller fem verktyg för att utföra dessa uppgifter kommer inte att vara hållbar. Men det förutsätter att du jobbar mot en enda monolitisk mål. Verkligheten är sällan så svart och vitt. Precis som världen gått vidare från tanken på en enda galaktiska enterprise data warehouse som ger den inre källa av sanning runt som analytics och satellit-data marts frodades, så har också gått uppfattningen att de uppgifter sjön skulle leva i en enda Hadoop-kluster. Chansen är stor att dina data sjön är universum av data butiker som sitter över ditt företag, oavsett om det är enterprise data warehouse, Oracle database, Hadoop-kluster, och/eller BI-verktyg cache. Kanske det imaginära enda syfte Swiss army kniv data inventory tool kommer inte att räcka.

Alation är en av den nya våg av verktyg för att hjälpa företag att förstå vilka data som finns i sjön och hur man fråga det. Förra veckan, det säkrade $23 miljoner i B-finansiering, som främst kommer att fokusera på att utöka sina kanaler till marknaden.

I likhet med många av dessa verktyg, Alation säkringar maskininlärning och crowdsourcing för att utföra sin magi. För Alation, det handlar om att katalogisera innehållet i dina uppgifter sjön genom att genomsöka företag databaser för att skörda metadata. spåra användningsmönster för att ge frågan rekommendationer, och erbjuder natural language search för att identifiera tabeller.

Alation är knappast den enda spelaren som tillhandahåller en katalog, men de flesta av sina konkurrenter för att införliva det som en del av ett bredare utbud. I Hadoop världen, Cloudera Navigator innehåller katalogisering som en del av en mer omfattande uppgifter styrning. Zaloni innehåller data katalog som del i ett paket som hanterar och reglerar registrering av data sjöar.

Leverantörer som IBM och Collibra också erbjuder kataloger som biprodukt av information stewardship metoder som omfattar verksamhet ordlistor, ordböcker, politiska ledare, och master data-som referensdata. Men IBM: s katalog (och data sjön styrning) funktioner finns nu att ifrågasättas i ljuset av den nya OEM relation med Hortonworks, vilket ger i Apache Atlas teknik för märkning av metadata. Och du kan få katalogisering som en förlängning av de uppgifter som beredningen kapacitet som tillhandahålls av artister av Paxata.

Funktionellt, bara om det enda direkt konkurrens är Vattenlinjen Data, som har fokuserat på en blandning av maskininlärning och mänskliga curation att identifiera varifrån data. Men det sträcker sig inte till hjälp att Alation ger faktiskt avläsning av data.

Så Alation utmaning är att visa att man är mer än bara en produkt har. Till sin kredit, det har varit framgångsrikt i att odla ett OEM-avtal med Teradata och en unik integration med Trifacta där användare av varje verktyg kan växla fram och tillbaka mellan katalogisering och data prep. Eftersom Trifacta tillkännagivande gick live i slutet av förra året, båda har radat upp en handfull gemensamma kunder som nu att sätta samman lösningen i produktion. Även om båda är placerade i form av självbetjäning verktyg, i praktiken, data prep kommer sannolikt att vara domänen för mer tekniskt kunniga användare eller data ingenjörer. Så frågan om huruvida vi skall ha de uppgifter som folk prep data innan verksamheten folk katalog eller vice versa kommer att bli tjej-eller-ägget-fråga för att utforska data sjön.

0