DANSK

Alation: at Finde nålen i midten af… de data sø

130

Naturen afskyr et vakuum og enkelhed afskyr bedst i racen. I en ideel verden, ville der være en altomfattende paraply løsning, der kunne opfylde alle dine behov fra suppe til nødder. Du ville have færre bevægelige dele, har færre problemer med integration, og vigtigst af alt, bare en enkelt hals til at kvæle. Debatten mellem paraply vs. best-of-breed er tilbage som relevant end nogensinde i dag, især når det kommer til at balancere bekvemmelighed for blot at bruge administrerede tjenester fra en af de sædvanlige mistænkte vs. bevare valgfrihed og undgå vendor lock-in.

Bare se på de debatter, der er belægning som virksomheder få alvorlige om cloud migration. Hvis du er på AWS, der er det praktiske ved hjælp af Amazon ‘ s DynamoDB i flæng med EMR og integration med sine Data Pipelining service for prioriteringsordning data til S3 storage. Den bagside af medaljen, er spørgsmålet om, hvor afhængig din organisation ikke ønsker at få med AWS eller andre cloud-udbyder. Det er et tema, vi vil vende tilbage til senere.

Så da vi kiggede på dataene søen styring, fandt vi, at åbenhed (at vide, hvilke data der er i data-søen), og sikkerheden var i højsædet. Men der er ingen enkelt værktøj til at lave dine data søen gennemsigtig og data-indhold, der kan registreres. Der er lidt bange for vendor lock-in her. Business-hold, og DET fælles ansvar for at styre, hvilke oplysninger der er i data-søen. Business-team er ansvarlig for kuratering af deres egne data, mens DET er på krogen for at sikre, at data er sikret og reguleret korrekt.

Styring af indholdet i dine data søen involverer mange forskellige opgaver. Der er profilering og forberede data til at lave det forbrugsstof, og matching og de-duplikering for at hjælpe med at bekræfte den. For at gøre de data, der er anvendelige, er der behov for at berige det ved at blande relaterede data (såsom demografiske og adfærdsmæssige data for en kunde) og/eller indsigt af dine kolleger på nytte eller herkomst oplysninger. Og for at gøre det tilgængeligt, er det fornuftigt at offentliggøre metadata i et katalog. Så mange opgaver, og ikke så overraskende, så mange værktøjer, der er dukket op. Og der er så lidt tid.

Vores kneejerk reaktion er, at en toolchain af fire eller fem værktøjer til at udføre disse opgaver, vil ikke være bæredygtig. Men det forudsætter, at du arbejder mod en enkelt monolitisk mål. Virkeligheden er sjældent så sort og hvid. Lige som verdens bevæget sig fra forestillingen om en enkelt galaktiske enterprise data warehouse giver én version af sandheden omkring, hvilke analyser og satellit-data marts trivedes, så har også gået den opfattelse, at de data, som søen ville leve i en enkelt Hadoop klynge. Chancerne er, at din data søen er universet af data butikker, der sidder på tværs af din virksomhed, hvad enten det er din enterprise data warehouse, Oracle database, Hadoop klynge, og/eller BI-værktøj cache. Måske det imaginære single-purpose-Schweiziske hær kniv data inventory tool vil ikke være tilstrækkeligt.

Alation er et af den nye bølge af værktøjer, der hjælper erhvervslivet at gøre følelse af, hvilke data der er i søen, og hvordan til at søge det. I sidste uge, er det sikret $23 millioner i Serie B-finansiering, som vil primært fokusere på at udvide sin kanaler til markedet.

Ligesom mange af disse værktøjer, Alation sikringer machine learning og crowdsourcing til at udføre sin magi. For Alation, det handler om at katalogisere indholdet af dine data søen gennem gennemgå virksomhedens databaser med henblik på høst af metadata; tracking brugsmønstre for at give forespørgsel anbefalinger, og tilbyder naturligt sprog søg for at identificere tabeller.

Alation er næppe den eneste spiller, der giver et katalog, men de fleste af sine rivaler indarbejde den som en del af bredere tilbud. I Hadoop verden, Cloudera Navigator indeholder katalogisering som en del af en bredere data styring. Zaloni indeholder en data catalog som del af en pakke, der styrer og regulerer udfyldelse af data søer.

Udbydere som IBM og Collibra tilbyder også kataloger, som biprodukt af oplysninger stewardship tilgange, der omfatter business-ordbøger, spørgeskemaer, data ordbøger, politiske ledere, og master data-som referencedata. Men IBM ‘ s katalog (og data søen styring) kapaciteter er nu ved at blive op til fornyet overvejelse i lyset af de nye OEM-forhold med Hortonworks, der bringer i Apache-Atlas-teknologi til kodning metadata. Og du kan få katalogisering som en forlængelse af de data, udarbejdelse kapaciteter, som den kan lide af Paxata.

Funktionelt, kun et spørgsmål om direkte konkurrence er Vandlinjen Data, som har fokuseret på en kombination af machine learning og menneskelige datasikring til at identificere oprindelsen af data. Men det betyder ikke udvides til at omfatte bistand, der Alation giver mulighed for rent faktisk at forespørge data.

Så Alation udfordring det er at bevise, at det er mere end bare et produkt har. Til sin kredit, det har været en succes i at dyrke en OEM-aftale med Teradata og en unik integration med Trifacta, hvor brugere af hvert værktøj kan skifte frem og tilbage mellem katalogisering og data prep. Da Trifacta meddelelse gik i luften i slutningen af sidste år, både har linet op til en håndfuld fælles kunder, der er nu sætte de linkede løsning i produktion. Selv om de begge er placeret som selvbetjening værktøjer i praksis, data prep vil sandsynligvis være det domæne af mere teknisk kyndige brugere eller data ingeniører. Så spørgsmålet om, hvorvidt de data, folk prep data, før den business folk katalog den eller vice versa vil blive chick-eller-ægget spørgsmålet for at udforske de data søen.