Alation: Trovare un ago in mezzo… i dati lago

0
129

0

alationlogoweb-2017.png

La natura aborrisce il vuoto e semplicità detesta il migliore di razza. In un mondo ideale, ci sarebbe un onnicomprensivo ombrello soluzione in grado di soddisfare tutte le vostre esigenze di minestra ai dadi. Si avrebbe un minor numero di parti in movimento, meno problemi di integrazione, e, soprattutto, con una sola gola fino a soffocare. Il dibattito tra ombrello vs best-of-breed rimane attuale che mai oggi, soprattutto quando si tratta di bilanciare la convenienza di utilizzare solo i servizi gestiti da uno qualsiasi dei soliti sospetti contro la tutela della libertà di scelta e di evitare il vendor lock-in.

Basta guardare i dibattiti che stanno emergendo come imprese di ottenere serio circa la migrazione nel cloud. Se siete su AWS, c’è la comodità di utilizzo di Amazon DynamoDB in modo intercambiabile con EMR e l’integrazione con i Dati del Pipelining servizio per il tiering dei dati di archiviazione S3. Il rovescio della medaglia della medaglia è la questione di come dipendente vostra organizzazione vuole ottenere con AWS o qualsiasi altro fornitore di servizi cloud. Questo è un tema su cui torneremo in seguito.

Così, quando abbiamo guardato i dati lago di governance, abbiamo trovato che la trasparenza (sapendo quali sono i dati in dati lago) e la sicurezza sono di primaria importanza. Ma non esiste un unico strumento per rendere i vostri dati lago trasparente e il contenuto dei dati rilevabili. C’è un po ‘ paura di vendor lock-in, qui. Team aziendali e di condivisione di responsabilità per la gestione di informazioni che è nei dati lago. Business team sono responsabili per curare i propri dati, mentre è sul gancio per garantire che i dati siano protetti e regolati correttamente.

Gestire il contenuto dei vostri dati lago coinvolge molteplici attività. C’è la profilatura e la preparazione dei dati per rendere di consumo, e di matching e di de-duplicazione per aiutare la convalida. Per rendere i dati utilizzabili, c’è la necessità di arricchire incorporando i dati relativi (come demografici o di dati comportamentali per i clienti) e/o le intuizioni dei colleghi sull’utilità o di provenienza delle informazioni. E per renderlo accessibile, ha senso pubblicare i metadati in un catalogo. Tanti compiti, e non sorprendentemente, molti strumenti sono emerse. E c’è così poco tempo.

La nostra reazione kneejerk è che una toolchain di quattro o cinque strumenti per l’esecuzione di questi compiti non essere sostenibile. Ma che presuppone che si sta lavorando contro un unico, monolitico di destinazione. La realtà è raramente così in bianco e nero. Proprio come il mondo passa dalla nozione di un singolo galattico enterprise data warehouse fornendo l’unica fonte di verità che analytics e tv data mart prosperato, così è passato il concetto che i dati lago sarebbe vivere in un singolo cluster Hadoop. Le probabilità sono, i dati lago è l’universo di archivi di dati di seduta, in tutta l’azienda, sia che si tratti di enterprise data warehouse Oracle database cluster Hadoop e/o di strumenti di BI cache. Forse immaginario unico scopo coltellino Svizzero dati di inventario strumento non è sufficiente, dopo tutto.

Alation è uno di quella nuova ondata di strumenti per aiutare il business a rendere il senso di ciò che i dati si trovano nel lago e come query. La scorsa settimana, si è assicurato di 23 milioni di dollari nel finanziamento di Serie B, che si concentrerà soprattutto sull’ampliamento dei suoi canali di mercato.

Come molti di questi strumenti, Alation fusibili di machine learning e di crowdsourcing per eseguire la sua magia. Per Alation, si tratta di catalogare il contenuto dei vostri dati lago attraverso la ricerca per indicizzazione database aziendali per la raccolta dei metadati; monitoraggio dei modelli di utilizzo per la fornitura di query raccomandazioni; l’offerta di ricerca in linguaggio naturale per l’identificazione di tabelle.

Alation non è certo l’unico giocatore che fornisce un catalogo, ma la maggior parte dei suoi rivali di incorporare come parte di un più ampio quadro delle offerte. In Hadoop mondo, Cloudera Navigator include la catalogazione come parte di una più ampia dati quadro di governance. Zaloni incorpora un catalogo di dati come parte di un pacchetto che gestisce e governa la compilazione dei dati laghi.

Fornitori di come IBM e Collibra anche offrire cataloghi di come sottoprodotto di informazioni stewardship approcci che comprende business glossari, dizionari di dati, dirigenti politici e master di dati come dati di riferimento. Ma IBM catalogo (e i dati lago di governance) capacità sono ora essere ripensato alla luce della nuova OEM rapporto con Hortonworks, che porta in Apache Atlas tecnologia per la codifica dei metadati. E si può ottenere la catalogazione come un’estensione della preparazione dei dati per le funzionalità messe a disposizione da artisti del calibro di Paxata.

Funzionalmente, l’unica concorrenza diretta è la linea di Galleggiamento di Dati, che ha puntato su un mix di machine learning e di umano curatela per identificare la provenienza dei dati. Ma che non si estendono all’assistenza che Alation prevede in realtà l’interrogazione dei dati.

Così Alation la sfida è dimostrare che non è solo una caratteristica del prodotto. A suo credito, ha avuto successo nella coltivazione di un accordo OEM con Teradata e un’originale integrazione con Trifacta in cui gli utenti di ogni strumento possibile passare avanti e indietro tra la catalogazione e la data di preparazione. Dal momento che il Trifacta annuncio è entrato in funzione alla fine dell’anno scorso, sia a mettere in fila una manciata di clienti comuni che stanno ora mettendo collegato soluzione in produzione. Anche se entrambi sono posizionati come strumenti di self-service, in pratica, i dati prep probabilmente sarà il dominio di più utenti più smaliziati o dati tecnici. Pertanto, la questione se per avere i dati gente preparazione dati prima che la gente di affari a catalogo o viceversa diventerà il pulcino-o prima l’uovo o la domanda per esplorare i dati lago.

0