Di Hadoop per confezione: SQL ovunque e AtScale

0
303

Si potrebbe non rendersene conto, ma Hadoop è già stato in giro per 10 anni. Anche ora, con la maggior parte delle organizzazioni che hanno in un modo o nell’altro l’ha adottata, non tutto è ovvio e chiaro. Ma quando è uscito prima da Yahoo nel 2006, Dave Mariani, AtScale, co-fondatore e CEO, è stato uno dei primi ad usarlo e a realizzare il suo potenziale.

Era al posto giusto al momento giusto: Mariani stava facendo analytics in Finanza, fornitura di dati per unità di informazioni di business e la pubblicità sui beni della società. DW e i cubi erano praticamente l’unico gioco in città per le attività di analisi, quindi, e un grande gioco. Mariani, un cubo di dati veterano con numerose implementazioni sotto la sua cintura, ha detto che “uno solo di questi cubetti di Yahoo potrebbe aumentare il fatturato nell’area di 50 milioni di dollari”.

Mariani, come la maggior parte esperti del settore, oggi, si rese conto che Hadoop potrebbe rivoluzionare i dati del settore grazie alle sue proprietà:-nulla architettura che significava che può di scala in un senza soluzione di continuità, costo-efficace, in un quadro in cui ETL e i processi di elaborazione in grado di correre, e tardiva / schema di lettura. Si rese conto che prima di quanto la maggior parte, o almeno, ha agito su di esso prima.

In Yahoo, così come in Klout che Mariani è entrato dopo Yahoo, Hadoop è stato molto utilizzato, ma il BI paesaggio era quello che era sempre stato frammentato, utilizzando una pletora di strumenti che vanno da Excel a MicroStrategy. A quel tempo, l’unico modo per questi strumenti per essere in grado di utilizzare i dati memorizzati in Hadoop era quello di prendere i dati di Hadoop e conservarla in un DW. Quindi SQL su Hadoop, Cloudera impostato per rilasciare Impala, Mariani era stata assunta, e il resto è storia.

Alla fine, Mariani ha deciso di implementare la propria visione: per consentire agli utenti di accedere ai dati in Hadoop nel modo più indolore possibile. Il veicolo è stato AtScale, con Yahoo e Cloudera a bordo come investitori e clienti. AtScale deliberatamente evitato di offrire dati di navigazione e visualizzazione del livello. Il loro pensiero era che non poteva e non voleva spostare strumenti già utilizzati per questo scopo. Invece, hanno scelto di agire come un vendor-neutral middleware per facilitare l’accesso ai dati memorizzati in Hadoop su SQL e MDX. Questa architettura è basata su 3 pilastri.

power-of-hadoop-wide.png

AtScale architettura è progettata per consentire agli utenti di accedere ai dati nei sistemi di back-end senza soluzione di continuità, utilizzando i loro strumenti di BI di scelta. Immagine: AtScale

Il Design, La Cache, La Query

Primo, il Centro di Progettazione. AtScale descrive questo come la tela per la pittura virtuale cubi. Questo strumento consente agli utenti di navigare i dati memorizzati in Hadoop e definire i metadati che possono essere utilizzate per definire le dimensioni virtuali cubi OLAP. E ‘ una collaborazione, strumento multi-utente, in modo che gli utenti possono integrare la conoscenza degli altri.

Inoltre efficacemente agire come uno schema di definizione del meccanismo, supporta anche la governance dei dati per mezzo di regole di accesso e di sicurezza. AtScale chiama questo Universale a Livello Semantico, in cui la logica di business può essere definita in modo centralizzato e distribuito immediatamente, indipendentemente da ciò che gli strumenti di BI.

I cubi virtuali suono fresco, ma per quanto riguarda le prestazioni? C’è un motivo per cui i cubi in tradizionale DW pre-calcolati, dopo tutto. Questo è dove l’Adaptive Cache. Il 2 ° strato in AtScale architettura è un meccanismo di caching che funziona applicando intelligenti strategie, non solo per contenere il più recente e ampiamente utilizzati dati in archivio per velocizzare gli accessi successivi, ma anche per prevedere i dati più suscettibili di essere utilizzati in futuro e lo recupera.

AtScale sostiene che anche fisico cubi di rompere giù per grandi cardinalità / dimensioni, e sostiene i cubi virtuali eseguire altrettanto bene o anche meglio. Essi citano un esempio di una query su un cubo virtuale con oltre 500 Miliardi di righe recuperate risultati in meno di un paio di secondi.

Ultimo ma non meno importante, il più vicino AtScale arriva a un utente di fronte: l’interfaccia giustamente chiamato Ibrido Servizio di Query (SEDE), che offre una query livello che supporta SQL e MDX. SEDE supporta JDBC, il che significa che di fatto qualsiasi ANSI-SQL client può connettersi via AtScale via JDBC per la query di dati che risiedono in Hadoop. AtScale ha partnership e certificazioni per prodotti come Tableau, Qlik e PowerBI, in base utente base e requisiti, così come tutti i principali Hadoop distribuzione fornitori.

elephant-out-of-box.jpg

Come AtScale CEO Dave Mariani mette, “Se nessuno può interagire con il cluster Hadoop è solo un elefante bianco.” Ora l’elefante è out of the box, in pista con i tempi.

Di Hadoop box

Ciò che è nuovo è che ora AtScale va al di là di Hadoop (nel cloud o in locale), che offre il supporto per Teradata DW, Google Dataproc e BigQuery. Secondo AtScale fondatori, questo era parte della loro visione tutti insieme e i clienti hanno chiesto per esso troppo. Tale visione è stata inizialmente accolta con scetticismo, mentre la raccolta di capitali per AtScale Serie A, ma le cose erano molto più semplice ora come la società è stata recentemente in grado di completare una Serie B di circa 11 milioni di dollari.

AtScale strategia di agire come l’uomo di mezzo sembra essere ripagato, in quanto consente di capitalizzare sugli sviluppi di SQL motori di essa si basa su. Questi motori sono stati decollare, essendo stato misurato per offrire un 2-3 volte al miglioramento delle prestazioni rispetto alle versioni precedenti.

AtScale ha applicato la “disaccoppiare tutto” paradigma che Hadoop portato all’archiviazione del mondo, aggiungendo i propri dati definizione e ottimizzazione delle query livello di storage, Hadoop o di altri, come la tabella di marcia include il supporto per più motori di archiviazione.

È questa la storia di ROSPO giocare nella coraggioso Hadoop mondo e di là? Come il ROSPO, AtScale iniziato con una modesta visione – per rendere la vita delle persone che lavorano con i dati in modo più semplice, Oracle e Hadoop, rispettivamente. Come il ROSPO, AtScale ha visto la crescente adozione (elenco clienti come Macy’s, Comcast e GlaxoSmithKline) e si espande al di là del suo iniziale di nicchia.

ROSPO e AtScale sovrapporsi, in qualche modo, ora, come il ROSPO, offre il supporto per SQL su Hadoop troppo – anche se senza tutti gli extra che AtScale porta in tavola. Guarda come Hadoop è fuori dalla scatola, e in una convergenza di tutto il mondo di database, che dovrebbe venire come nessuna sorpresa.