ITALIANO

Verso unificante di dati teoria e la pratica: la Combinazione di operazioni, analisi e streaming

165

Zero

Video: Hadoop creatore guarda prossima tech che sbloccare i big data

Hadoop interrotto, e in qualche modo è diventato sinonimo di grandi quantità di dati, offrendo un quadro di riferimento per l’archiviazione a buon mercato e la scala di trasformazione. In parallelo a Hadoop è arrivata la raffica di soluzioni NoSQL che anche affrontato la necessità di archiviazione di massa e di elaborazione di dati che non è necessariamente strutturato.

Nel corso del tempo, Hadoop si è evoluto in un ecosistema costruito su HDFS e MapReduce, l’archiviazione e l’elaborazione di basi, tra cui pezzi come una chiave-valore (HBase) e vari SQL-sul-Hadoop implementazioni. NoSQL soluzioni sono state anche gradualmente l’aggiunta di SQL per loro arsenale, come l’SQL è un punto di convergenza e di uno standard de facto del settore.

Hadoop è iniziato orientata verso analytics, NoSQL soluzioni sono disponibili in molti sapori e spesso il supporto di entrambe le applicazioni operative e analitiche. Un terzo tipo di trattamento che è diventato una parte dell’equazione è in streaming.

L’ingestione e l’elaborazione infinito flussi di dati in tempo reale, è di arrivare a essere parte dell’attività quotidiana per molte organizzazioni, e le soluzioni sono emerse in questo spazio. Ora l’evoluzione è in movimento verso l’unificazione di questi finora disparate modalità-le operazioni transazionali, analisi ed elaborazione di flusso-in un quadro comune.

L’evoluzione di Hadoop ha portato a Scintilla, di un nuovo framework di API che si basa su Hadoop ecosistema, ma la porta in memoria di elaborazione, di SQL e di supporto per lo streaming al tavolo, tra le altre cose. E adesso la Scintilla sta diventando la fondazione per la convergenza di transazionali (OLTP), analitica (OLAP) e di elaborazione dei dati di flusso.

Sempre Scattante con esso

SnappyData probabilmente non è un nome che ho sentito prima, a meno che non sei una Scintilla intenditori, ma il suo approccio esemplifica questa convergenza. SnappyData della piattaforma open source, che ha appena pubblicato la sua generalmente disponibile la versione 1.0, è costruito su Spark e mira a unificare transazionale, analitiche e di elaborazione dei dati di flusso.

Discutendo con Sudhir Menon, SnappyData, co-fondatore e COO di diving in SnappyData di ricerca pubblicazioni di far luce su SnappyData sfondo e di approccio. Menon e i suoi co-fondatori, è andato su un viaggio da un fornitore indipendente di far parte di una società in via acqui-hiring, per intrapreneuers per gli imprenditori.

SnappyData la squadra di origini risalgono al GemFire. GemFire è un dati in memoria griglia soluzione, originariamente un proprietario sviluppato da Gemma, poi acquisito da Cardine e ha aggiunto al suo portafoglio, quindi open source e rimarchiati come Apache Geode.

“Quando abbiamo guardato a ciò che i clienti stavano cercando di fare con sistemi NoSQL sulla cima di Hadoop, sapevamo che c’era la possibilità. Scintilla è arrivato al momento giusto; [] ovviamente, c’erano spazi vuoti che sapevamo di poter riempire e che è come si è venuto a creare SnappyData e incubate all’interno di Fondamentale”, spiega Menon.

SnappyData è una combinazione di accensione e di GemFire. A che punto è lì, in combinazione Scintilla, che funziona già in memoria, con GemFire, che è in memoria di griglia di dati? GemFire avviene anche per essere un modello in scala-out transazionale store. Mettendo insieme questi due, quello che si ottiene è un OLTP – OLAP combo che fa anche lo streaming ed è open source.

Ci sono molti vantaggi in questo, come la gestione di tutti i vostri bisogni di dati in un quadro suona come unificante teoria del campo dei big data: meno complessità, migliori prestazioni, TCO va giù, il ROI va su e tutti vivono felici e contenti.

Suona troppo bello per essere vero, ed è vero. È più facile a dirsi che a farsi, e SnappyData non sono stati i primi a provare qualcosa di simile. Menon dice che è stata una combinazione di esperienza hands-on enterprise pratica, il software, i dati, e l’esposizione sia GemFire e Scintilla che ha permesso loro di andare per esso.

Fusione Scintilla come un motore computazionale con GemFire come transazionale store coinvolti superare le notevoli sfide. SnappyData li identifica nelle diverse strutture di dati e l’elaborazione di query paradigmi, diverse esigenze di alta disponibilità per i carichi di lavoro e la necessità di un supporto interattivo analytics quando si uniscono contro gli imponenti flussi di dati storici.

Così come ha fatto SnappyData far fronte a queste sfide? Hanno creato un ibrido cluster manager, utilizzato un ibrido riga/colonna modello di dati e aggiunto mutevolezza di Scintilla immutabili strutture di dati (RDDs), ha scritto una query dispatcher che determina che cosa va dove, aggiunta la possibilità di calcolare risultati approssimati al volo, e mantenuto il supporto completo per la Scintilla API.

Menon sottolinea che allettante Scintilla agli utenti la possibilità di sfruttare la loro base di codice esistente e la competenza è stata parte della loro strategia di lungo, e dovrebbe essere possibile utilizzare SnappyData come una sostituzione drop-in. Se solo sapessero su di esso, che è.

SnappyData ha raggiunto GA piuttosto sbrigativamente, che dice qualcosa. Il team di 30 che lavorano a SnappyData ora, praticamente tutti sono un ingegnere. Che non può aiutare SnappyData ottenere molto tempo in aria, ma ha permesso di raggiungere la GA traguardo in poco più di un anno da quando è stato ufficialmente andato fuori di Fondamentale.

Menon dice che per Cardine “questo è stato il fare la cosa giusta e noi sempre abilitato e andando semplicemente sul merito dell’idea”. Chiaramente che ha aiutato a ottenere l’accesso a un certo numero di grandi clienti. Menon descritto come usano SnappyData in produzione e di ottenere risultati, oltre a contribuire attivamente alla piattaforma di sviluppo.

Non è il solo con un misto di dati di movimento

Così ora che cosa? Si deve solo mollare tutto e andare SnappyData? Che cosa circa core Scintilla e altre opzioni?

Menon dice che sono stati avid Scintilla utenti stessi, e la decisione di legare la loro soluzione per la Scintilla è stata una strategica hanno pesato attentamente. Egli aggiunge che sono stati in contatto con Databricks, l’entità commerciale, dietro Scintilla, e contribuiscono in codice del core Scintilla:

“Spark messa a fuoco è di democratizzare e ottenere SQL e AI analisi orientata all’utilizzo tradizionale per il lotto, interattivo e in streaming carichi di lavoro. Sono agnostico per l’origine dei dati, e vorrei Scintilla per lavorare bene con tutte le sorgenti di dati.

Per gli utenti, tuttavia, ci sono un certo numero di carichi di lavoro e in situazioni in cui la capacità di colocate dati con elaborazione consente enormi vantaggi e aumenta le prestazioni e quando il calcolo e i dati non sono collocati, abbiamo ancora massiccia di latenza, la concorrenza e vantaggi di prestazioni per l’utente finale di applicazioni.”

Che suona come un co-opetition relazione. Da un lato, SnappyData porta forza di Spark codebase e la comunità, e anche se è troppo presto per dirlo, parti del suo approccio potrebbe anche prendere in Scintilla in futuro.

D’altra parte, anche se SnappyData offerta è nuovo e manca ad esempio la possibilità di eseguire un servizio gestito che Databricks porta al tavolo, SnappyData potrebbe ondeggiare Scintilla utenti.

Abbiamo raggiunto fuori a Databricks per il commento, ma non ho ricevuto una risposta dal momento della scrittura. È tuttavia interessante vedere come Databricks e la Scintilla comunità reagire nel prossimo periodo, come Databricks ha ufficiosamente diffusa che un paio di punti di dolore per la Scintilla sono affrontati.

Come per altre opzioni? Hadoop fornitori, come Cloudera e MapR sono operative le offerte di database, in Kudu e MapR-DB. Kafka ha recentemente aggiunto SQL ed elaborazione dati, per le sue capacità. I database In-memory come GridGain sono i potenziali giocatori in questa convergenza spazio di troppo.

Quello più simile SnappyData approccio, tuttavia, è di Giunzione Macchina. Splice Macchina basa anche sulla Scintilla che mira a unificare OLTP, OLAP, e in streaming ed è open source. Ma ci sono differenze significative tra i due approcci.

Splice Macchina costruisce su HBase. Ci sono già un certo numero di implementazioni personalizzate dove la Scintilla è utilizzato in combinazione con HBase, Cassandra o MemSQL. Monte Zweben, Splice Macchina CEO di, sottolinea che tali integrazioni richiedono lo spostamento di dati avanti e indietro, rispetto all’incollaggio Macchina nativo HFile interfaccia per la Scintilla.

Zweben dice che questo è un meccanismo efficiente per creare la base Dataframes per calcoli complessi, che ha l’Isolamento dello Snapshot semantica costruito per mantenere ACIDO transazionale proprietà.

Egli sottolinea, inoltre, Splice Macchina l’importazione dei dati delle prestazioni, sfruttando un fast-bulk ingestione strumento di adesione per ACIDO proprietà in modo che gli indici vengono automaticamente aggiornati e la capacità di mantenere i vincoli e i trigger. C’è anche il supporto per inserire, aggiornare e cancellare i metodi che prendere Scintilla Dataframes come input.

SnappyData sarebbe sicuramente d’accordo con lo spostamento di parte dei dati. Infatti hanno pubblicato i benchmark di confronto SnappyData contro Scintilla+Hbase/Cassandra/MemSQL. Come ci si aspetterebbe, che benchmark mostra SnappyData approccio per eseguire meglio.

Non c’è nessun confronto diretto tra SnappyData di Giunzione e di Macchina però. Zweben dice che SnappyData non hanno la stessa granulare MVCC per supportare vero operativi, applicazioni OLTP. Menon, da parte sua, sottolinea il diverso approccio che hanno fatto, da integrare nativamente GemFire come una prima classe Scintilla cittadino, significa migliori prestazioni.

Forse questo rimarrà un punto chiaro. Ci sono però dei punti che sono molto chiari.

Splice Macchina è in giro di più, ha condivise e offre più opzioni di distribuzione. Splice Macchina di recente aggiunta la possibilità di eseguire un servizio gestito su AWS, con Azure programmato di seguire presto. SnappyData necessario per costruire la sua squadra e che offre di più. Per contro, SnappyData può essere eseguito sia su sede e su AWS, ma non come un servizio gestito.

SnappyData ha qualcosa di unico, a questo punto: approssimativo di elaborazione delle query (AQP), senza fare affidamento su una conoscenza a priori della distribuzione dei dati. Questa è la parte che la versione Enterprise, e significa che è possibile ottenere risultati approssimati per lo streaming di dati in tempo reale, mentre i risultati esatti, sono calcolati. Splice Macchina offre anche modi per entrare in streaming ad altre fonti di dati per via virtuale e tavoli esterni, ma non AQP.

Il takeaway chiave, tuttavia, è la rapida crescita e l’innovazione di questo spazio è vedere e la convergenza dei paradigmi. Prima di Hadoop ancora compiuto 10, si è spostata sullo sfondo e viene rimpiazzato da Scintilla. E ora la Scintilla è di diventare una piattaforma per l’innovazione, potenzialmente offre la possibilità di unificare i dati di teoria e pratica.