ITALIANO

ScyllaDB raggiunge Cassandra parità di funzionalità, aggiunge HTAP, cloud, e Kubernetes supporto

218

Zero

ScyllaDB promette qualcosa di semplice, affascinante e difficile da credere: Mantenere il vostro codice, sostituire Cassandra con ScyllaDB, ottenere fino a 10 volte vantaggio in termini di prestazioni. Come può questo essere? In sintesi, la diversa implementazione del linguaggio (C++ piuttosto che Java), la più bassa a livello di paradigma di programmazione (ad esempio la memoria o la presa di allocazione) via Seastar, e di auto-capacità di taratura.

Anche: Neuton: Una nuova, dirompente rete neurale framework per applicazioni AI

Che è stata la storia di ScyllaDB 2.0. Ci sono, tuttavia, alcune caratteristiche mancanti da ScyllaDB per essere esatti sostituzione drop-in per Cassandra. Ora, con la versione 3.0 ha annunciato in ScyllaDB Vertice, ScyllaDB non solo chiude il gap, ma intraprende il suo percorso, con l’aggiunta di HTAP (Ibrido Transazionale – Elaborazione Analitica) capacità e andando cloud.

Colmare il divario con Cassandra

Iniziamo con le caratteristiche che una volta erano mancanti da ScyllaDB e ora sono lì. Viste materializzate, gli Indici Secondari, e Formati di File potrebbero non sembrare molto sexy, ma si può fare un sacco di differenza nello sviluppo di applicazioni e prestazioni. Dor Laor, ScyllaDB co-fondatore e CEO, ha detto che hanno dedicato un sacco di duro lavoro e di una grande parte della loro attività di R&D per raggiungere la parità in termini di funzionalità:

“Queste tre caratteristiche sono state a lungo atteso da molti dei nostri utenti e clienti, quindi è stato un gioco da ragazzi per investire in loro. In generale, sia Cassandra e il suo antenato, DynamoDB, sono suono, caratteristica-saggio. E ‘ la loro attuazione non è stato abbastanza.

Per esempio, i nostri indici secondari sono globali e non possono, pertanto, scala con qualsiasi dimensione di cluster. Questa funzionalità non solo incoraggia le squadre di passare da Cassandra a Scilla, dovrebbe influenzare altre NoSQL gli utenti a passare a Scilla. Abbiamo una ricca tabella di marcia davanti a noi al di là di queste caratteristiche, e siamo entusiasti di continuare ad evolvere il nostro database di funzionalità.”

Particolare enfasi viene posta sulle Viste Materializzate, come il ScyllaDB la gente nota è pronto per la produzione di rilascio del tanto atteso funzione sperimentale progettato per consentire l’attivazione automatica di server-side table la denormalizzazione. Essi aggiungono che l’Apache Cassandra comunità ripristinato questa funzione, pronto per la produzione e la sperimentazione di modalità nel 2017.

“Viste materializzate si è rivelato molto complesso, sia per Cassandra e per Scilla”, ha detto Laor. Egli ha aggiunto che hanno scoperto molti irrisolti i problemi di progettazione, nell’implementazione, che ha causato loro di consegnare a lungo dopo che i loro piani originali. Laor notato che ci sono due principali le complessità e le Viste Materializzate (MV) per Scilla e Seastar:

Complesso percorso di scrittura. Il percorso di scrittura è stato progettato per essere il più semplice possibile per il massimo delle prestazioni, ma MV modifiche. L’aggiornamento di vista mandati a leggere prima di scrivere a vista. Aggiunge complessità e anche delle prestazioni che Cassandra ha un tempo più difficile affrontare.Consistenza finale. E ‘ una grande sfida per mantenere la tabella di base e le sue viste sincronizzato. Gli aggiornamenti sono completamente asincrono e parallele, è una performance sfida di non creare un grande ritardo tra la vista e la base e anche una consistenza sfida per tenerli sincronizzati, anche a fronte di guasti.

Inoltre: l’Elaborazione di serie storiche di dati: Quali sono le opzioni?

Inoltre, ScyllaDB crediti globale indici secondari possono adattarsi a qualsiasi dimensione del cluster, a differenza del contatore locale-indicizzazione approccio adottato da Apache Cassandra. Gli indici secondari consentono l’esecuzione di query di dati attraverso la non-colonne chiave primaria. Infine, in termini di parità di caratteristiche, Apache Cassandra 3.x compatibile con il formato di archiviazione (SSTable) è detto per migliorare le prestazioni e ridurre il volume di stoccaggio di tre volte.

Andando HTAP

Ma la grande novità di circa ScyllaDB 3.0 sono i suoi HTAP capacità. Laor, parlando a Scilla Vertice 2018, ha detto che ha sviluppato un innovativo OLTP + OLAP service level agreement (SLA) garantire che mette ScyllaDB su un percorso verso la pura multi-tenancy e posizioni favorevolmente contro Amazon DynamoDB e Microsoft Cosmo DB tra gli altri.

Scilla Open Source 3.0 sarà disponibile a novembre 2018, con concomitante OLTP e OLAP supporto disponibile poco dopo. Che ancora oggi appare come un grosso problema, tuttavia. Infatti, Laor notato, questa è una delle caratteristiche è più orgoglioso, in quanto consente ScyllaDB a supporto real-time analytics e carichi di lavoro sugli stessi dati, ai centri di utilizzo migliore per entrambi:

“Scilla sfrutta la sua sofisticata interno di motori e di pianificazione, che già forniscono simile SLA garantire la capacità e il compito. In passato, abbiamo usato l’utilità di pianificazione per isolare le operazioni in primo piano dallo sfondo, operazioni di manutenzione. Si tratta di un miglioramento e di ulteriore implementazione del nostro motore abilità.

Giusto per essere chiari, Scilla operativi, database in tempo reale. Analytics stessi sono eseguiti da componenti aggiuntivi, soprattutto Scintilla e Presto, sul set di dati memorizzati in Scilla. Scilla stessa non è completa HTAP, ma la combinazione di accensione e di Scilla.

In termini di tecnica di base, Scilla gestisce la CPU e I/O di pianificazione, che consente di creare i ruoli e assegnare azioni dell’utente associato con carichi di lavoro. Le risorse utilizzate da ogni carico di lavoro sono monitorati e confrontati con la SLA garanzia del bilancio. Esso consente di eseguire carichi di lavoro diversi in parallelo sullo stesso server.

In tempo reale dei carichi di lavoro di ricevere la massima priorità, mentre altri carichi di lavoro, come google analytics, ricevere un best-effort approccio eseguire solo mentre c’è capacità di riserva. Si tratta di un grande miglioramento rispetto a quello che è attualmente possibile, in cui gli utenti sono costretti a clonare il loro set di dati completo per analizzare in modo che esso non pregiudica in tempo reale carico OLTP.”

Laor ha aggiunto che nessun altro fornitore di database è anche vicino a questo. Questa affermazione, tuttavia, è aperto all’interpretazione. Per cominciare, DataStax Impresa, commerciale, temprato versione di Cassandra offerti da DataStax, utilizza anche Apache Scintilla per analytics.

Inoltre: Conoscenza grafici oltre hype: Ottenere la conoscenza dentro e fuori di grafici e database

Poi c’è anche SnappyData di Giunzione e di Macchina, per citare solo alcuni dei fornitori edificio Scintilla per HTAP, oltre a un certo numero di altri che offrono funzionalità simili. Forse ScyllaDB approccio è unico in termini di combinazione di contratti di servizio con HTAP, o il modo in cui si dà la priorità in tempo reale dei carichi di lavoro, ma HTAP di per sé è quasi unico.

Andando cloud

Una parte interessante di ScyllaDB messaggio era il confronto di Azure CosmosDB. C’è la messa a terra per questo, come CosmosDB è compatibile anche con Cassandra API, e Jonathan Ellis, DataStax CEO, ha anche rispetto Cassandra per CosmosDB prima.

Quando è stato chiesto di fare un confronto simile per ScyllaDB, Laor riconosciuto:

“CosmosDB è impressionante e ha fatto buoni progressi, più recentemente, con la Seastar API e active-active. È difficile fare un confronto equo, dal momento che il Cosmo è closed source, ed è difficile sapere cosa c’è sotto il cofano. Tuttavia, le differenze principali sono:

Scilla è open source, nessun vendor lock-in. Con Scilla, cloud ibrido e multi-cloud sono opzioni valide. Scilla fornisce tre volte meglio di latenza a un quinto del costo standard dei carichi di lavoro. CosmosDB, come DynamoDB, soffre di caldo partizioni riservata IO tappo per partizione.

Cosmo non può distinguere tra carichi di lavoro come Scilla. Che significa che si paga anche per il miglior sforzo carichi di lavoro, a differenza di Scilla, che fornisce SLA garanzie. Cosmo active-active, che assomiglia più a un datacenter di proprietà e non attivo-attivo per ogni nodo come Scilla. Questo ha un effetto immediato sulla scrittura di prestazioni e di costi”.

Ora, CosmosDB è un cloud-solo database. Al momento ScyllaDB ha annunciato la sua versione 2.0, l’acquisizione di Seastar.io era stato appena annunciato. Un anno dopo, una versione hosted di Scilla nel cloud sembra imminente, ma non è ancora disponibile. Che cosa sta prendendo così tanto tempo, e quello che sarà ScyllaDB ospitato versione? Laor sottolineato che recentemente ha lanciato la Scilla Cloud Early Access Program:

“Grazie alle nostre Scilla database aziendale, Scilla Cloud sarà dirompente nel DBaaS mercato. Dal momento che richiede un minor numero di macchine per raggiungere il throughput elevato, il suo prezzo prestazioni impostare un nuovo standard per l’industria. Non abbiamo ancora annunciato pubblicamente Scilla Cloud, perché è ancora in Early Access, se la registrazione è disponibile sul nostro sito web. Ci sono solo poche settimane di distanza dall’apertura di questo”.

Inoltre: Il passato, il presente e il futuro di streaming: Flink, Scintilla, e la banda

Ora che Scilla è alla pari con Cassandra, Laor detto, il prossimo obiettivo è quello di diventare un leader di database-as-a-service e servire come una migliore alternativa per i clienti che i fornitori di cloud. Scilla Cloud sarà una irresistibile offerta, ha poi aggiunto, con tre-volte meglio di latenza a un quarto del costo e nessun vendor lock-in.

Kubernetes e oltre

ScyllaDB anche lavorando per aggiungere il supporto per Kubernetes, una tendenza che è in corso tra i fornitori che offrono piattaforme di dati. Con ScyllaDB fondatori di sfondo in Hypervisor, sono “pienamente consapevole e profondamente impegnata”, anche se attualmente c’è un degrado delle prestazioni quando si esegue ScyllaDB su Kubernetes.

Anche: direzioni Future per Apache Flink/Dati Artigiani

Laor notato ci sarà una sessione su “come Ottenere il massimo dal Scilla su Kubernetes” a ScyllaDB Vertice. Egli ha anche detto che esiste un #kubernetes canale sul loro margine di flessibilità, e stanno a guardare come gli utenti sono la distribuzione e la gestione di Scilla attraverso Kubernetes nei loro ambienti.

“Ci sono già un certo numero di GitHub repos specificamente per la distribuzione di Scilla utilizzando Kubernetes. Il mercato è in continua evoluzione, e questo è davvero dove essendo open source, consente di lavorare direttamente con gli sviluppatori operativo sfide da affrontare. Tuttavia, il cloud, con le sue macchine virtuali e di auto-scaling già offre una migliore funzionalità di Kubernetes.

Scilla è un applicazione molto efficiente. Può essere eseguito su un minor numero di macchine, ma li domina, a differenza di altri database che non può utilizzare appieno le risorse, sarebbe un peccato non eseguire altri contenitori accanto a loro. Così, il cloud si consiglia di eseguire direttamente su Linux, mentre ci sarà pieno supporto Kubernetes distribuzioni sul cloud.”

Sterzo il Mostro del Mare – Integrazione di Scilla con Kubernetes da ScyllaDB

Quando si parla di progresso dal punto di vista commerciale, Laor notato che, come una società privata, non divulgare informazioni finanziarie. Ha anche aggiunto, però, che sta avendo un anno molto buono su tutta la linea:

“La nostra comunità open source sta crescendo abbastanza rapidamente come parola su Scilla continua a diffondersi. 2018 è anche l’anno in cui il nostro nuovo personale team di Vendita ha iniziato a vendere i nostri Enterprise Edition sul serio, e durante l’anno abbiamo aggiunto una serie di Fortune 50 clienti al nostro roster, insieme con un sacco di quelli più piccoli. Abbiamo quasi raddoppiato il nostro organico rispetto a un anno fa e in continua espansione.”

Anche: Google ora è possibile la ricerca per i set di dati. Prima di ricerca, allora il mondo?

Come abbiamo notato in precedenza, ScyllaDB non è a corto di ambizione. Sembra essere ben al di sotto del modo di eseguire la sua strategia, facendo notevoli progressi. Sarà interessante vedere fino a che punto arriva.

Precedente e relativa copertura:

Manyverse e Scuttlebutt: human-centric stack di tecnologie per le applicazioni sociali

Siamo consapevoli che il web sta morendo nella morsa del grande tech, da cui si vorrebbe andare via, ma senti di non avere un’alternativa? Se siete pronti per un diverso paradigma, Manyverse e Scuttlebutt può essere la vostra cosa.

Livello piuttosto basso, piuttosto grande: Apache Kafka e Confluenti Open Source andare mainstream

Apache Kafka è grande e tutti, ma è un early adopter cosa, va la saggezza convenzionale. Jay Kreps, Kafka, co-creatore e Confluenti CEO, digresses. Adozione Mainstream sia accaduto e sta accadendo ora, egli dice, mentre anche commentando le ultime tendenze del settore.

Apache Scintilla creatori insieme a standardizzare distribuito di machine learning per la formazione, l’esecuzione e la distribuzione

Matei Zaharia, Apache Scintilla co-creatore e Databricks CTO, parla di adozione di modelli di dati, ingegneria e scienza di dati, utilizzo e l’estensione standard, e la prossima ondata di innovazione apprendimento automatico: la Distribuzione.

Supponente e aperto della macchina di apprendimento: Le sfumature dell’utilizzo di Facebook è PyTorch

Soumith Chintala da Facebook AI Ricerca, PyTorch guida del progetto, parla il pensiero che sta dietro la sua creazione, a livello di design e di usabilità scelte fatte. Facebook è ora unificante di machine learning per i quadri di riferimento per la ricerca e la produzione in PyTorch, e Chintala spiega come e perché.

Argomenti Correlati:

Big Data Analytics

L’innovazione

CXO

Intelligenza Artificiale

Enterprise Software

Archiviazione