SVENSKA

ScyllaDB uppnår Cassandra har paritet, lägger HTAP, moln, och Kubernetes stöd

199

Noll

ScyllaDB lovar något enkelt, lockande, och svårt att tro: att Hålla din kodbas, ersätta Cassandra med ScyllaDB, få upp till 10 gånger lyft i prestanda. Hur kan detta vara? I ett nötskal, olika sätt att genomföra språket C++ snarare än Java), mer maskinnära programmering paradigm (såsom minne eller uttag fördelning) via Seastar, och auto-tuning möjligheter.

Också: Neuton: En ny, omvälvande neurala nätverk ramen för AI-program

Det var historien om ScyllaDB 2.0. Det fanns dock några funktioner som saknas från ScyllaDB för att vara en exakt drop-in ersättning för Cassandra. Nu, i och med version 3.0 meddelade i ScyllaDB Toppmötet, ScyllaDB inte bara stänger gapet, men ger sig ut på sin egen resa, börjar med att lägga till HTAP (Hybrid Transaktions – Analytisk Bearbetning) förmåga och att gå i moln.

Klyftan med Cassandra

Låt oss börja med de funktioner som en gång var försvunna från ScyllaDB och är nu det. Materialiserade Vyer, Sekundära Index, och Format som kanske inte låter som mycket sexiga, men de kan göra stor skillnad i utveckling och tillämpning och resultat. Dor Laor, ScyllaDB grundare och VD, sade att de ägnat massor av hårt arbete och en stor del av sina fou-för att nå jämställdhet i termer av funktionalitet:

“Dessa tre funktioner var efterlängtade av många av våra användare och kunder, så det var en no-brainer att investera i dem. I allmänhet, både Cassandra och dess förfader, DynamoDB, ljud, funktion-vis. Det är deras genomförande som inte var tillräckligt bra.

Till exempel, vår sekundära index är globala och kan därför skala med alla kluster. Denna funktionalitet inte bara uppmuntrar grupper att växla från Cassandra att Skylla, det bör påverka andra NoSQL-användare att byta till Scylla. Vi har ett rikt färdplan framför oss bortom dessa funktioner, och vi är glada att fortsätta att utveckla vår databas funktionalitet.”

Särskild tonvikt läggs på Materialiserade Vyer, som ScyllaDB människor observera att detta är en produktion som är redo för release av en efterlängtad experimentell funktion för att aktivera automatisk server-side-bord denormalization. De tillägger att Apache Cassandra samhället återgått den här funktionen från produktion-redo att experimentellt mode 2017.

“Materialiserade vyer visade sig vara mycket komplexa, både för Cassandra och för Scylla,” sade Laor. Han gick med på att lägga till att de upptäckt många olösta frågor design i genomförandet, vilket fick dem att leverera det långt efter att deras ursprungliga planer. Laor noteras att det finns två huvudsakliga komplexiteten i Materialiserade Vyer (MV) för Scylla och Seastar:

Komplexa skriva väg. Skriv sökvägen var utformad för att vara så enkelt som möjligt för maximal prestanda, men MV förändringar som denna. Utsikten uppdatering uppdrag som en läsa-innan-skriva till visa. Det tillför komplexitet och även en prestandaförsämring att Cassandra har svårare att hantera.Eventuell samstämmighet. Det är en stor utmaning att hålla basen tabellen och dess utsikt synkroniseras. Uppdateringar är fullt asynkron och parallella, och det är både en föreställning utmaning är inte att skapa en stor fördröjning mellan tanke och basen och även en konsekvens utmaning att hålla dem i synk även i ansiktet av misslyckanden.

Också: Bearbetning time series data: Vad finns det för alternativ?

Dessutom ScyllaDB hävdar sin globala sekundära index kan skala till några kluster storlek, till skillnad från motverka lokal-indexering strategi som antogs av Apache Cassandra. Sekundära index kan söka efter data genom icke-primär nyckel kolumner. Slutligen, i form av paritet funktioner, Apache Cassandra 3.x-kompatibla lagringsformat (SSTable) sägs att förbättra prestanda och minska lagringsvolym med så mycket som tre gånger.

Kommer HTAP

Men den riktigt stora nyheten om ScyllaDB 3.0 är dess HTAP kapacitet. Laor, som talade vid Skylla Toppmötet 2018, sade att det utvecklat en banbrytande OLTP + OLAP-service level agreement (SLA) garanterar att sätter ScyllaDB på en väg mot ren multi-hyresrätt och positioner det positivt mot Amazon DynamoDB och Microsoft är Kosmos DB bland andra.

Scylla Öppen Källkod 3.0 kommer att finnas tillgänglig i November 2018, med samtidig OLTP och OLAP-stöd som finns strax efter. Som fortfarande ser ut som en big deal, men. Ja, Laor noteras, detta är en av de funktioner som är mest stolta över, eftersom det gör det möjligt ScyllaDB stöd för realtids-och analytics arbetsbelastning på samma datacenter med bästa användning för båda:

“Skylla utnyttjar sin sofistikerade inre motorer och schemaläggare, som redan innehåller liknande SLA garanterar resurser för uppgiften. Tidigare har vi använt schemaläggare för att isolera förgrunden verksamhet från bakgrunden, underhåll. Detta är en förbättring och ytterligare genomförande av vår motor förmågor.

Bara för att vara tydlig, Scylla är en operativ, realtid databas. Analytics själva utförs av ytterligare komponenter, främst Gnista och Vips, över dataset som lagras i Scylla. Skylla sig själv är inte full HTAP, men kombinationen av Gnista och Scylla är.

I fråga om de tekniska grunderna, Skylle hanterar din CPU och i/O schemaläggning, vilket gör att du kan skapa roller och tilldela användaren aktier i samband med din arbetsbelastning. De resurser som utnyttjas av varje arbetsbelastning spåras och matchas mot SLA budget garanti. Det gör att du kan köra olika arbetsbelastningar parallellt på samma servrar.

Realtid arbetsbelastning få högsta prioritet medan andra arbetsbelastning, såsom analytics, få en bästa-insats strategi och endast kommer att köra samtidigt som det finns outnyttjad kapacitet. Det är en stor förbättring jämfört med vad som för närvarande är möjliga, där användare tvingas att klona deras fullständiga uppgifterna för att köra google analytics på det så kommer det inte att påverka realtid OLTP belastning.”

Laor gick på att tillägga att ingen annan databas säljaren är ens i närheten av detta. Detta påstående är dock öppet för tolkning. Till att börja med, DataStax Företag, kommersiella, härdat version av Cassandra som erbjuds av DataStax, också använder Apache Gnista för analytics.

Även: Kunskap graphs bortom hype: att Få kunskap i och ut diagram och databaser

Då finns också SnappyData och Skarva Maskinen, för att bara nämna några av de leverantörer bygger på Gnista för HTAP, förutom ett antal andra som erbjuder liknande möjligheter. Kanske ScyllaDB strategi är unikt när det gäller att kombinera Sla med HTAP, eller hur den prioriterar i realtid arbetsbelastning, men HTAP i sig är knappast unika.

Kommer molnet

En intressant del av ScyllaDB budskapet var i jämförelse till Azure CosmosDB. Det är jordning, som CosmosDB är också kompatibel med Cassandra ‘ s API, och Jonathan Ellis, DataStax VD, har också jämfört Cassandra att CosmosDB innan.

När du ombeds att göra en liknande jämförelse för ScyllaDB, Laor erkänt:

“CosmosDB är imponerande och det har gjort goda framsteg, nyligen med Seastar API och aktiv-aktiv. Det är svårt att göra en rättvis jämförelse eftersom Kosmos är stängd källkod och det är svårt att veta vad som finns under huven. Men, de viktigaste skillnaderna är:

Scylla är öppen källkod, utan vendor lock-in. Med Scylla, hybrid cloud och multi-cloud är giltiga alternativ. Scylla ger tre gånger bättre latency på en femtedel av kostnaden på standard arbetsbelastning. CosmosDB, som DynamoDB, kommer att drabbas av hot partitioner med en reserverad IO cap per partition.

Kosmos kan inte skilja mellan arbetsbelastning som Skylle kan. Det betyder att du betalar även för bästa insats arbetsbelastning, till skillnad från Scylla som ger SLA garanterar. Cosmos aktiv-aktiv ser mer ut som ett datacenter egendom och inte är aktiv-aktiv per nod som Scylla. Detta har en omedelbar inverkan på skriva prestanda och kostnad.”

Nu, CosmosDB är en moln-bara databas. På den tiden ScyllaDB meddelade sin version 2.0, förvärv av Seastar.io hade bara meddelat. Ett år senare, en hostad version av Scylla i molnet verkar nära förestående, men ännu inte tillgängliga. Vad är det som tar så lång tid, och vad kommer ScyllaDB är värd version ut? Laor påpekade att det nyligen lanserade Skylla Moln Early Access Program:

“Byggt på vår Skylla Företagets databas, Skylle Molnet kommer att vara störande i DBaaS marknaden. Eftersom det krävs betydligt färre maskiner för att uppnå hög kapacitet, dess pris och prestanda kommer att sätta en ny ribba för branschen. Vi har ännu inte offentligt meddelat att Skylla Moln eftersom det fortfarande är i Början av Tillgång, även om registrering finns på vår hemsida. Vi är bara några veckor ifrån att öppna upp detta.”

Dessutom: Det förflutna, det nuvarande, och framtiden för streaming: Flink, Spark, och gänget

Nu när Scylla är i paritet med Cassandra, Laor sagt, nästa mål är att bli en ledande databas-as-a-service och fungera som ett bättre alternativ för kunder än moln-leverantörer. Scylla Molnet kommer att vara ett övertygande erbjudande, han fortsatte med att lägga, med tre gånger bättre latency på en fjärdedel av kostnaden och ingen vendor lock-in.

Kubernetes och bortom

ScyllaDB arbetar även på att lägga till stöd för Kubernetes, en trend som pågår bland leverantörer som erbjuder data plattformar. Med ScyllaDB grundarna bakgrund i Hypervisors, de är “fullt medveten och djupt engagerad,” även om just det är en försämrad prestanda när man kör ScyllaDB på Kubernetes.

Även Framtida anvisningar för Apache Flink/Data Hantverkare

Laor konstaterades att det kommer att vara en session om “att Få ut det Mesta av Skylle på Kubernetes” på ScyllaDB Toppmötet. Han nämnde också att det finns en särskild #kubernetes kanal på deras Slappa, och de tittar på som användare är att distribuera och hantera Skylle genom Kubernetes i sina miljöer.

“Det finns redan ett antal GitHub repor specifikt för hur du distribuerar Skylla hjälp Kubernetes. Marknaden är under utveckling, och detta är verkligen där det är öppen källkod kan du arbeta direkt med utvecklare på den operativa utmaningar de står inför. Trots moln, med sina virtuella maskiner och automatisk skalning redan har bättre funktionalitet än Kubernetes.

Scylla är ett mycket effektivt program. Det kan köras på färre maskiner, men dominerar dem, till skillnad från andra databaser som inte fullt ut utnyttja de resurser — det skulle vara en skam att inte köra andra skida bredvid dem. Således, om cloud vi rekommenderar att köras direkt på Linux men vi kommer att stödja full Kubernetes installationer på moln.”

Styrning Sea Monster – Integrera Scylla med Kubernetes från ScyllaDB

När man diskuterar framsteg på verksamheten front, Laor noteras att, som ett privatägt företag, det spelar inte offentliggöra finansiell information. Han tillade dock att det är att ha ett mycket bra år i styrelsen:

“Vår öppen källkod växer ganska snabbt, eftersom ordet om Scylla fortsätter att sprida sig. 2018 är också det år då våra nya bemannad Försäljning laget började sälja vår Enterprise Edition på allvar, och under året har vi lagt till ett antal Fortune 50 kunder till vår lista, tillsammans med massor av mindre företag. Vi har nästan fördubblat vår personalstyrka från för ett år sedan och fortsätter att expandera.”

Också: Google kan nu söka efter data. Första forskning, då världen?

Som vi har noterat tidigare, ScyllaDB inte har brist på ambition. Det verkar vara en bra bit på väg i genomförandet av sin strategi, vilket gör stora framsteg. Det ska bli intressant att se hur långt det blir det.

Tidigare och relaterade täckning:

Manyverse och Scuttlebutt: En människa-centrerad teknik stack för sociala applikationer

Är du medveten om webben är döende i järngrepp av stor tech, från vilken du vill röra sig bort, men känner att du inte har ett alternativ? Om du är redo för ett helt annat paradigm, Manyverse och Scuttlebutt kan vara din grej.

Ganska låg nivå, ganska big deal: Apache Kafka och Sammanflytande med Öppen Källkod gå mainstream

Apache Kafka är bra och allt, men det är en ” early adopter sak, går den konventionella visdomen. Jay Kreps, Kafka co-creator och Sammanflytande VD, digresses. Vanliga antagandet är som händer, och det händer nu, säger han, samtidigt som de kommenterar den senaste utvecklingen i branschen.

Apache Gnista skapare ställer ut för att standardisera distribueras machine learning utbildning, genomförande och distribution

Matei Zaharia, Apache Gnista co-creator och Databricks CTO, samtal om adoption mönster, data teknik och data vetenskap, använda och utvidga standarder, och nästa våg av innovation inom maskininlärning: Distribution.

Påstridig och öppna maskininlärning: nyanserna av att använda Facebook är PyTorch

Soumith Chintala från Facebook AI-Forskning, PyTorch projektledare, berättar om tankarna bakom sitt skapande och design och användbarhet val som görs. Facebook är nu att förena lärande ramar för forskning och produktion i PyTorch, och Chintala förklarar hur och varför.

Relaterade Ämnen:

Big Data Analytics

Innovation

CXO

Artificiell Intelligens

Affärssystem

Förvaring