DANSK

ScyllaDB opnår Cassandra har paritet, tilføjer HTAP, cloud, og Kubernetes støtte

281

Nul

ScyllaDB lover noget simpelt, dragende, og svært at tro: at Holde din codebase, erstatte Cassandra med ScyllaDB få op til 10 gange løft i performance. Hvordan kan det være? I en nøddeskal, forskellige gennemførelsen sprog (C++ i stedet for Java), mere low-level programmering paradigme (såsom hukommelse eller socket tildeling) via Seastar, og auto-tuning kapaciteter.

Også: Neuton: En ny, ødelæggende neurale netværk ramme for AI-programmer

Der var historien om ScyllaDB 2.0. Der var dog et par funktioner mangler ScyllaDB for at være en nøjagtig drop-in erstatning for Cassandra. Nu, med version 3.0 annonceret i ScyllaDB Topmødet, ScyllaDB ikke kun lukker hullet, men begiver sig ud på sin egen rejse, der starter ud med at tilføje HTAP (Hybrid Transaktionsbeslutning – Analytiske Behandling) kapaciteter og vil sky.

Lukke hullet med Cassandra

Lad os starte med de funktioner, der engang var forsvundet fra ScyllaDB og nu er der. Materialiserede Views, Sekundære Indeks, og de Filformater, som lyder måske ikke særligt sexet, men de kan gøre en stor forskel i anvendelse, udvikling og resultater. Dor Laor, ScyllaDB medstifter og administrerende DIREKTØR, sagde, at de dedikerede masser af hårdt arbejde og en stor del af deres R&D for at nå paritet med hensyn til funktionalitet:

“Disse tre funktioner var længe ventet af mange af vores brugere og kunder, så det var en no-brainer at investere i dem. Generelt, både Cassandra og dens forgænger, DynamoDB, er lyd, feature-mæssigt. Det er deres gennemførelse, der ikke var godt nok.

For eksempel, vores sekundære indeks er global og kan derfor skala med nogen klynge størrelse. Denne funktionalitet er ikke kun opfordrer holdene til at skifte fra Cassandra at Scylla, det skal påvirke andre NoSQL-brugere til at skifte til Skylla så godt. Vi har en rig køreplan foran os ud over disse funktioner, og vi er glade for at fortsætte med at udvikle vores database funktionalitet.”

Der lægges særlig vægt på Materialiseret Synspunkter, som ScyllaDB mennesker, bemærk dette er en produktionsklar udgave af en længe ventet eksperimentel funktion, der er designet til at gøre det muligt automatisk server-side tabel denormalisering. De tilføjer, at Apache Cassandra fællesskab fjernet denne funktion fra produktion klar til eksperimenterende mode i 2017.

“Materialiserede views viste sig at være meget kompliceret, både for Cassandra og for Scylla,” sagde Laor. Han fortsatte med at tilføje, at de opdagede, at mange adresseløse design emner i forbindelse med gennemførelsen, som fik dem til at levere det længe efter, at deres oprindelige planer. Laor bemærkes, at der er to hovedtyper af kompleksiteten i Materialiserede Views (MV) for Skylla og Seastar:

Komplekse skrive stien. Skriv stien var designet til at være så enkel som muligt for maksimal ydelse, men MV ændringer i denne. Se opdateringen mandater en læs-før-skriv til synspunkt. Det tilføjer kompleksitet og også en reduktion i ydeevnen, at Cassandra har en hårdere tid at håndtere.Eventuel konsekvens. Det er en stor udfordring at holde basen og sine synspunkter synkroniseret. Opdateringer er fuldt asynkron og parallelle, og det er både en performance udfordring er ikke at skabe en stor forsinkelse mellem den opfattelse-og den base og også en sammenhæng udfordring at holde dem i-sync selv i tilfælde af fejl.

Også: Behandling af tidsserie data: Hvad er mulighederne?

Hertil kommer, at ScyllaDB hævder, at deres globale sekundære indekser kan skalere til enhver cluster size, i modsætning til den counter lokale-indeksering tilgang af Apache Cassandra. Sekundære indeks tillader at forespørge data gennem ikke-primære nøgle kolonner. Endelig, i form af paritet funktioner, Apache Kassandra-3.x kompatibel storage format (SSTable) siges at forbedre ydeevnen og reducere beholdervolumen med så meget som tre gange.

Vil HTAP

Men de virkelig store nyhed om ScyllaDB 3.0 er dens HTAP kapaciteter. Laor, taler ved Scylla Topmødet 2018, sagde, at det udviklede en banebrydende OLTP + OLAP service level agreement (SLA) garanti, der sætter ScyllaDB på en sti i retning af ren multi-lejemål og de positioner, det er positivt, mod Amazon DynamoDB og Microsoft ‘ s Cosmos DB blandt andre.

Skylla Open Source 3.0 vil være tilgængelig i November 2018, med samtidige OLTP-og OLAP-support til rådighed kort tid efter. Der ser stadig ud som en big deal, men. Ja, Laor bemærkes, at dette er en af de funktioner, den er mest stolt af, da det gør det muligt for ScyllaDB at støtte real-time analytics og arbejdspres på de samme data centre med bedste udnyttelse til både:

“Skylla udnytter sin avancerede interne motorer og kalendere, som allerede indeholder lignende SLA garanti kapaciteter, til opgaven. I fortiden, brugte vi kalendere til at isolere forgrunden operationer fra baggrunden, vedligeholdelse. Dette er en forbedring og yderligere implementering af vores motor evner.

Bare for at være klar, Skylla er et operationelt, real-time database. Analytics i sig selv er udført af yderligere komponenter, hovedsagelig Gnist og Vupti, i løbet af de datasæt, der er gemt i Scylla. Skylla i sig selv er ikke fuld HTAP, men kombinationen af Spark og Skylla er.

I forhold til den tekniske fundament, Skylla styrer din CPU og i/O planlægning, som giver dig mulighed for at oprette roller og tildele bruger-aktier, der er forbundet med din arbejdsbyrde. De ressourcer, der anvendes af hver arbejdsbyrde spores og matches mod SLA budget garanti. Det giver dig mulighed for at køre forskellige arbejdsbelastninger parallelt på de samme servere.

Real-time arbejdsmængder have den højeste prioritet, mens andre arbejdsopgaver, såsom analytics, får en bedste-indsats tilgang og vil kun gennemføre, mens der er ledig kapacitet. Det er en stor forbedring i forhold til, hvad der er i øjeblikket muligt, hvor brugerne er tvunget til at klone deres komplette datasæt for at køre analytics på det, så vil det ikke påvirke den reelle tid OLTP belastning.”

Laor gik på at tilføje, at ingen anden database sælgeren er, selv tæt på denne. Denne påstand, der dog er åben for fortolkning. For startere, DataStax Enterprise -, forretnings -, hærdet version af Cassandra, der tilbydes af DataStax, også benytter Apache Gnist til analytics.

Også: Viden grafer ud over den hype: at Få viden i og ud af kurver og databaser

Så er der også SnappyData og Splejse Maskine, for blot at nævne nogle af de leverandører, der bygger på Gnist til HTAP, i tillæg til en række andre tilbyder lignende muligheder. Måske ScyllaDB ‘s tilgang er unik i forhold til at kombinere Sla’ er med HTAP, eller den måde, det prioriterer real-tid, arbejdspres, men HTAP i sig selv er næppe enestående.

Vil cloud

En interessant del af ScyllaDB ‘ s budskab var, at den sammenligning, at Azure CosmosDB. Der er jordforbindelse til dette, da CosmosDB er også kompatibel med Cassandra ‘ s API, og Jonathan Ellis, DataStax administrerende DIREKTØR, har også sammenlignet Cassandra at CosmosDB før.

Når bedt om at lave en lignende sammenligning for ScyllaDB, Laor erkendte:

“CosmosDB er imponerende, og det har gjort gode fremskridt, for nylig med Seastar API-og aktiv-aktiv. Det er svært at lave en fair sammenligning, da Cosmos er closed source, og det er svært at vide, hvad der er under kølerhjelmen. Men, de væsentligste forskelle er:

Skylla er open source, ingen leverandør lock-in. Med Scylla, hybrid cloud og multi-cloud er gyldige indstillinger. Skylla giver tre gange bedre latency på en femtedel af prisen på standard arbejdsmængder. CosmosDB, som DynamoDB, vil lide under varme partitioner med en reserveret IO cap per partition.

Cosmos kan ikke skelne mellem arbejdsbelastninger som Skylla kan. Det betyder, at du betaler selv for den bedste indsats arbejdsbelastninger, i modsætning til Scylla, der giver SLA garantier. Kosmos aktiv-aktiv ligner mere et datacenter ejendom og ikke er aktiv-aktiv pr node som Scylla. Dette har en øjeblikkelig effekt på at skrive ydeevne og omkostninger.”

Nu, CosmosDB er en cloud-kun database. På det tidspunkt ScyllaDB annoncerede sin version 2.0, erhvervelse af Seastar.io var lige blevet annonceret. Et år senere, en hosted version af Scylla i skyen synes umiddelbart forestående, men er endnu ikke tilgængelig. Hvad er der tager så lang tid, og hvad vil ScyllaDB ‘ s hosted version? Laor påpegede, at det for nylig lanceret Skylla Cloud Tidlig Adgang-Programmet:

“Baseret på vores Skylla Virksomhedens database, Skylla Cloud vil være forstyrrende i DBaaS marked. Da det kræver langt færre maskiner for at opnå høj kapacitet, dens pris, ydelse vil sætte en ny bar for branchen. Vi har endnu ikke offentligt annonceret Skylla Cloud, fordi det stadig er i en Tidlig Adgang, men tilmelding er tilgængelige på vores hjemmeside. Vi er kun et par uger væk fra at åbne det op.”

Også: fortid, nutid, og fremtid streaming: Flink, en Gnist, og den bande

Nu, at Skylla er på niveau med Cassandra, Laor sagde, det næste mål er at blive en førende database-som-en-service og tjene som et bedre alternativ for kunder, end den cloud-leverandører. Skylla Cloud vil være en overbevisende tilbyder, gik han videre til at tilføje, med tre-gange bedre latency på en fjerdedel af de omkostninger, og ingen leverandør lock-in.

Kubernetes og uden

ScyllaDB arbejder også på at tilføje understøttelse for Kubernetes, en tendens, der er i gang blandt forhandlere, der tilbyder data platforme. Med ScyllaDB grundlæggerne baggrund i Hypervisors, at de er “fuldt ud klar over og dybt engageret,” selv om der er i øjeblikket en forringelse af ydeevnen, når du kører ScyllaDB på Kubernetes.

Også: Future directions for Apache Flink/Data Håndværkere

Laor bemærkes, vil der være en session om “at Få Mest muligt ud af Scylla på Kubernetes” på ScyllaDB Topmødet. Han nævnte også, der er en dedikeret #kubernetes kanal på deres Slack, og de ser, som brugere er implementering og styring af Scylla gennem Kubernetes i deres miljøer.

“Der er allerede en række GitHub genkøbsforretninger specifikt til, hvordan du installerer Skylla hjælp Kubernetes. Markedet udvikler sig, og dette er virkelig, hvor det at være open source giver dig mulighed for at arbejde direkte med udviklere om de operationelle udfordringer, de står over for. Ikke desto mindre, den sky, med sine virtuelle maskiner, og automatisk skalering allerede giver bedre funktionalitet end Kubernetes.

Skylla er en meget effektiv anvendelse. Det kan være at køre på færre maskiner, men dominerer dem, i modsætning til andre databaser, som ikke fuldt ud at udnytte de ressourcer, — det ville være en skam ikke at køre andre bælg ved siden af dem. Således, på cloud ‘ en, anbefaler vi at køre direkte på Linux, mens vi vil støtte en fuld Kubernetes installationer på skyen, så godt.”

Styring Havet Monster – Integration Skylla med Kubernetes fra ScyllaDB

Når vi diskuterer fremskridt på dette hotel, Laor bemærkes, at der, som en privatejet virksomhed, betyder det ikke at videregive finansielle oplysninger. Desuden tilføjede han dog, at det er at have et meget godt år i bestyrelsen:

“Vores open source-fællesskabet vokser ganske hurtigt, som et ord om Scylla fortsætter med at sprede sig. 2018 er også året, hvor vores nyligt bemandet salgsteam begyndte at sælge vores Enterprise Edition for alvor, og i løbet af året, har vi tilføjet en række Fortune 50 kunder til vores vagtplan, sammen med masser af mindre virksomheder. Vi har næsten fordoblet vores antal beskæftigede fra et år siden og fortsætter med at ekspandere.”

Også: Google kan nu søge efter datasæt. Første forskning, så er verden?

Som vi har nævnt før, ScyllaDB er ikke mangel på ambitioner. Det ser ud til at være godt på vej i at udføre sin strategi, gør bemærkelsesværdige fremskridt. Det vil være interessant at se, hvor langt det bliver det.

Tidligere og relaterede dækning:

Manyverse og Sladder: En menneske-centreret teknologi stakken for sociale applikationer

Er du klar over, internettet er ved at dø i et kvælertag af store tech, som du gerne vil have til at flytte væk, men føler, at du ikke har et alternativ? Hvis du er klar til et helt andet paradigme, Manyverse og Sladder kan være dine ting.

Temmelig lavt niveau, temmelig stor deal: Apache Kafka og Sammenflydende Open Source gå mainstream

Apache Kafka er stor, og alle, men det er en tidlig adoptant ting, går den konventionelle visdom. Jay Kreps, Kafka co-creator og Sammenflydende CEO, digresses. Mainstream vedtagelsen sker, og det sker nu, siger han, mens også kommentere på de nyeste trends.

Apache Gnist skabere sat sig for at standardisere fordelt machine learning uddannelse, udførelse og implementering

Matei Zaharia, Apache Gnist co-creator og Databricks CTO, taler om en vedtagelse mønstre, tekniske data og data videnskab, brug og udbygning standarder, og den næste bølge af innovation inden for machine learning: Distribution.

Påståelig og åbne machine learning: nuancerne ved at bruge Facebook ‘ s PyTorch

Soumith Chintala fra Facebook AI Forskning, PyTorch projektleder, fortæller om de tanker, der ligger bag dens oprettelse, og design og usability valg, der foretages. Facebook er nu samlende machine learning rammer for forskning, udvikling og produktion i PyTorch, og Chintala forklarer, hvordan og hvorfor.

Relaterede Emner:

Big Data Analytics

Innovation

CXO

Kunstig Intelligens

Virksomhedens Software

Opbevaring