NORSK

ScyllaDB bereikt Cassandra functie van pariteit, voegt HTAP, cloud, en Kubernetes ondersteuning

237

Nul

ScyllaDB belooft iets eenvoudig, verleidelijk, en het is moeilijk te geloven: Houd uw codebase, vervangen Cassandra met ScyllaDB, voor maximaal 10 keer boost in de prestaties. Hoe kan dit? In een notendop, de verschillende implementatie taal (C++ in plaats van Java), meer low-level programmeren paradigma (zoals geheugen of een aansluiting toewijzing) via Seastar, en auto-tuning mogelijkheden.

Ook: Neuton: Een nieuwe, verstorende neurale netwerk kader voor AI-toepassingen

Dat was het verhaal van ScyllaDB 2.0. Er waren echter een paar functies ontbreken van ScyllaDB om een exacte drop-in vervanger voor Cassandra. Nu met versie 3.0 aangekondigd in ScyllaDB Top, ScyllaDB niet alleen sluit het gat, maar gaat op zijn eigen reis, te beginnen met het toevoegen van HTAP (Hybride Transactionele – Analyse Verwerking) capaciteiten en gaat de cloud.

De kloof met Cassandra

Laten we beginnen met de functies die vroeger werden ontbreken van ScyllaDB en zijn er nu. Gematerialiseerd Uitzicht, Secundaire Indexen, en Bestandsformaten klinkt misschien niet heel sexy, maar ze kunnen er veel verschil in de ontwikkeling van toepassingen en prestaties. Dor Laor, ScyllaDB mede-oprichter en CEO, zei ze gewijd veel hard werk en een groot deel van hun R&D te bereiken pariteit in termen van functionaliteit:

“Deze drie functies werden lang verwacht door veel van onze klanten en gebruikers, dus het was een no-brainer om te investeren in hen. In het algemeen, zowel Cassandra en haar voorouder, DynamoDB, zijn geluid, functie-wise. Het is de uitvoering die was niet goed genoeg.

Bijvoorbeeld, onze secundaire indexen zijn algemeen en kunnen daarom schaal met een cluster grootte. Deze functionaliteit niet alleen stimuleert de teams wisselen van Cassandra te Scylla, moet invloed hebben op andere NoSQL-gebruikers om over te schakelen naar Scylla. We hebben een uitgebreid stappenplan voor ons buiten deze functies en we zijn verheugd om te blijven evolueren onze database-functionaliteit.”

Speciale nadruk wordt gelegd op de Gematerialiseerde op de ScyllaDB mensen, let op dit is een productie-klaar release van zijn langverwachte experimentele functie die is ontworpen om te kunnen worden geautomatiseerd server-side tabel denormalization. Zij voegen er aan toe dat de Apache Cassandra gemeenschap teruggedraaid deze functie van productie-klaar experimentele mode in 2017.

“Gematerialiseerd uitzicht bleek erg complex, zowel voor Cassandra en voor Scylla,” zei Laor. Hij ging aan toe te voegen dat ze ontdekten dat veel ongeadresseerde ontwerp problemen in de uitvoering, waardoor ze leveren lang na de oorspronkelijke plannen. Laor opgemerkt dat er twee belangrijke complexiteit in Gematerialiseerde Uitzicht (MV) voor Scylla en Seastar:

Complexe schrijven pad. Het schrijven pad is ontworpen om zo eenvoudig mogelijk voor maximale prestaties, maar MV verandert dit. De updates weergeven mandaten-lezen-voor-de-schrijven om het te bekijken. Het voegt complexiteit en ook een performance penalty die Cassandra heeft een harde tijd omgaan met.De uiteindelijke consistentie. Het is een grote uitdaging om te houden van de basistabel en het uitzicht gesynchroniseerd. Updates zijn volledig asynchrone en evenwijdig zijn en het is zowel een voorstelling uitdaging er niet in om een grote vertraging tussen het beeld en de basis en ook een samenhang uitdaging om het in-sync, zelfs in het gezicht van storingen.

Ook: de verwerkingstijd serie gegevens: Wat zijn de opties?

Daarnaast ScyllaDB beweert haar wereldwijde secundaire indexen kunnen worden geschaald naar elke grootte van het cluster, in tegenstelling tot de teller lokale-indexering aanpak van Apache Cassandra. Secundaire indexen laat het opvragen van gegevens door middel van niet-primaire sleutel kolommen. Ten slotte, in termen van pariteit functies, Apache Cassandra 3.x-compatibele opslag formaat (SSTable) wordt gezegd dat het verbeteren van prestaties en het verminderen van opslag volume met maar liefst drie keer.

Gaat HTAP

Maar het echt grote nieuws over ScyllaDB 3.0 zijn de HTAP mogelijkheden. Laor, spreken op Scylla Top 2018, zei hij ontwikkelde een baanbrekende OLTP + OLAP-service level agreement (SLA) garanderen dat zet ScyllaDB op een pad in de richting van pure multi-tenancy en posities het gunstig af tegen Amazon DynamoDB en Microsoft ‘ s Kosmos DB onder anderen.

Scylla Open Source 3.0 zal beschikbaar zijn in November 2018, met gelijktijdige OLTP en OLAP-ondersteuning beschikbaar kort na. Dat ziet er nog steeds uit als een big deal, echter. Inderdaad, Laor opgemerkt, dit is een van de functies is het meest trots op, want het stelt ScyllaDB ter ondersteuning van real-time analytics werkbelasting op dezelfde data centers met een optimaal gebruik voor zowel:

“Scylla maakt gebruik van de geavanceerde interne motoren en planners, die al soortgelijke SLA garantie mogelijkheden, aan de taak. In het verleden gebruikten we de planners te isoleren voorgrond de verrichtingen van de achtergrond, het onderhoud. Dit is een verbetering en aanvullende implementatie van onze motor vaardigheden.

Even voor de duidelijkheid, Scylla is een operationele, real-time database. Google Analytics zelf worden uitgevoerd door extra onderdelen, voornamelijk Vonk en Presto, over de dataset opgeslagen in Scylla. Scylla zelf is niet volledig HTAP, maar de combinatie van een Vonk en Scylla is.

In termen van de technische onderbouwing, Scylla beheert uw CPU en I/O-plannen, waarmee u te maken rollen en toewijzen gebruiker aandelen in verband met uw workload. De bronnen die gebruikt worden door elk van de werklast worden bijgehouden en vergeleken met de SLA budget garanderen. Het stelt u in staat om verschillende workloads in een parallel op dezelfde servers.

Real-time workloads met de hoogste prioriteit, terwijl andere taken, zoals google analytics, wordt een best-effort aanpak en wordt alleen uitgevoerd als er extra capaciteit. Het is een grote verbetering ten opzichte van wat momenteel mogelijk is, waar gebruikers worden gedwongen om te klonen hun volledige dataset om uit te voeren analyses op het, dus het zal niet van invloed zijn op de real-time OLTP laden.”

Laor ging aan toe te voegen dat er geen andere database leverancier is zelfs dicht bij deze. Deze claim is echter open voor interpretatie. Voor starters, DataStax Enterprise, de commerciële, geharde versie van Cassandra aangeboden door DataStax, ook gebruik maakt van Apache Vonk voor google analytics.

Ook: Kennis grafieken voorbij de hype: het Verkrijgen van kennis in en uit grafieken en databases

Dan is er ook SnappyData en Las Machine, om er maar een aantal van de verkopers in het gebouw op de Spark voor HTAP, naast een aantal anderen die vergelijkbare mogelijkheden. Misschien ScyllaDB de aanpak die uniek is in termen van het combineren van Sla ‘ s met HTAP, of de manier waarop hij geeft real-time workloads, maar HTAP zelf is nauwelijks uniek.

Gaat cloud

Een interessant onderdeel van ScyllaDB was de boodschap van de vergelijking van Azure CosmosDB. Er is de aarding, zoals CosmosDB is ook compatibel met Cassandra ‘ s API, en Jonathan Ellis, DataStax CEO, heeft ook in vergelijking met Cassandra naar CosmosDB voor.

Wanneer u wordt gevraagd om een soortgelijke vergelijking voor ScyllaDB, Laor erkend:

“CosmosDB is indrukwekkend en het heeft goede vorderingen gemaakt, die onlangs met de Seastar API en active-active. Het is moeilijk om een eerlijke vergelijking, omdat de Kosmos is closed source en het is moeilijk om te weten wat er onder de motorkap. Echter, de belangrijkste verschillen zijn:

Scylla is open source, geen vendor lock-in. Met Scylla, hybride cloud en multi-cloud zijn geldig opties. Scylla biedt drie keer beter latentie bij een vijfde van de kosten voor standaard workloads. CosmosDB, zoals DynamoDB, krijgt last van hete partities met een gereserveerde IO-cap per partitie.

De kosmos kan niet differentiëren tussen werkbelasting als Scylla kan. Dat betekent dat je zelfs betalen voor best effort service, in tegenstelling tot Scylla dat biedt SLA garanties. Kosmos actieve-actieve lijkt meer op een datacenter eigendom en niet actief-actief per node als Scylla. Dit heeft een direct effect op het schrijven van prestaties en kosten.”

Nu, CosmosDB is een cloud-database alleen. Op het moment ScyllaDB aangekondigd dat versie 2.0, de overname van de Seastar.io had net aangekondigd. Een jaar later, een gehoste versie van Scylla in de cloud lijkt dreigend, maar nog niet beschikbaar is. Wat is er aan de hand is, en wat zal ScyllaDB de gehoste versie? Laor op gewezen dat het onlangs het Scylla Cloud Early Access Programma:

“Gebouwd op onze Scylla Enterprise database, Scylla Cloud storend in de DBaaS markt. Aangezien het vereist veel minder machines te bereiken high throughput, de prijs-prestatie zal een nieuwe lat voor de industrie. We hebben nog niet publiekelijk bekend is gemaakt Scylla Cloud, omdat het nog in het Begin van de Toegang, maar registratie is beschikbaar op onze website. Wij zijn slechts een paar weken verwijderd van de opening.”

Ook: Het verleden, het heden en de toekomst van streaming: Flink, Vonk en de bende

Nu die Scylla is op een lijn met Cassandra, Laor gezegd, het volgende doel is om een toonaangevende database-as-a-service en dienen als een beter alternatief voor klanten dan de cloud leveranciers. Scylla Cloud een aantrekkelijke aanbieding, ging hij toe, met drie keer beter latentie bij een kwart van de kosten en geen vendor lock-in.

Kubernetes en buiten

ScyllaDB is ook bezig met het toevoegen van ondersteuning voor Kubernetes, een trend die wordt uitgevoerd bij leveranciers aanbieden van gegevens platforms. Met ScyllaDB oprichters achtergrond in Hypervisors zijn, ze zijn volledig op de hoogte zijn diep betrokken is,” hoewel op dit moment is er een afname van de prestaties bij het uitvoeren van ScyllaDB op Kubernetes.

Ook: Toekomstige richtingen voor Apache Flink/Data Ambachtslieden

Laor opgemerkt zal er een sessie over “het Krijgen van het Meeste uit van Scylla op Kubernetes” op ScyllaDB Top. Hij noemde ook is er een speciale #kubernetes kanaal op hun Slap, en ze kijken als gebruikers zijn het implementeren en beheren van Scylla door Kubernetes in hun omgeving.

“Er zijn al een aantal van GitHub repo’ s specifiek voor het implementeren van Scylla met Kubernetes. De markt is aan het veranderen en dit is echt waar open-source zijn, kunt u om rechtstreeks te werken met ontwikkelaars aan de operationele uitdagingen waarmee ze geconfronteerd worden. Niettemin, de cloud, met haar virtuele machines en auto-scaling al biedt meer functionaliteit dan Kubernetes.

Scylla is een zeer efficiënte toepassing. Het kan uitgevoerd worden op minder machines maar domineert ze, in tegenstelling tot andere databases die niet volledig kunnen gebruik maken van de middelen — het zou een schande zijn niet voor het uitvoeren van andere pods naast hen. Dus, op de cloud adviseren wij om direct uit te voeren op Linux, terwijl wij ondersteunen volledig Kubernetes implementaties in de cloud.”

De besturing van het Sea Monster – Integratie van Scylla met Kubernetes van ScyllaDB

Bij het bespreken van de voortgang op de business voor, Laor opgemerkt dat, als een privé-onderneming, het niet openbaar maken van financiële informatie. Ook hij voegde er echter aan, dat het hebben van een zeer goed jaar in de raad van bestuur:

“Onze open source gemeenschap groeit heel snel als woord over Scylla verder te verspreiden. 2018 is ook het jaar van onze nieuwe bemande Sales team begonnen met de verkoop van onze Enterprise Edition in ernst, en tijdens het jaar, we hebben een aantal van de Fortune 50 klanten op onze lijst, samen met tal van kleinere. We hebben bijna een verdubbeling van onze personeelsbezetting van een jaar geleden en verder uit te breiden.”

Ook: Google nu kunt zoeken naar datasets. Eerst onderzoek, dan is de wereld?

Zoals we al eerder is opgemerkt, ScyllaDB is niet kort van ambitie. Het lijkt goed te zijn in het uitvoeren van de strategie, het maken van vooruitgang. Het zal interessant zijn om te zien hoe ver deze krijgt.

Vorige en aanverwante dekking:

Manyverse en Scuttlebutt: Een mens-gerichte technologie-stack voor sociale toepassingen

Bent u zich bewust van de web is stervende in de wurggreep van de grote tech, die u wilt om weg te gaan, maar het gevoel dat je niet een alternatief? Als u klaar bent voor een geheel ander paradigma, Manyverse en Scuttlebutt kan uw ding.

Vrij laag niveau, pretty big deal: Apache Kafka en Samenvloeiende Open Source gaan mainstream

Apache Kafka is geweldig, maar het is een early adopter ding, gaat de conventionele wijsheid. Jay Kreps, Kafka co-creator en Samenvloeiende CEO, digresses. Reguliere adoptie is gebeurt, en het gebeurt nu, zegt hij, terwijl ook het commentaar op de nieuwste trends in de sector.

Apache Vonk makers te standaardiseren verdeeld machine learning-training, uitvoering en implementatie

Matei Zaharia, Apache Vonk co-creator en Databricks CTO, vertelt over adoptie patronen, data engineering en data science, gebruik en uitbreiding van de normen, en de volgende golf van innovatie in machine learning: Distributie.

Eigenzinnig en open machine learning: De nuances van het gebruik van Facebook ‘ s PyTorch

Soumith Chintala van Facebook AI Onderzoek, PyTorch project leiden, vertelt over de gedachte achter de oprichting en het ontwerp en de bruikbaarheid keuzes gemaakt. Facebook is nu het verenigen van machine learning kaders voor onderzoek en productie in PyTorch, en Chintala legt uit hoe en waarom.

Verwante Onderwerpen:

Big Data Analytics

Innovatie

CXO

Kunstmatige Intelligentie

Enterprise Software

Opslag