Skrevet af George Anadiotis, bidragydende skribent George Anadiotis bidragende skribent
George Anadiotis har teknologi, data og medier, og han er ikke bange for at bruge dem.
Fuld bio udgivet i Big on Data den 18. februar 2022 | Emne: Big Data
To år er lang tid inden for teknologi i disse dage. Det var sandt før COVID-19, og det er bestemt sandt nu. Det er næsten to år siden den sidste store version 4.0 af open source NoSQL-databasen ScyllaDB blev udgivet i 2020. Et par år senere, da ScyllaDB lancerede version 5.0, er det et godt tidspunkt at tjekke tilbage.
Hvordan har realiteterne inden for databaser og datahåndtering generelt udviklet sig? Og hvordan har ScyllaDB fulgt med? Vi kontaktede ScyllaDB medstifter og CEO Dor Laor for at diskutere detaljerne i den nye udgivelse samt udviklingen i databaseverdenen.
Sky som tyngdepunkt til databaser
Vi dækkede først ScyllaDB på ZDNet tilbage i 2017. Dens historie er en af deep tech, open source og pivots. Startet af Hypervisor og Linux Red Hat-veteranerne Dor Laor og Avi Kivity, blev databasen, der positionerer sig som en hurtigere Apache Cassandra, slet ikke udformet som en database. Efter at have påbegyndt den kurs er den dog stadig fastlagt.
Laor er en meget teknisk orienteret administrerende direktør, som foretrækker at dykke ind med hovedet først til en analyse af, hvad ScyllaDB 5.0 bringer til bordet på den tekniske front . Vi tænkte dog, at vi ville starte med de overordnede tendenser, der driver den tekniske udvikling, hvilket Laor også anerkendte.
Indrømmet, det er ikke noget, du ikke har hørt før: data går til skyen, og realtidsdatabehandling er stigende. ScyllaDB har kun drevet sin egen database som en tjeneste, Scylla Cloud i et par år, men det er hurtigt ved at blive tyngdepunktet for virksomheden.
Scylla Cloud blev introduceret i 2019 og voksede 200 % i 2021, efterfulgt af en vækst på 200 % i 2020. Laor sagde, at tjenestens momentum er stærkt, med en forudsigelse på 140 % vækst i 2022. Det vil blive halvdelen af ScyllaDBs forretning, Laor fortsatte med at tilføje, da folk bare foretrækker at forbruge tjenester:
“Det er svært at finde talent til at drive en distribueret database. Det er en udfordring og også meget dyrt. Leverandører, der vedligeholder deres egen automatisering omkring dette, vil give [brugere] bedre resultater, fordi vores implementering er den anbefalede måde. De fleste brugere, der kører en database på egen hånd, vil have for travlt til at implementere sikkerhedskopiering og gendannelse, for eksempel. Det er ikke tilfældet hos os”, sagde Laor.
Scylla Cloud blev oprindeligt gjort tilgængelig på AWS, mens den senere udvidede til også at dække GCP. På AWS kan brugere vælge at køre ScyllaDB på deres egen konto, hvis de ønsker det. På GCP vil ScyllaDB snart være tilgængelig på markedspladsen. Support til Azure kommer også snart. Laor sagde, at deres fokus i øjeblikket er på at automatisere og færdiggøre forskellige aspekter af tjenestens brugeradministration og sikkerhed.
Som en del af sin egen forskning udførte ScyllaDB nogle benchmarks på AWS. Disse benchmarks blev delt med offentligheden på Scylla Summit 2022, virksomhedens seneste onlinebegivenhed. Benchmarking er svært, hvilket er tydeligt for en leverandør som ScyllaDB, der er ret til benchmarks.
ScyllaDB-medarbejdere benchmarkede deres database på petabyte-niveau ved at bruge funktioner som arbejdsbelastningsprioritering til at kontrollere prioriteter for transaktioner (læse-skrive) og analytiske (skrivebeskyttede) forespørgsler på den samme klynge med jævn og forudsigelig ydeevne. I processen afslørede de også nogle indsigter om forskellige leverandør-CPU'er og AWS-instanser.
På topmødet blev benchmarks, der sammenligner AWS i3-instanser med Intels x86-løsning med instanser, der kører på AMD, præsenteret. AWS vil også snart gøre i4 tilgængelig, en anden instansfamilie baseret på nyere x86-maskiner, og da ScyllaDB havde tidlig adgang, inkluderede de det også.
Alle disse familier er fremragende, sagde Laor. ScyllaDB's test viste, at i4'er var dobbelt så hurtige som i3'er. Armbaserede forekomster viste sig generelt at være langsommere, men hvis du medregner prisydelsen, så er de på nogle arbejdsbelastninger billigere end i3s, sagde Laor. Samlet set anbefales dem dog alle, deres NVMe er forbedret meget, og de er langt bedre end netværkslagring, fortsatte han med at tilføje.
Data i skala og i realtid
Den anden trend inden for datastyring, som ScyllaDB spiller ind, er den løbende vægt på databehandling i realtid. Et bemærkelsesværdigt eksempel fra Scylla Summit 2022 var Palo Alto Networks, der brugte strømbehandling med ScyllaDB uden en beskedkø. Motivationen var at reducere den operationelle kompleksitet og i forlængelse heraf omkostningerne.
Oprindeligt troede vi, at det muligvis var bygget oven på ScyllaDB's Change Data Capture-funktion (CDC), som har været på plads siden version 4.0 . CDC giver brugerne mulighed for at spore ændringer i deres data og registrere både de originale dataværdier og de nye værdier til registreringer. Ændringer streames til en standard CQL-tabel, der kan indekseres eller filtreres for at finde kritiske ændringer af data.
Tilsyneladende var Palo Altos use case en skræddersyet en, der også involverede Kafka. Hvis du kender dit datamønster, er det den bedste måde, kommenterede Laor. CDC vil normalt blive implementeret for brugere, der ikke ved, hvad der blev skrevet til databasen, eller hvis data ikke har et regulært mønster.
Uanset hvad viser stigningen i realtidsdatabehandling i ScyllaDBs partnerskaber såvel som i programmet for dets seneste topmøde. Topmødet indeholdt præsentationer fra Confluent, Redpanda og StreamNative, som alle beskæftiger sig med databehandling i realtid, hvor de to førstnævnte er leverandører i dette rum. Laor bemærkede, at ScyllaDB har en Kafka-stik og andre forbindelser, folk kan arbejde med.
Hvad angår tekniske resultater, har ScyllaDB 5.0 gjort fremskridt på to nøglefronter: ydeevne og drift. På præstationsfronten lagde Laor vægt på ScyllaDBs nye I/O-planlægger, som har været undervejs i omkring 6 år. Den er bygget til at matche nye hardwareegenskaber og fungerer på shard-niveau. Hvad ScyllaDB's folk indså, var, at arbejdsbelastninger med blandede læse-/skriveanmodninger kræver særlig styring, og det er det, de har arbejdet på.
En anden væsentlig forbedring af ydeevnen var, hvor store partitioner der administreres. De er vanskelige både for databasen og for brugerne. ScyllaDB forbedrede indeksering af store partitioner og tilføjede muligheden for at cache indekser er blevet tilføjet. Laor omtalte dette problem som at gå fra “halvt løst” i Cassandra og tidligere ScyllaDB-versioner til “fuldt løst” i ScyllaDB 5.0.
Med hensyn til driftsforbedringer er den største ændring skiftet fra at være en eventuel konsistensdatabase til en umiddelbart konsistent database, som Laor udtrykte det. Konsensusprotokollen for transaktioner er ændret, da ScyllaDB skiftede fra Paxos til Raft. Laor uddybede rejsen.
Da ScyllaDB implementerede Paxos-protokollen med letvægtstransaktioner, begyndte de også at implementere DynamoDB API for Alternator og gennemførte Jepsen-testene. Det viste Raft-protokollens begrænsninger, herunder scenarier, der ikke er transaktionelle, såsom skemaændringer og topologiændringer. Med Raft kan flere skemaændringer understøttes på en transaktionsmæssig måde, mens topologiændringer er i gang.
Den anden store forbedring er omkring reparationsbasisknudeoperationer. Nodeoperationer refererer til tilføjelse, fjernelse eller erstatning af noder i en klynge. I alle disse operationer skal data streames frem og tilbage fra andre replikaer. Det er en sværvægtsoperation efterfulgt af en reparationsfase. Reparationsbasisknudeprotokollen ruller begge i én fase, mens den er stateful. Det betyder hurtigere drift, der også kan genoptages.
Overordnet set skitserede Laor fortsat teknisk udvikling og forventede forretningsvækst for ScyllaDB. Kundebasen er blevet udvidet, fra kendte navne som Amdocs og Instacart til mere eksotiske use cases omkring blockchain. Selve databasen er use case-agnostisk, selvom høje datamængder og tidsserieapplikationer er der, hvor den skinner — overkommelig skala, som Laor udtrykte det.
Væksten er indtil videre primært kommet fra brownfield use cases, dvs. fra klienter, der erstatter Cassandra eller DynamoDB med ScyllaDB; men greenfield-segmentet vokser også, sagde Laor. ScyllaDBs planer omfatter udvidelsen af dets cloud-udbud til Azure, samt multi-tenancy og serverløse funktioner bygget på dets Kubernetes-operatør. Da verdens digitale fodaftryk udvides, er det et godt tidspunkt at være i databranchen, konkluderede Laor.
Big Data
Sync Computing sigter mod at fortsætte, hvor serverløs stopper Nyt filformat, der hjælper forskere med at reducere DNA-analysetiden Google afslører differentielt privatlivsværktøj til Python-udviklere, der behandler data. Rapport: IT-migrering til skyen rammer store forhindringer Data Management | Digital transformation | Robotik | Internet of Things | Innovation | Enterprise Software