< p class="meta"> Door Tony Baer (dbInsight) voor Big on Data | 15 juni 2021 — 12:00 GMT (13:00 BST) | Onderwerp: Big Data Analytics
DataStax kondigt vandaag de bètaversie aan van Astra Streaming, een nieuwe zelfstandige service van zijn Astra-cloud die onafhankelijk zal werken van en zal integreren met Astra DB (voorheen DataStax Astra genoemd). De nieuwe service is gebaseerd op technologie die in januari bij de overname van Kesque werd geleverd en de Luna-streamingservice verving. En nee, verwar dit niet met de mobiele Android-app Astra Streaming Studio die consumenten kunnen downloaden uit de Google Play Store.
Astra Streaming wordt toegevoegd aan het Astra-portfolio en zal multi-cloudondersteuning bieden en, hoewel het gratis wordt aangeboden (met bovengrenzen) tijdens de openbare bèta, zal het uiteindelijk worden geprijsd op basis van betalen per gebruik zodra de service algemeen wordt vrijgegeven.< /p>
De onderliggende technologie is gebaseerd op Apache Pulsar, een publish/subscribe (PubSub) messaging die vaak wordt vergeleken met de bekendere Apache Kafka. En in feite belooft DataStax dat de service compatibel zal zijn met Kafka via een bestaande wrapper; hoewel deze functie in eerste instantie niet beschikbaar was tijdens de bèta, verwachten we dat deze functie live zal gaan met de productie-release.
Pulsar volgt, net als Kafka, een lange reeks berichtentechnologieën die dateren uit het mainframe-tijdperk van Tibco en IBM en in het internettijdperk zoals JMS en RabbitMQ. Kafka is verreweg de bekendste van de huidige generatie, ontwikkeld op LinkedIn terwijl Pulsar uit Yahoo kwam, beide Apache-projecten van het hoogste niveau.
Er zijn een aantal overeenkomsten tussen Pulsar en Kafka; beide zijn ontworpen voor scale-out, bieden lange duurzaamheidsgaranties, ondersteunen replicatie in verschillende regio's, hebben een breed scala aan besturingsprogramma's en (voorlopig) een wederzijdse afhankelijkheid van Apache Zookeeper voor het opslaan van metadata.
Maar er zijn ook belangrijke architecturale verschillen tussen Pulsar en Kafka. Een van de meest fundamentele verschillen is dat Pulsar berichten naar abonnees pusht, terwijl Kafka van abonnees verlangt dat ze ze naar beneden halen. En architectonisch is Kafka eenvoudiger; het combineert message broker en message persistentie in dezelfde laag, terwijl Pulsar ze verdeelt. Dit leidt tot talloze debatten en behoorlijk felle rivaliteit, wat de superieure benadering is.
Pulsar-supporters beweren bijvoorbeeld dat de drielaagse architectuur (die ook Zookeeper omvat) flexibeler en schaalbaarder is. De taakverdeling voor berichtenverwerking is automatisch en dankzij de afzonderlijke persistentielaag kan het werk van de makelaar worden herverdeeld en verspreid over meer knooppunten zonder gegevensverlies. Kafka-supporters weerleggen dat hun aanpak resulteert in een eenvoudigere architectuur met de helft minder servers en zuiniger is. Ze zijn ook van plan om de architectuur verder te vereenvoudigen door Zookeeper te verwijderen, maar hier wordt nog aan gewerkt.
Er zijn verdere discussies over welk PubSub-systeem gegevens efficiënter repliceert; slaat gegevens slechts één keer op; ondersteunt precies één keer transacties; biedt diepere ondersteuning voor het in de wachtrij plaatsen van berichten; is eenvoudiger te configureren en levert een hogere doorvoer op. En er zijn nog meer discussies over ondersteuning van multitenancy, gelaagde opslag, toegestane berichtgrootte. Voordat Kesque door DataStax werd overgenomen, legde hij uit waarom hij voor Pulsar koos.
Al met al doet dit debat erg denken aan het debat over Spark Streaming vs Flink. Beiden vielen hetzelfde probleem aan vanuit een spiegelbeeldbenadering, en een daarvan kwam veel eerder naar voren en kreeg bredere (bijna universele) steun van de industrie. Maar ondanks Spark's voorsprong op de markt en brede aanwezigheid, heeft Flink het goed gedaan, een van de vele streamingalternatieven voor Spark's microbatching. En ondanks Kafka's alomtegenwoordige aanwezigheid op de markt, heeft Pulsar steun gekregen van een aantal bekende namen zoals Splunk, wiens steun kwam door de Streamlio-acquisitie.
DataStax's onthulling van Astra Streaming is niet bepaald een verrassing. Het was aan de muur toen DataStax in januari Kesque overnam, dat zijn eigen Luna Pulsar-service aanbood. Het verschil met Astra Streaming is meer dan een rebranding. Terwijl klanten Luna moesten beheren, wordt Astra Streaming volledig beheerd door DataStax.
Openbaarmaking: DataStax is een dbInsight-client.
Big Data
Waar is IBM's hybride cloud launchpad? Zeven manieren om realtime technologie echt te maken voor uw organisatie Machine learning aan de edge: TinyML wordt groot Wat biedt Cloudera nu? McDonald's wil machine learning 'democratiseren' voor alle gebruikers in al haar activiteiten
Verwante onderwerpen:
Cloud Digital Transformation Robotics Internet of Things Innovatie Enterprise Software