DataStax startet Beta des Astra Streaming-Dienstes

0
105

Tony Baer (dbInsight) < p class="meta"> Von Tony Baer (dbInsight) für Big on Data | 15. Juni 2021 — 12:00 GMT (13:00 BST) | Thema: Big Data Analytics

DataStax kündigt heute die Beta-Version von Astra Streaming an, einem neuen eigenständigen Dienst seiner Astra-Cloud, der unabhängig von Astra DB (früher DataStax Astra genannt) betrieben und in dieses integriert werden wird. Der neue Dienst basiert auf einer Technologie, die im Januar mit der Übernahme von Kesque eingeführt wurde und den Streaming-Dienst Luna ablöste. Und nein, verwechseln Sie dies nicht mit der mobilen Android-App Astra Streaming Studio, die Verbraucher aus dem Google Play Store herunterladen können.

Astra Streaming wird dem Astra-Portfolio hinzugefügt und bietet Multi-Cloud-Unterstützung und wird, während es während der öffentlichen Beta kostenlos (mit Obergrenzen) angeboten wird, schließlich nach der allgemeinen Veröffentlichung des Dienstes auf einer Pay-as-you-go-Basis berechnet.< /p>

Die zugrundeliegende Technologie basiert auf Apache Pulsar, einem Publish/Subscribe-Messaging (PubSub), das oft mit dem bekannteren Apache Kafka verglichen wird. Und tatsächlich verspricht DataStax, dass der Dienst über einen bestehenden Wrapper mit Kafka kompatibel sein wird; Obwohl zunächst während der Beta nicht verfügbar, gehen wir davon aus, dass diese Funktion mit der Produktionsversion live gehen wird.

Pulsar folgt wie Kafka einer langen Reihe von Messaging-Technologien, die bis in die Mainframe-Ära zurückreichen Tibco und IBM und im Internetzeitalter wie JMS und RabbitMQ. Kafka ist bei weitem der bekanntere Block der aktuellen Generation, entwickelt bei LinkedIn, während Pulsar aus Yahoo hervorgegangen ist, beides Apache-Projekte auf höchster EbeneEs gibt eine Reihe von Ähnlichkeiten zwischen Pulsar und Kafka; beide wurden für Scale-out entwickelt, bieten lange Haltbarkeitsgarantien, unterstützen die Replikation über verschiedene Regionen hinweg, verfügen über eine breite Palette von Betriebsdienstprogrammen und (vorerst) eine gegenseitige Abhängigkeit von Apache Zookeeper zum Speichern von Metadaten.

Aber es gibt auch wichtige architektonische Unterschiede zwischen Pulsar und Kafka. Zu den grundlegendsten Unterschieden gehört, dass Pulsar Nachrichten an Abonnenten weiterleitet, während Kafka von Abonnenten verlangt, dass sie sie herunterziehen. Und architektonisch ist Kafka einfacher; Es kombiniert Message Broker und Message Persistenz in derselben Ebene, während Pulsar sie aufteilt. Dies führt zu zahlreichen Debatten und ziemlich heftigen Rivalitäten, was der überlegene Ansatz ist.

Zum Beispiel behaupten Pulsar-Unterstützer, dass die dreistufige Architektur (die auch Zookeeper umfasst) flexibler und skalierbarer ist. Der Lastausgleich bei der Nachrichtenverarbeitung erfolgt automatisch, und die separate Persistenzschicht ermöglicht die Umverteilung und Verteilung der Brokerarbeit auf mehrere Knoten ohne Datenverlust. Kafka-Unterstützer widerlegen, dass ihr Ansatz zu einer einfacheren Architektur mit halb so vielen Servern führt und wirtschaftlicher ist. Sie planen auch, die Architektur durch Entfernen von Zookeeper weiter zu vereinfachen, aber dies ist noch in Arbeit.

Es gibt weitere Debatten darüber, welches PubSub-System Daten effizienter repliziert. speichert Daten nur einmal; unterstützt genau einmalige Transaktionen; bietet umfassendere Unterstützung für Nachrichtenwarteschlangen; ist einfacher zu konfigurieren und bietet einen höheren Durchsatz. Und es gibt noch mehr Debatten über die Unterstützung von Mehrmandantenfähigkeit, mehrstufigem Speicher und zulässiger Nachrichtengröße. Vor der Übernahme durch DataStax legte Kesque seine Gründe für die Wahl von Pulsar dar.

Insgesamt erinnert diese Debatte sehr an die Debatte um Spark Streaming vs. Flink. Beide griffen das gleiche Problem aus spiegelbildlichen Ansätzen an, und man tauchte viel früher auf und erhielt eine breitere (fast universelle) Unterstützung der Industrie. Trotz des Marktvorsprungs und der breiten Präsenz von Spark ist Flink jedoch eine von vielen Streaming-Alternativen zum Microbatching von Spark. Und trotz der allgegenwärtigen Präsenz von Kafka auf dem Markt hat Pulsar Unterstützung von einigen bekannten Namen wie Splunk erhalten, deren Unterstützung durch die Übernahme von Streamlio kam.

Die Vorstellung von Astra Streaming durch DataStax ist nicht gerade eine Überraschung. Die Schrift war an der Wand, als DataStax im Januar Kesque erwarb, das seinen eigenen Luna Pulsar-Service anbot. Der Unterschied zu Astra Streaming ist mehr als ein Rebranding. Während Kunden Luna verwalten mussten, wird Astra Streaming vollständig von DataStax verwaltet.

Offenlegung: DataStax ist ein dbInsight-Client.

Big Data

Wo ist das Hybrid-Cloud-Launchpad von IBM? Sieben Möglichkeiten, Echtzeit-Technologie für Ihr Unternehmen real zu machen Machine Learning am Edge: TinyML wird groß Was kommt als nächstes für Cloudera? McDonald's möchte maschinelles Lernen für alle Benutzer im gesamten Betrieb „demokratisieren“

Verwandte Themen:

Cloud Digitale Transformation Robotik Internet der Dinge Innovation Unternehmenssoftware Tony Baer (dbInsight)

Von Tony Baer (dbInsight) für Big on Daten | 15. Juni 2021 — 12:00 GMT (13:00 BST) | Thema: Big-Data-Analyse