Vrij laag niveau, pretty big deal: Apache Kafka en Samenvloeiende Open Source gaan mainstream

0
118

Nul

Apache Kafka, de open-source verdeeld messaging systeem, gestaag gesneden een voet aan de grond als de de facto real-time standaard voor de tussenhandel berichten in schaal-uit-omgevingen. En als je denkt dat je hebt gezien deze opener voor, het is want je hebt.

Ook: Pulsar afgestudeerden een Apache project op het hoogste niveau

Naast het feit dat collega-ZDNet is Tony Baer-opener voor zijn stuk commentaar op Kafka gebruik enquête in juli, heb je waarschijnlijk iets langs deze lijnen elders, of had dat gevoel zelf. Ja, Kafka is in de meeste whiteboards, maar het is vooral de whiteboards van de ‘early adopters’, was de kern van Baer ‘ s analyse.

Met Kafka Top kick-off van vandaag San Francisco, we maakten van de gelegenheid voor een praatje met Jay Kreps, Kafka co-creator en Samenvloeiende CEO, op alle dingen Kafka, evenals de bredere landschap.

Gaat mainstream

Kreps aangegeven zijn geloof, dat in het laatste jaar Kafka heeft eigenlijk geworden. Als bewijs om deze bewering, verwees hij naar use cases in vier van de vijf grootste banken in de VS, evenals de Bank of Canada: “Dit zijn 200 jaar oude organisaties, en ze niet gewoon springen op de eerste technologie van Silicon Valley. We gaan de mainstream in een grote weg,” Kreps ingediend, terwijl ook de vermelding van grote retail use cases.

Hoewel we geen reden hebben om aan de vraag van deze use cases, het is moeilijk te beoordelen of dit zich vertaalt naar goedkeuring in de meerderheid van de markt. Traditioneel, big finance en retail zijn op het gebied van real-time use case adoptie.

Ook: We onderbreken deze revolutie: Apache Vonk verandert de regels van het spel

Toch kan het een tijdje duren voor dit te morsen over, dus het hangt af van wat men beschouwt als ‘ mainstream.” Op zoek naar Kafka-Top, echter, zien we een mix van Samenvloeiende personeel en bekende namen, dat is de norm voor evenementen van deze omvang.

Maar wat is het besturen van deze vaststelling? Iets wat vrij laag niveau, dat is een mooie big deal, volgens Kreps: De mogelijkheid voor integratie van verschillende systemen via berichten, en om dit te doen op schaal en in real-time. Het is niet dat dit een nieuw idee – berichten is geweest rond voor een tijdje en het is het belangrijkste uitgangspunt van de Enterprise Service Bus (ESB) oplossingen voor jaren.

Conceptueel, Kafka is niet anders. Het verschil, Kreps zei, is dat oudere systemen niet kunnen omgaan met de schaal die Kafka: “We kunnen de schaal van miljarden berichten. Nieuwe stijl, data in de cloud systemen zijn gewoon beter in dit, zijn dergelijke technieken nog niet bestond. We profiteerden als we rond kwam een beetje later.”

Gaat cloud en real-time

De cloud is iets Kreps benadrukt, en de discussie rond de laatste ontwikkelingen in het veld was gecentreerd rond. De recente Cloudera – Hortonworks fusie, bijvoorbeeld, raakt dit ook, volgens Kreps.

“Het was een slimme zet. Dit waren twee bedrijven die met elkaar concurreren op hetzelfde product, waardoor de concurrentie hevig is, ironisch genoeg. Je zou denken dat het mensen met verschillende opvattingen die concurreren hevig, maar het is eigenlijk de mensen met dezelfde opvattingen. Dat liet zien ook in het business model,” Kreps zei.

Ook: Kafka: Het verhaal tot nu toe

Kreps is van mening dat deze wedstrijd vertraagd de voortgang in de kern Hadoop, als de noodzaak voor differentiatie geresulteerd in meer aandacht in de richting van de rand van functies. Case in point, merkte hij op, het feit dat HDFS, Hadoop van het bestandssysteem, die van oudsher een belangrijk onderdeel van de waardepropositie, is niet langer de meest economische manier om op te slaan veel gegevens-opslag in de cloud is nu.

Dit kan ook worden geïnterpreteerd als een teken van weg te lopen van de batch-verwerking van dat Hadoop begonnen en meer in de richting van real-time verwerking. Hoewel Hadoop is geleidelijk uitgegroeid tot een volledige ecosysteem, inclusief streaming motoren, de meerderheid van de use cases zijn nog batch-georiënteerde, gelooft Kreps. Hoe dit zal evolueren, de tijd zal het leren.

hybridcloud.jpg
De cloud is het verkrijgen van de zwaartekracht in termen van data, en data-infrastructuur, platformen moeten werken er en op locatie. (Afbeelding: ktsimage, Getty Images/iStockphoto)

Ondanks Kreps te wijzen op de cloud als een zwaarte-punt, en Hadoop daadwerkelijk bewegen in de richting van het in de laatste paar jaar, Samenvloeiende is niet van plan om te streven naar een cloud-only beleid. In tegenstelling tot data science workloads, die kan worden gehost op kantoor of in de cloud, de aard van de data-infrastructuur die Kafka verstrekt, moeten werken op zowel, betoogde Kreps.

Aangezien veel organisaties hebben nog steeds grote investeringen in software en infrastructuur opgebouwd over jaren in hun datacenters, elke stap naar de cloud zal geleidelijk gaan. Samenvloeiing van de hosted versie van Kafka plus private extensies zullen blijven om naadloos samen te werken met de on-premise Kafka of Samenvloeiende open source, zei Kreps. Hij benadrukte ook Kafka ondersteuning voor Kubernetes, op te merken dat een stateful data systeem is om in een aantal inspanning om dit werk te maken.

Streaming coopetition en real-time machine learning

In termen van differentiatie met andere streaming platforms, Kreps op gewezen dat deze zijn meestal gericht op google analytics, terwijl Kafka is de infrastructuur op de operationele systemen kunnen worden, en zijn gebouwd. Wanneer vraagt u zich af of Kafka zou ook kunnen bewegen in de google analytics-richting, Kreps niet geven van een dergelijke aanwijzing, en vraagtekens bij de toepasbaarheid van real-time machine learning (ML):

Ook: Een kijkje in Apache Kafka goedkeuring TechRepublic

“Wat is het gebruik van een real-time machine learning platform? Toen ik op school zat, ironisch genoeg de focus van mijn adviseurs is real-time ML — ironisch, want de ML was niet erg populair toen, laat staan real-time ML.

We waren aan het worstelen om de naam van een regulier productie-systeem met behulp van real-time ML. En het idee van het hebben van een ML-algoritme scholen zelf in real-time is niet per se positief. De meeste van de tijd, de inspanning is van voldoende checks and balances in plaatsen om ervoor te zorgen ML werkt echt, zelfs bij het werken met batch-gegevens.

En als je kijkt naar ML algoritmen gebouwd door mensen die het bouwen van databases en infrastructuur, ze zijn nooit zo goed, wat is normaal. Er is een apart ecosysteem voor de gegevens van de wetenschap, en de beste dingen is gescheiden van de grote infrastructurele projecten.

De realiteit is dat de Vonk van ‘machine learning’ wordt meestal gebruikt voor offline ML. Streaming brengt alle gegevens die nodig zijn voor dit, en Kafka werkt met andere streaming platforms.”

fb2ea369d1868efbcc68181dd085bb66.jpg
Kafka is een belangrijk element van de streaming landschap, maar het werkt ook complementair aan andere streaming platforms.

Vaker wel dan niet, Kafka lijkt te worden in één adem genoemd, of whiteboard, met een aantal andere systemen, zoals streaming degenen. Hoewel sommigen kunnen zeggen dat dit betekent dat het moeilijk zal worden voor Kafka te komen in zijn eigen, en haar positie in deze architecturen betekent ook dat het even moeilijk om het te nemen uit de vergelijking.

Hoewel er geen grote aankondiging is gereserveerd voor deze Kafka-Top, Kafka en Samenvloeiende heb een paar van de mensen die in het afgelopen jaar — KSQL en versie 5.0 zijn de meest prominente — en lijkt goed op weg naar de mainstream.

Vorige en aanverwante dekking:

Samenvloeiende release voegt de enterprise, developer, IoT savvy om Apache Kafka

Samenvloeiende, het bedrijf dat is opgericht door de makers van streaming data platform Apache Kafka, is de aankondiging van een nieuwe release van vandaag. Samenvloeiende Platform 5.0, op basis van gisteren, de release van het open source Kafka 2.0, voegt enterprise security, nieuwe ramp recovery-mogelijkheden, veel functies voor ontwikkelaars, en belangrijk IoT ondersteuning.

Hortonworks ups zijn Kafka Spel

Vooruitlopend op de Strata conferentie volgende maand, Hortonworks is gericht op het streamen van gegevens zoals het introduceert een nieuwe Kafka management tool en voegt een aantal verfijningen aan de DataFlow product.

Kafka is de oprichting van het steunpunt

Gegevens pijpleidingen werden de kop van de derde jaarlijkse onderzoek van het Apache Kafka gebruiken. Achter anekdotisch bewijs van een groeiende gebruikersgroep, Kafka is nog steeds aan het early adopter fase en vaardigheden blijven moeilijk te vinden.

Samenvloeiende brengt volledig beheerde Kafka naar de Google Cloud Platform

De samenwerking tussen Samenvloeiende en Google breidt de Kafka-ecosysteem, waardoor het makkelijker wordt om te consumeren met Google Cloud services voor machine learning analytics en nog veel meer.

Verwante Onderwerpen:

Big Data Analytics

Innovatie

CXO

Kunstmatige Intelligentie

Enterprise Software

Opslag

0