Temmelig lavt niveau, temmelig stor deal: Apache Kafka og Sammenflydende Open Source gå mainstream

0
114

Nul

Apache Kafka, open source distribueres messaging system, har været støt skåret en fodfæste som de facto real-time standard for formidling af beskeder i scale-out miljøer. Og hvis du tror, du har set dette åbner før, er det fordi du har.

Også: Pulsar kandidater til at være en Apache-top-niveau projekt

Ud over at være kollega ZDNet ‘ s Tony Baer åbner for hans stykke kommentere på Kafka brug survey i juli, har du sikkert læst noget langs disse linjer, andre steder, eller følt dig selv. Ja, Kafka er i de fleste tavler, men det er for det meste whiteboards af early adopters, var essensen af Baer ‘ s analyse.

Med Kafka-Topmødet sparker ud i dag i San Francisco, vi benyttede lejligheden til en snak med Jay Kreps, Kafka co-creator og Sammenflydende CEO, om alle ting, Kafka, såvel som i en bredere sammenhæng.

Gå mainstream

Kreps angivet sin tro på, at der i de sidste år Kafka har faktisk gået mainstream. Som belæg for denne påstand, og han nævnte use cases i fire ud af fem største banker i USA, samt Bank of Canada: “Disse er de 200 år gamle organisationer, og at de ikke bare springe på den første teknologi ud af Silicon Valley. Vi er gået mainstream i en stor måde,” Kreps hævdede, mens det også nævnes, store detail use cases.

Mens vi har ingen grund til at betvivle disse use cases, er det svært at vurdere, om dette svarer til vedtagelse i størstedelen af markedet så godt. Traditionelt store finans-og detailhandel er på forkant med real-time use case vedtagelse.

Også: Vi afbryde denne revolution: Apache Gnist ændrer spillereglerne

Stadig, det kan tage lidt tid at spilde over det hele, så det afhænger af, hvad man mener, “mainstream”. Kigger på Kafka-Topmødet, men vi kan se en blanding af Sammenflydende personale og velkendte navne, som er normen for arrangementer af denne størrelsesorden.

Men hvad er det, der driver denne vedtagelse? Noget temmelig lavt niveau, hvilket er en temmelig stor aftale, i henhold til Kreps: evnen til at integrere forskellige systemer via messaging, og at gøre dette på en skala, og i real tid. Det er ikke, at dette er en roman idé – beskeder har eksisteret i et stykke tid, og det er den væsentligste forudsætning af Enterprise Service Bus (ESB) løsninger til år.

Begrebsmæssigt, Kafka er ikke alle, der er anderledes. Den forskel, Kreps sagde, er, at ældre systemer, der ikke var i stand til at håndtere den skala, som Kafka kan: “Vi kan skalere til at trillioner af beskeder. Nye stil, cloud, data, systemer er bare bedre til dette, er disse teknikker, som ikke eksisterede før. Vi nydt godt af, da vi kom lidt rundt senere.”

Vil cloud-og real-time

Cloud er noget Kreps understreget, og diskussionen omkring den seneste udvikling på området var centreret omkring det. Den seneste Cloudera – Hortonworks fusionen, for eksempel, rører ved det så godt, efter at Kreps.

“Det var et smart træk. Det var to virksomheder, der konkurrerer på det samme produkt, som gør konkurrencen mere skarp, ironisk nok. Ville du tror, at det er mennesker med forskellige synspunkter, at konkurrere mere indædt, men det er faktisk folk med lignende synspunkter. Der virkelig viste også i den forretningsmodel,” Kreps sagde.

Også: Kafka: historien så langt

Kreps mener, at denne konkurrence bremset fremskridt i kernen Hadoop, som behovet for differentiering resulteret i en mere opmærksomhed mod kanten funktioner. Sag i punkt, bemærkede han, at den omstændighed, at HDFS, Hadoop er filsystemet, som historisk set har været en vigtig del af sin værdi proposition, er ikke længere den mest økonomiske måde til at gemme masser af data-cloud storage er nu.

Dette kan også fortolkes som et tegn på at bevæge sig væk fra batch-behandling at Hadoop startede fra, og mere mod real-time behandling. Selv om Hadoop er efterhånden vokset til en komplet økosystem, herunder streaming motorer, de fleste af sine sager er stadig batch-orienteret, mener Kreps. Hvordan dette vil udvikle sig, vil tiden vise.

hybridcloud.jpg
Cloud er en stigende grovhed i form af data, og data-infrastruktur, platforme nødt til at arbejde både der og på præmissen. (Billede: ktsimage, Getty Images/iStockphoto)

På trods af Kreps, der peger ud af skyen som en gravitationel punkt, og Hadoop faktisk bevæger sig mod det i de sidste par år, Sammenflydende ikke kommer til at forfølge en cloud-kun politiske. I modsætning til data videnskab arbejdspres, som kan være placeret enten on premise eller i skyen, den slags data-infrastruktur, som Kafka, der skal arbejde på både, hævdede Kreps.

Da mange organisationer stadig har store investeringer i software og infrastruktur, der er opbygget over år i deres datacentre, helst flytte til skyen vil være gradvis. Sammenflydende ‘ s hosted version af Kafka plus proprietære udvidelser vil fortsætte med at arbejde problemfrit sammen med on-premise Kafka eller Sammenflydende open source, sagde Kreps. Han understregede også, Kafka støtte til Kubernetes, at bemærke, at enhver stateful data system har til at sætte i nogle forsøg på at gøre dette arbejde.

Streaming coopetition, og real-time machine learning

I form af differentiering med andre streaming-platforme, Kreps påpegede, at disse er for det meste rettet mod analytics, mens Kafka er infrastruktur, som operationelle systemer kan være, og er bygget. Når du spekulerer på, om Kafka kunne også være at flytte i analytics retning, Kreps ikke give en sådan indikation er til, og satte spørgsmålstegn ved anvendeligheden af real-time machine learning (ML):

Også: En indvendig kig på Apache Kafka vedtagelse TechRepublic

“Hvad er brugen af en real-time machine learning platform? Når jeg var i skole, ironisk nok fokus for mine rådgivere blev real-time ML — ironisk nok, at ML var ikke meget populære tilbage derefter, endsige real-time ML.

Vi kæmpede for at nævne et mainstream-produktion-system ved hjælp af real-time ML. Og tanken om at have et ML algoritme omskole sig selv i real-time, er ikke nødvendigvis positivt. De fleste af den tid, indsats er at have nok kontrol og balance i steder for at sikre ML virkelig virker, selv når de arbejder med batch data.

Og hvis du ser på ML algoritmer, bygget af mennesker, der bygger databaser og infrastruktur, de er aldrig så god, hvilket er normalt. Der er en separat økosystem for data videnskab, og de bedste ting er adskilt fra de store infrastrukturprojekter.

Virkeligheden er, at Spark machine learning er for det meste bruges til offline ML. Streaming samler alle de data, der er nødvendige for dette, og Kafka arbejder med andre streaming-platforme, også.”

fb2ea369d1868efbcc68181dd085bb66.jpg
Kafka er et centralt element i streaming landskab, men det virker også supplere andre streaming-platforme.

Oftere end ikke, Kafka ser ud til at blive nævnt i samme åndedrag, eller whiteboard med en række andre systemer, herunder streaming dem. Selv om nogle kan sige, at dette betyder, at det vil være svært for Kafka at komme til sin egen, sin position i disse arkitekturer også betyder, at det er lige så svært at tage den ud af ligningen.

Selv om der ikke store meddelelse er reserveret til dette Kafka-Topmødet, Kafka og Sammenflydende har haft et par af dem i sidste år-KSQL og version 5.0 er den mest fremtrædende dem — og det lader til at være godt på vej til mainstream.

Tidligere og relaterede dækning:

Sammenflydende udgivelse tilføjer enterprise, developer, IoT-kyndige til at Apache Kafka

Sammenflydende, virksomheden blev grundlagt af skaberne af streaming data platform Apache Kafka, annoncerer en ny udgave i dag. Sammenflydende 5.0 Platform, baseret på gårsdagens udgave af open source Kafka 2.0, tilføjer virksomhedens sikkerhed, nye disaster recovery-funktioner, masser af bygherren har, og vigtigt, IoT-støtte.

Hortonworks ups sin Kafka Spil

Forud for Lag konference næste måned, Hortonworks er fokus på streaming-data, da det introducerer en ny Kafka management værktøj, og tilføjer nogle justeringer til sin DataFlow produkt.

Kafka er ved at etablere sin toehold

Data rørledninger blev overskriften fra den tredje årlige undersøgelse af Apache Kafka brug. Bag anekdotiske beviser af en voksende brugerbase, Kafka er stadig på et meget tidligt tidspunkt scenen og færdigheder er fortsat svært at finde.

Sammenflydende bringer fuldt administreret Kafka til Google Cloud Platform

Partnerskabet mellem Sammenflydende og Google udvider Kafka økosystem, hvilket gør det lettere at forbruge med Google Cloud tjenester til machine learning, analyser og meget mere.

Relaterede Emner:

Big Data Analytics

Innovation

CXO

Kunstig Intelligens

Virksomhedens Software

Opbevaring

0