Ganska låg nivå, ganska big deal: Apache Kafka och Sammanflytande med Öppen Källkod gå mainstream

0
132

Noll

Apache Kafka, öppen källkod distribueras messaging system, har stadigt ristade ett fotfäste som de facto realtid standard för förmedling av meddelanden i scale-out miljöer. Och om du tror att du har sett den här öppnaren innan, det är därför du har.

Också: Pulsar akademiker till att bli en Apache-top-level-projekt

Förutom att vara kollega ZDNet är Tony Baer öppnare för hans pjäs att kommentera Kafka undersökning om användning i juli, så har du antagligen läsa något längs dessa linjer på annat håll, eller hade den känslan själv. Ja, Kafka är i de flesta whiteboards, men det är mestadels whiteboards av early adopters, var kontentan av Baer ‘ s analys.

Med Kafka-Toppmötet sparkar igång idag San Francisco, vi tog tillfället i akt för att prata med Jay Kreps, Kafka co-creator och Sammanflytande VD, på alla saker Kafka, samt i det större sammanhanget.

Gå mainstream

Kreps anges hans tro att förra årets Kafka har faktiskt gått mainstream. Som belägg för detta påstående, och han citerade användningen fall i fyra av de fem största bankerna i USA, liksom Bank of Canada: “Dessa är 200 år gamla organisationer, och att de inte bara hoppa på första-teknik från Silicon Valley. Vi kommer vanliga på en stor väg,” Kreps gällande, utan också nämna stor detaljhandel fall.

Medan vi har ingen anledning att ifrågasätta dessa fall, är det svårt att bedöma om detta leder till antagandet i de flesta av marknaden. Traditionellt, stora finans och detaljhandel är på framkant i realtid med hjälp fallet antas.

Dessutom: Vi avbryter denna revolution: Apache Gnista förändrar spelreglerna

Fortfarande, det kan ta ett tag för detta att spilla över, så det beror på vad man anser vara “mainstream.” Tittar på Kafka-Toppmötet, men vi ser en blandning av Sammanflytande personal och hushåll namn, som är normen för evenemang av den här storleken.

Men vad är det som driver detta antagande? Något ganska låg nivå, vilket är en ganska stor grej, enligt Kreps: förmågan att integrera olika system via meddelanden, och att göra detta i stor skala och i verklig tid. Det är inte så att detta är en ny idé – meddelanden har funnits ett tag och det är den viktigaste förutsättningen för Enterprise Service Bus (ESB) lösningar för år.

Begreppsmässigt, Kafka är inte så annorlunda. Skillnaden, Kreps sade, är att äldre system kunde inte hantera den omfattning som Kafka: “Vi kan skala upp till biljoner meddelanden. Nya stil, cloud data systems är bara bättre på detta, sådana tekniker som inte fanns innan. Vi dragit när vi kom runt lite senare.”

Kommer moln och i realtid

Molnet är något Kreps betonas, och diskussionen kring den senaste utvecklingen på området var centrerad runt det. Den senaste Cloudera – Hortonworks fusionen, till exempel berör detta också, enligt Kreps.

“Det var ett smart drag. Dessa var två företag som konkurrerar på samma produkt, vilket gör tävlingen mer hård, ironiskt nog. Du skulle tror att det är folk med olika åsikter att konkurrera mer våldsamt, men det är faktiskt människor med liknande åsikter. Som verkligen visade också i affärsmodellen,” Kreps sagt.

Också: Kafka: historien så långt

Kreps anser att denna konkurrens avtog framsteg i centrala Hadoop, som behovet av differentiering resulterade i mer uppmärksamhet mot kanten funktioner. Fall, konstaterade han, det faktum att HDFS, Hadoop file system, som historiskt har varit en viktig del av dess värde proposition, är inte längre det mest ekonomiska sättet att spara massor av data — moln lagring är nu.

Detta kan också tolkas som ett tecken på att röra sig bort från batch-bearbetning som Hadoop började från och mer mot att i realtid. Även om Hadoop har successivt vuxit till ett komplett ekosystem, inklusive strömmande motorer, majoriteten av dess användning fall är fortfarande batch-orienterade, anser Kreps. Hur detta kommer att utvecklas, får tiden utvisa.

hybridcloud.jpg
Molnet är att få allvaret i form av data, och data-infrastruktur, plattformar behöver arbeta både där och på plats. (Bild: ktsimage, Getty Images/iStockphoto)

Trots Kreps pekar ut molnet som en gravitationell punkt, och Hadoop faktiskt går mot att det under de senaste åren, Sammanflytande kommer inte att fullfölja ett moln-bara politik. I motsats till data vetenskap arbetsbelastning, som kan vara värd antingen på plats eller i molnet, vilken typ av data infrastruktur som Kafka som tillhandahålls måste arbeta på båda, hävdade Kreps.

Eftersom många organisationer har fortfarande enorma investeringar i programvara och infrastruktur som byggdes under åren i sina datacenter, någon att flytta till molnet kommer att ske gradvis. Sammanflytande är värd version av Kafka plus egna utvidgningar kommer att fortsätta att fungera smidigt med on-premise Kafka eller Sammanflytande öppen källkod, sade Kreps. Han betonade också Kafka stöd för Kubernetes, som noterar att alla stateful data system har att sätta i en del arbete med att göra detta arbete.

Streaming coopetition och real-time machine learning

I termer av differentiering med andra streaming-plattformar, Kreps påpekade att dessa är främst inriktade mot analytics, medan Kafka är infrastruktur som operativa system kan vara, och är, byggdes. När du undrar om Kafka skulle också kunna röra sig i analytics riktning, Kreps inte ge någon sådan indikation och ifrågasatte tillämpligheten av real-time machine learning (ML):

Även En inblick i Apache Kafka antagande TechRepublic

“Vad är det för en real-time machine learning plattform? När jag var i skolan, ironiskt nog i fokus för min rådgivare var realtids-ML — ironiskt nog, eftersom ML inte var mycket populär då, för att inte tala realtid ML.

Vi kämpade för att nämna vanliga produktionssystem med realtid ML. Och tanken av att ha en ML algoritm omskola sig i real-tid är inte nödvändigtvis positivt. De flesta av den tid, ansträngning är att ha tillräckligt med kontroller och balanser på ställen att se till ML verkligen fungerar även när du arbetar med batch data.

Och om du titta på ML algoritmer byggs av människor som bygger upp databaser och infrastruktur, de är aldrig så bra, som är det normala. Det finns en separat ekosystem för data vetenskap, och de bästa saker som är separat från den stora infrastrukturprojekt.

Verkligheten är att Gnista machine learning används främst för offline ML. Streaming sammanför alla de uppgifter som behövs för detta, och Kafka fungerar med andra strömmande plattformar också.”

fb2ea369d1868efbcc68181dd085bb66.jpg
Kafka är en viktig del av det strömmande landskap, men det fungerar också som ett komplement till andra streaming-plattformar.

Mer ofta än inte, Kafka verkar vara nämns i samma andetag, eller whiteboard med ett antal andra system, inklusive strömmande och kära. Även om vissa kanske säger att detta betyder att det kommer att bli svårt för Kafka för att komma till sin rätt, sin position i dessa arkitekturer också betyder att det är lika svårt att ta bort den ur ekvationen.

Även om inga stora tillkännagivandet är reserverade för denna Kafka-Toppmötet, som Kafka och Sammanflytande har haft ett par av dessa under det senaste året — KSQL och version 5.0 är den mest framträdande sådana-och verkar vara väl på väg till mainstream.

Tidigare och relaterade täckning:

Sammanflytande utgåva lägger till enterprise, developer, sakernas internet kunniga att Apache Kafka

Sammanflytande, företaget grundat av skaparna av strömmande data plattform för Apache Kafka, är att tillkännage en ny release idag. Sammanflytande Plattform 5.0, baserat på gårdagens release av öppen källkod Kafka 2.0, lägger företaget säkerhet, nya resurser för återställning, massor av utvecklare funktioner, och viktigt för sakernas internet som stöd.

Hortonworks ups dess Kafka Spel

Inför Strata konferens nästa månad, Hortonworks är att fokusera på strömmande data som det införs en ny Kafka verktyg och lägger till några förbättringar till sin Dataflöde produkt.

Kafka är att fastställa dess etablera sig centralt

Data rörledningarna var rubriken från tredje årliga undersökning av Apache Kafka använda. Bakom anekdotiska bevis för en växande användarbas, Kafka är fortfarande i ett tidigt ute skede och kompetenser är fortsatt svårt att hitta.

Sammanflytande ger helt lyckats Kafka till Google Cloud Platform

Partnerskapet mellan Sammanflytande och Google utökar Kafka ekosystem, vilket gör det lättare att konsumera med Google Cloud services for machine learning analytics och mer.

Relaterade Ämnen:

Big Data Analytics

Innovation

CXO

Artificiell Intelligens

Affärssystem

Förvaring

0