SVENSKA

Streamlio, ett open-core strömmande data tyg för molnet era

231

Sammanflytande ger helt lyckats Kafka till Google Cloud Platform
Partnerskapet mellan Sammanflytande och Google utökar Kafka ekosystem, vilket gör det lättare att konsumera med Google Cloud services for machine learning analytics och mer. Läs mer: https://zd.net/2KLSOn8

Helt ny, du är retro.

Denna Knepiga aforism av en sång kom att tänka på en gång för ett par år sedan, när Streamlio kom ut ur stealth. Streamlio är ett erbjudande för data i realtid bearbetning baserat på ett antal open source-projekt som Apache, och det direkt konkurrerar med Utväxta och Apache Kafka, som är kärnan av Sammanflytande erbjuder. Vad är poängen i att göra det?

Också: Bearbetning time series data: Vad finns det för alternativ?

I 2017, Apache Kafka var i allmänhet anses vara en ” early adopter sak: finns i många whiteboard arkitektur diagram, men inte nödvändigtvis allmänt antas i produktion i företag. Sedan dess har Kafka har som ett krav att företaget antagandet, och Sammanflytande har förvärvat open-core unicorn status efter sin senaste finansiering. Detta gör inte saker och ting lättare för tävlingen, självklart.

Frågan är då: Varför skulle någon göra detta, och hur skulle det fungera? Streamlio svar på varför en del verkar vara som, trots att de är nya för vissa, Kafka är retro. Som att hur: Varje erbjudande om att försöka positionera sig som en Kafka alternativ skulle vara betydligt snabbare och mer tillförlitliga, samtidigt som de är kompatibla med Kafka och erbjuda alternativ som Kafka erbjuder.

Nu, Streamlio utlyser en managed cloud service, föra den närmare sin vision. ZDNet diskuteras med Karthik Ramasamy och Jon Bock, Streamlio VD och grundare och vice vd för marknadsföring, respektive om visionen och dess utförande.

Real time analytics

Ramasamy bio har över två decenniers erfarenhet i realtid databehandling, parallella databaser, big data infrastruktur och nätverk. Han var teknisk chef och teknisk ledare för real-time analytics på Twitter, där han tillsammans skapade Apache Heron realtid motor.

Dessutom: Det förflutna, det nuvarande, och framtiden för streaming

Ramasamy s grundare Matteo Merli, ex-Yahoo, arkitekt, lead developer för Apache Pulsar och en PMC medlem av Apache Bokhållare, och Sanjeev Kulkarni, också före detta Twitter tekniska ledningen för real-time analytics och Twitter Heron co-creator.

Laget definitivt inte saknar företagets erfarenhet, och detta är en del av Streamlio budskap. Det förklarar också varför Streamlio guidades Runt En Finansiering av $7,5 miljoner euro med Lightspeed, som Ramasamy noterat har också varit inblandad i andra open-core företag.

Ramasamy noteras att Streamlio s anställda är färre än 100 personer på denna punkt. Han påpekade också, men att Apache Pulsar, som är kärnan i Streamlio, har över 100 deltagare och 3.000 stjärnor på Github. De andra två Apache-projekt som Streamlio bygger på Heron och Bokhållare.

Pulsar är det övre lagret för Streamlio, och erbjuder ett API som är Kafka-kompatibel-även om det finns nyanser till detta. Det finns arkitektoniska olikheter med Kafka, som enligt Streamlio team kan kokas ner till det faktum att Streamlio har ett frikopplat lager arkitektur. Vad vi ser som kärnan i detta, speciellt när man talar om löpning Streamlio i molnet, är Redovisningsekonom.

Boka hålla och multi-temperatur lagring i molnet

Bokhållare är lagring lager för Streamlio. Det var utformat med kapacitet att genomföra en form av vad som går under namnet multi-temperatur lagring hantering. Varma data, eller data som är nya/ofta används, hålls i snabbare lagringsmedia. Kallt data, eller data som är mindre senare/ofta används, är avlastas till en långsammare sekundär lagring.

Också: Data, kristallkulor, letar glas, och koka grodor

Vad som gör detta särskilt relevant för Streamlio cloud hanterad version på AWS är det faktum att Bokhållare stöder S3, AWS lagring lager. Streamlio chefer betonade att andra strömmande plattformar som Kafka, Flink, eller Gnista, som inte har denna funktion inbyggd.

Kafka lagring är centrerad kring en tilläggsfråga-bara logga abstraktion, liknande till Bokhållare. Flink använder RocksDB som en uthållighet lager, och Gnista använder Parkett. Medan alla dessa kan konfigureras för att fungera med S3 på ett eller annat sätt, Streamlio fordringar Bokhållare är snabbare och enklare att använda, utan krav på särskild konfiguration och justering.

Bokhållare används också av Pravega, och eftersom det verkar vara en differentiering punkt för Streamlio, vi undrade hur genomförbart det skulle vara för andra att anta och integrera Bokhållare. Ramasamy påpekade att detta skulle kräva omfattande redesign, och det faktum att Streamlio erbjuder en integrerad stack på toppen av Bokhållare är en del av dess värde-lägga förslag.

Så är ofta fallet med uppkomlingar som påstår överlägsen prestanda, Streamlio publicerade en måttstock, enligt vilken Streamlio visar upp till 150 procent förbättring jämfört med Kafka i termer av genomströmning med bibehållen upp till 60 procent lägre latens. Streamlio prissättning för sin AWS hanterad version är baserad på genomströmning, även om det noterades att AWS prissättning bygger på exempel kapacitet gäller också.

Zookeeper och SQL i molnet

Streamlio också använder Apache Djurskötare, som anses vara äldre och en single point of failure, som vanligen används för att hantera Hadoop kluster på plats. Med hjälp av Djurskötare i AWS inte verkar vettigt för oss, så vi undrade vad syftet var. Ramasamy sade att Djurskötare är inte vana att hantera Streamlio, bara för att tjäna metadata. Han gick med på att lägga till att Djurskötare är “osynliga” och Streamlio cloud service är container-baserade.

Också: data i realtid bearbetning bara fick fler alternativ

Streamlio har också ett antal andra intressanta arkitektoniska val, inklusive sitt stöd för serverlösa funktioner, och SQL. Den senare genomförs med hjälp av Vips, SQL-motorn är öppen källkod-genom Facebook. Detta, i sin tur, har en del intressanta konsekvenser.

Å ena sidan innebär det Streamlio fördelar av det faktum att Presto var utformade för att stödja standarden ANSI SQL semantik, och det kan användas för att integrera andra källor. Så, via Presto, Streamlio användare kan göra saker som att gå med data i Streamlio med externa tabeller, och med hjälp av BI-verktyg på toppen av Presto. Å andra sidan, denna konstruktion innebär att frågor är inte riktigt klar på den inkommande strömmande data i realtid.

Streamlio arkitektur.

När vi diskuterar detta, Ramasamy sade att detta var ett medvetet val, och det har att göra med den övergripande visionen för Streamlio. För Ramasamy, streaming plattformar är inte tänkt att ersätta databaser. Vad han ser som det slutliga målet, men går bortom kunna inta data och skicka det till rätt mottagare. Det kan vara via Valp-Sub meddelanden eller Kö, Streamlio vill göra det möjligt för dess användare att köra snabba analytics över inkommande data.

För mer djupgående analys, men Ramasamy skulle hellre skjuta till erbjudanden som utformats särskilt för denna. Vad han ser som den roll Streamlio är att fungera som data tyg för att underlätta data rörelse, var att data kan komma från, eller skickas till: kanten, molnet, eller datacenter.

Streamlio positionering och strategi

Det verkar som en väl regisserad vision för Streamlio. Molnet är här för att stanna, men på plats datacenter kommer inte undan heller, och program på den kanten också behov av att kommunicera sina uppgifter. Miljoner dollar fråga är: Varför plocka Streamlio över ett antal alternativ? Alla data streaming plattformar som vill spela denna roll, och var och en av dem har vissa saker att gå för det.

Också: Apache Pil: Den lilla data accelerator som kan

Streamlio, i motsats till Kafka, Spark eller Flink, ser ut som en ” early adopter sak på denna punkt. Även om det verkar verkligen vara tekniska fördelar att Streamlio arkitektur, verkligheten är konkurrensen är framme när det gäller mognad, adoption, finansiering, och mindshare. Men det är inte att säga Streamlio är en förlorad sak, eller att ingen använder det-långt från det.

Förutom att användas i produktionen på Yahoo och Twitter, Streamlio har adopters såsom chi unionen rekrytering (Monster.com företag i Kina) och STICorp att visa. STICorp faktiskt används Streamlio att ersätta Kafka, även om det är värt att notera här att Ramasamy påpekade Streamlio är inte en drop-in ersättning för Kafka.

En data tyget är en metafor som används för att beteckna ett lager vävning data från olika källor tillsammans.

(Bild: Fancycrave på Unsplash)

Det är API-kompatibilitet, men sättet det fungerar genom att skicka koden använder Kafka API-anrop genom ett verktyg som ersätter dem med motsvarande Streamlio API-anrop. Ramasamy noteras att detta garanterar en funktionell likvärdighet, men det betyder inte att det är 100 procent korrespondens mellan Kafka och Streamlio Api: er, eftersom de speglar olika underliggande modeller. Streamlio också noteras att det är en prototyp integration med Apache Beam, som de kommer att utvecklas ytterligare om det finns tillräckligt intresse från kunderna.

En bredare punkt att göra här, som bygger på jämförelse mellan Sammanflytande och Streamlio, skulle vara att göra öppen källkod verksamhet. Särskilt i ljuset av AWS gaffel av Elastisk, den senaste episoden i en pågående upptrappning mellan öppen källkod enterprise leverantörer och AWS. Om Streamlio är så framgångsrika som de andra i marknaden, skulle det inte vara ännu ett mål för AWS anslag? Hur skulle man svara på det?

Ramasamy tycker 2019 kommer att markera minskningen av öppen källkod stödja en affärsmodell, och den snabba ökningen av den öppna källkoden SaaS som en marknad i tillväxt och viktigaste affärsmodellen för öppen källkod generellt. Han förutspår att vi kommer att se säljare som söker för att tävla och skilja på deras förmåga att ge bästa möjliga programvara-som-en-tjänst-utan att utnyttja open source-teknik i stället för en egen erbjuder:

“Vi ska se [säljare] arbete för att ge mervärde flexibilitet, elasticitet och prestanda som är specifika för moln och SaaS-miljöer för att kunna leverera vad kunderna i allt större utsträckning ser som den viktigaste värde-lägga till: att Se till att kunderna kan fokusera på att bygga upp sina program, och spendera mindre tid på skötsel och utfodring av underliggande teknik som dessa program använder.”

Det verkar vara det som återspeglas i Streamlio strategi också. Ta open-source-komponenter, integrera dem, sträcker dem och bygga upp en kommersiellt erbjudande på toppen av det. Oavsett om det är slut-allt i öppen källkod är en annan diskussion. Men det är vad Streamlio satsar på.

Relaterade artiklar:

Kafka är att fastställa dess toeholdPulsar akademiker till att bli en Apache-topp-nivå projektet Hortonworks ups dess Kafka GameFrom big data att AI ‘ n: Vart är vi nowGogo migrerar till AWS, ögon data i realtid processingThis start tycker att det vet hur man påskynda realtid analyticsBy 2025, nästan 30 procent av den data som genereras kommer att vara riktiga timeArcadia Ögonblick för KSQL: Strömmande data analytics Vad man ska göra med uppgifterna? Utvecklingen av data platformsWhy AI och maskininlärning kör data sjöar uppgifter hubsPredictions till 2019 i data, analytics, och AI

Relaterade Ämnen:

Cloud

Digital Omvandling

Robotteknik

Sakernas Internet

Innovation

Affärssystem