Streamlio, en åben-core streaming data stof til cloud-æra

0
135

Sammenflydende bringer fuldt administreret Kafka til Google Cloud Platform
Partnerskabet mellem Sammenflydende og Google udvider Kafka økosystem, hvilket gør det lettere at forbruge med Google Cloud tjenester til machine learning, analyser og meget mere. Læs mere: https://zd.net/2KLSOn8

Helt nye, du er retro.

Denne Vanskelige aforisme af en sang kom til at tænke en gang mere for et par år tilbage, når Streamlio kom ud af stealth. Streamlio er et offer for real-time databehandling, der er baseret på en række af Apache open source-projekter, og det direkte konkurrerer med Sammenflydende og Apache Kafka, som er kernen i Sammenflydende tilbyder. Hvad er pointen i at gøre det?

Også: Behandling af tidsserie data: Hvad er mulighederne?

I 2017, Apache Kafka blev generelt betragtet som en tidlig adoptant ting: til Stede i mange whiteboard arkitektur diagrammer, men ikke nødvendigvis udbredt i produktion i virksomhederne. Siden da, Kafka har lagt et krav, at virksomhedens vedtagelse, og Sammenflydende har erhvervet åben-core unicorn status efter sin seneste finansiering. Dette gør ikke tingene nemmere for den konkurrence, naturligvis.

Spørgsmålet er så: Hvorfor skulle nogen gøre det, og hvordan kan det arbejde? Streamlio svar på, hvorfor en del synes at være, at, på trods af at være nyt for nogle, Kafka er retro. Med hensyn til hvordan: Enhver tilbyder søger at positionere sig selv som en Kafka alternativ ville være betydeligt hurtigere/mere pålidelig, og som samtidig er forenelig med Kafka og tilbyder muligheder, som Kafka tilbyder.

Nu, Streamlio annoncerer en managed cloud-tjeneste, hvilket bringer det tættere på sin vision. ZDNet drøftet med Karthik Ramasamy og Jon Bock, Streamlio ‘ s CEO og grundlægger og marketing VP, henholdsvis, om visionen og dens udførelse.

Real time analytics

Ramasamy s bio omfatter over to årtiers erfaring i real-time databehandling, parallelle databaser, big data-infrastruktur og netværk. Han var engineering manager og tekniske forspring til real-time analytics på Twitter, hvor han co-skabt Apache Heron real-time motor.

Også: fortid, nutid, og fremtid streaming

Ramasamy s stiftere Matteo Merli, ex-Yahoo, arkitekt, og lead developer for Apache Pulsar og en PMC medlem af Apache Bogholder, og Sanjeev Kulkarni, også tidligere Twitter tekniske forspring til real-time analytics og Twitter Heron co-creator.

Holdet bestemt ikke manglende erfaringer, og dette er en del af Streamlio budskab. Det forklarer også, hvorfor Streamlio er lykkedes at sikre En Runde Finansiering af $7,5 millioner med Lightspeed, der som Ramasamy bemærket, har også været involveret i andre open-core virksomheder.

Ramasamy bemærkes, at Streamlio er antal beskæftigede er under 100 mennesker på dette punkt. Han påpegede dog, at Apache Pulsar, som er kernen i Streamlio, har over 100 bidragydere og 3.000 stjerner på Github. De to andre Apache projekter, som Streamlio er baseret på, er Heron og Bogholder.

Pulsar er det øverste lag for Streamlio, og tilbyder en API, som er Kafka-kompatibel — selv om der er nuancer til dette. Der er arkitektoniske forskelle med Kafka, der som pr Streamlio team, kan koges ned til det faktum, at Streamlio har en afkoblet lags arkitektur. Hvad vi ser som kernen i dette, især når vi taler om at løbe Streamlio i skyen, er Bogholder.

Bogføring og multi-temperatur ved opbevaring i skyen

Bogholder er opbevaring lag for Streamlio. Det var designet med mulighed for at implementere en form for, hvad der går under navnet multi-temperatur ved opbevaring management. Hot data, eller data, der er seneste/ofte anvendte, er holdt i hurtigere lagringsmedier. Kold data, eller data, som er mindre seneste/ofte anvendte, aflastning til en langsommere sekundær opbevaring.

Også: Data, krystalkugler, kigger briller, og kogende frøer

Hvad gør dette særligt relevant for Streamlio ‘s cloud-administreret version på AWS, er det faktum, at Bogholder understøtter S3, AWS’ s storage-laget. Streamlio s ledere understregede, at andre streaming-platforme som Kafka, Flink, eller Spark ikke har denne mulighed indbygget.

pulsar-topic-segment-offload-s3.png

Apache Pulsar differentieret lagring, med losning kapaciteter.

Kafka opbevaring er centreret omkring en append-kun logge abstraktion, svarende til Bogholder. Flink bruger RocksDB som en vedvarende lag, og Spark bruger Parket. Mens alle disse kan være konfigureret til at arbejde med S3 på en eller anden måde, Streamlio krav Bogholder er hurtigere og nemmere at bruge, uden at det kræver særlige konfiguration og tuning.

Bogholder, der også benyttes af Pravega, og da det synes at være en differentiering punkt for Streamlio, vi spekulerede på, hvor realistisk det vil være for andre at vedtage og integrere Bogholder så godt. Ramasamy påpegede, at dette ville kræve en omfattende redesign, og det faktum, at Streamlio tilbyder en integreret stack på toppen af Bogholder er en del af dens værdi-tilføj proposition.

Som det så ofte er tilfældet med opkomlingene hævder, overlegen ydeevne, Streamlio offentliggjort et mål om, at Streamlio viser op til 150 procent forbedring i forhold til Kafka i form af gennemløb, og samtidig opretholde op til 60 procent lavere latency. Streamlio s priser for sin AWS administrerede version er baseret på gennemløb, selv om det blev bemærket, at AWS priser er baseret på eksempel kapaciteter gælder også.

Dyrepasseren og SQL i skyen

Streamlio også bruger Apache Dyrepasser, som anses for arv og et single point of failure, der typisk anvendes til at styre Hadoop klynger on-premise. Hjælp Dyrepasseren i AWS ikke synes at give meget mening for os, så vi spekulerede på, hvad begrundelsen var. Ramasamy sagde, at Dyrepasser er ikke vant til at styre Streamlio, kun for at tjene metadata. Han fortsatte med at tilføje, at Zookeeper er “usynlige”, og Streamlio ‘ s cloud service er container-baseret.

Også: Real-time databehandling fik bare flere muligheder

Streamlio har også en række andre interessante arkitektoniske valg, herunder støtte til serverless funktioner, og SQL. Sidstnævnte er gennemført ved hjælp af Presto, SQL-motor open-indkøbt af Facebook. Dette, til gengæld har nogle interessante konsekvenser.

På den ene side, betyder det, at Streamlio fordele ved det faktum, at Presto blev designet til at understøtte standard ANSI SQL-semantik, og det kan bruges til at integrere andre kilder. Så, via Presto, Streamlio brugere kan gøre ting såsom at deltage data i Streamlio med eksterne tabeller, og ved hjælp af BI-værktøjer på toppen af Presto. På den anden side, er dette design betyder, at søgninger er ikke rigtig gjort på den indgående streaming af data i real tid.

streamlioarchitecture.jpg

Streamlio arkitektur.

Når vi diskuterer dette, Ramasamy sagde, at dette var et bevidst valg, og det har at gøre med den overordnede vision for Streamlio. For Ramasamy, streaming platforme er ikke beregnet til at erstatte databaser. Hvad han ser som det endelige mål, men går ud over at være i stand til at indtage data, og sende det til de rigtige modtagere. Det være sig via Pup-Sub-beskeder eller Køer, Streamlio ønsker at give sine brugere til at køre hurtige analytics i indgående data.

For mere dybdegående analyse, men Ramasamy ville hellere udskyde til tilbud specielt designet til dette. Hvad han ser som den rolle, Streamlio er til at handle som de data, stof til at lette data bevægelse, hvor det er, at data kan stamme fra, eller rettes til: kant, sky, eller datacenter.

Streamlio ‘ s positionering og strategi

Det virker som en velformuleret vision for Streamlio. Cloud er kommet for at blive, men on-premise datacentre er ikke væk, og applikationer på kanten også behov for at kommunikere deres data. Den million-dollar spørgsmål er: Hvorfor vælger Streamlio over en række alternativer? Alle data streaming-platforme ønsker at spille denne rolle, og hver af dem har nogle ting i gang for det.

Også: Apache Pil: Den lille data-accelerator, der kunne

Streamlio, i modsætning til Kafka, en Gnist eller Flink, ser ud som en tidlig adoptant ting på dette punkt. Selv om der virkelig synes at være tekniske fordele til Streamlio arkitektur, virkeligheden er, at konkurrencen er foran i form af løbetid, adoption, finansiering, og mindshare. Men det er ikke til at sige, Streamlio er en tabt sag, eller der ingen er til at bruge det-langt fra det.

Udover at blive anvendt i produktionen på Yahoo og Twitter, Streamlio har adoptanter, såsom Ansætte (Monster.com selskab i Kina) og STICorp til at vise for. STICorp faktisk bruges Streamlio til at erstatte Kafka, selv om det er her værd at bemærke, at Ramasamy påpegede Streamlio er ikke en drop-in erstatning for Kafka.

fancycrave-224908-unsplash.jpg

En data-struktur er en metafor, der anvendes til at betegne et lag vævning data fra forskellige kilder sammen.

(Billede: Fancycrave på Unsplash)

Der er API-kompatibilitet, men den måde, det fungerer på, er ved at overføre kode udnytte Kafka API opkald ved hjælp af et værktøj, der erstatter dem med tilsvarende Streamlio API-kald. Ramasamy bemærkes, at dette sikrer en funktionel ækvivalens, men det betyder ikke, at der er 100 procent overensstemmelse mellem Kafka og Streamlio Api ‘ er, som afspejler de forskellige underliggende modeller. Streamlio også bemærkes, at der er en prototype integration med Apache Stråle, som de vil udvikle sig yderligere, hvis der er tilstrækkelig kundernes interesse.

En bredere punkt at gøre her, idet sammenligningen mellem Sammenflydende og Streamlio, ville være, at gøre open source-virksomhed. Især i lyset af AWS ‘ s fork af Elastisk, er den seneste episode i en løbende optrapning mellem open source enterprise leverandører og AWS. Hvis Streamlio er så vellykket som andre på markedet, ville det ikke være endnu et mål for AWS bevilling? Hvordan ville det svare til, at?

Ramasamy mener 2019 vil mærke nedgang i open source-støtte som en business model, og den hurtige stigning af open source-software i et marked i vækst, og indtast business model for open source generelt. Han forudser, at vi vil se, sælgere, der forsøger at konkurrere og differentiere på deres evne til at levere den bedst mulige software-as-a-service-men at udnytte open source teknologi i stedet for et proprietært tilbyder:

“Vi vil se [sælgerne] arbejde for at skabe merværdi fleksibilitet, elasticitet og resultater er specifikke for cloud og SaaS-miljøer med henblik på at levere, hvad kunderne i stigende grad ser som den vigtigste værdi-tilføj: at Sikre, at kunderne kan fokusere på at opbygge deres programmer, og bruge mindre tid på at pleje og fodring af den underliggende teknologi, som disse applikationer bruger.”

Der synes at være afspejlet i Streamlio ‘ s strategi. At tage open-source komponenter, integrere dem, udvider dem og opbygge en kommerciel tilbyder på toppen af det. Om dette er den endelige alle i open source er en anden diskussion. Men det er, hvad Streamlio satser på.

Relaterede historier:

Kafka er ved at etablere sin toeholdPulsar kandidater til at være en Apache-top-niveau projekt Hortonworks ups sin Kafka GameFrom big data AI: Hvor er vi nowGogo migrerer til AWS, øjne real-time data processingThis opstart mener, at det ved, hvordan til at fremskynde real-time analyticsBy 2025, næsten 30 procent af de data, der genereres i real-timeArcadia direkte for at få KSQL: Streaming af data analytics, Hvad de skal gøre med de data? Udviklingen af data platformsWhy AI og machine learning kører data søer til data hubsPredictions til 2019 i data, analytics, og AI

Relaterede Emner:

Cloud

Digital Transformation

Robotteknologi

Tingenes Internet

Innovation

Virksomhedens Software