Streamlio, un nucleo di dati in streaming in tessuto per l’era del cloud

0
182

Confluenti porta completamente gestito da Kafka a Google Cloud Platform
La partnership tra Confluenti e Google estende il Kafka ecosistema, rendendo più facile consumare con Google Cloud services per l’apprendimento automatico, analytics e di più. Leggi di più: https://zd.net/2KLSOn8

Nuovo di zecca, si sta retrò.

Questo Difficile aforisma di una canzone è venuto in mente una volta di più, un paio di anni fa, quando Streamlio è venuto fuori di stealth. Streamlio è un’offerta per il tempo reale di elaborazione dei dati, basato su un numero di Apache progetti open source, e compete direttamente con Confluenti e Apache Kafka, che è alla base del Confluente dell’offerta. Qual è il punto nel fare che?

Inoltre: l’Elaborazione di serie storiche di dati: Quali sono le opzioni?

Nel 2017, Apache Kafka è stato generalmente considerato un early adopter cosa: Presente in molti lavagna architettura schemi, ma non necessariamente ampiamente adottato in produzione nelle imprese. Da allora, Kafka ha posto una domanda all’impresa l’adozione, e Confluenti ha acquisito open-core unicorno stato dopo il suo ultimo finanziamento. Questo non rende le cose più facili per il concorso, ovviamente.

La domanda rimane, allora: Perché qualcuno vorrebbe fare questo, e come potrebbe funzionare? Streamlio la risposta al perché parte sembra essere che, pur essendo nuovo per alcuni, Kafka è retrò. Come per il come: Qualsiasi offerta che cerca di proporsi come Kafka alternativa dovrebbe essere sostanzialmente più veloce/più affidabile, mentre anche essere compatibile con Kafka e le opzioni di Kafka che offre.

Ora, Streamlio annuncia di avere gestito un servizio di cloud, portandolo più vicino alla sua visione. ZDNet discusso con Karthik Ramasamy e Jon Bock, Streamlio CEO e fondatore e vice presidente del marketing, rispettivamente, circa la visione e la sua esecuzione.

Analisi in tempo reale

Ramasamy bio include oltre due decenni di esperienza in tempo reale di elaborazione dei dati, in parallelo database, grande infrastruttura di dati e di rete. Egli è stato direttore tecnico e responsabile tecnico per l’analisi in tempo reale su Twitter, dove ha co-creato il Apache Airone motore real-time.

Inoltre: Il passato, il presente e il futuro di streaming

Ramasamy co-fondatori sono Matteo Merli, ex-Finanza, architetto, e lead developer per Apache Pulsar e un PMC membro di Apache Contabile e Sanjeev Kulkarni, anche ex Twitter responsabile tecnico per l’analisi in tempo reale e Twitter Airone co-creatore.

La squadra di certo non manca esperienza aziendale, e questo è parte di Streamlio messaggio. Che spiega anche perché Streamlio è riuscito a garantire Round di Finanziamento di $7,5 milioni di euro, con Lightspeed, che come Ramasamy notato è stata coinvolta anche in altre aziende del settore.

Ramasamy notato che Streamlio dell’organico è inferiore a 100 persone, a questo punto. Egli ha anche sottolineato, tuttavia, che Apache Pulsar, che è alla base di Streamlio, ha più di 100 collaboratori e 3.000 stelle su Github. Gli altri due progetti Apache su cui Streamlio sono Heron e Contabile.

Pulsar è il livello superiore per Streamlio, e offre una API che è Kafka-compatibile-anche se ci sono sfumature. Ci sono differenze di architettura con Kafka, per il Streamlio squadra può essere bollito giù il fatto che Streamlio ha un disaccoppiato a livello di architettura. Quello che consideriamo essere alla base di questo, soprattutto quando si parla di esecuzione Streamlio nel cloud, è Contabile.

Contabilità e multi-temperatura di archiviazione nel cloud

Il contabile è il livello di archiviazione per Streamlio. È stato progettato con la capacità di implementare un modulo di ciò che va sotto il nome di multi-temperatura di stoccaggio gestione. Caldo di dati, o dati recenti/utilizzati di frequente, è conservato nella velocità di supporti di memorizzazione. Freddi dati, o dati meno recenti/utilizzati di frequente, viene ripartito su più lento di storage secondario.

Inoltre: i Dati, sfere di cristallo, gli occhiali, e punto di ebollizione rane

Ciò che rende questo particolarmente rilevante per Streamlio cloud gestito versione su AWS è il fatto che il Contabile supporta S3, AWS di storage di livello. Streamlio dirigenti sottolineato che altre piattaforme di streaming come Kafka, Flink, o la Scintilla non dispongono di questa funzionalità built-in.

pulsar-topic-segment-offload-s3.png

Apache Pulsar di tiered storage con funzionalità di offload.

Kafka di archiviazione è centrata attorno ad un solo aggiungere registro di astrazione, simile a Contabile. Flink utilizza RocksDB come un layer di persistenza, e la Scintilla utilizza Parquet. Mentre tutti questi può essere configurato per funzionare con S3 in un modo o nell’altro, Streamlio crediti Contabile è più veloce e più facile da usare, senza bisogno di particolari di configurazione e tuning.

Il contabile è utilizzato anche da Pravega, e dal momento che sembra essere un punto di differenziazione per Streamlio, ci siamo chiesti come sia possibile sarebbe per gli altri ad adottare e integrare Contabile. Ramasamy ha sottolineato che questo richiederebbe ampio restyling, e il fatto che Streamlio offre un sistema integrato di impilare Contabile per la parte di valore aggiunto che di proposizione.

Come è spesso il caso con upstarts sostenendo prestazioni superiori, Streamlio pubblicato un punto di riferimento, secondo il quale Streamlio mostra fino a 150 percentuale di miglioramento rispetto Kafka in termini di produttività, mantenendo fino al 60% di latenza inferiore. Streamlio i prezzi per le sue AWS gestito versione è basata sulla produttività, anche se è stato osservato che AWS i prezzi sono basati su istanza di funzionalità si applica anche.

Zookeeper e SQL nel cloud

Streamlio utilizza anche Apache Zookeeper, che è considerato eredità e un singolo punto di errore, solitamente utilizzati per gestire cluster Hadoop on-premise. Utilizzando Zookeeper in AWS non sembra avere molto senso per noi, così ci siamo chiesti che cosa la logica. Ramasamy detto che Zookeeper non viene utilizzato per gestire Streamlio, solo per servire i metadati. Ha poi aggiunto che Zookeeper “invisibile”, e Streamlio cloud di servizio container-based.

Inoltre: in tempo Reale di elaborazione dei dati appena più opzioni

Streamlio dispone anche di una serie di altre interessanti scelte architettoniche, tra cui il suo sostegno per serverless funzioni, e di SQL. Quest’ultimo è implementato usando Presto, il motore SQL open-source da parte di Facebook. Questo, a sua volta, ha alcune interessanti implicazioni.

Da un lato, significa Streamlio benefici dal fatto che Presto è stato progettato per supportare standard ANSI SQL semantica, e può essere utilizzato per integrare con altre fonti. Quindi, via del Presto, Streamlio gli utenti possono fare cose come l’adesione dati in Streamlio con tavoli esterni, e l’utilizzo di strumenti di BI in cima a Presto. D’altra parte, questo significa che le query non sono davvero in entrata di dati in streaming in tempo reale.

streamlioarchitecture.jpg

Streamlio architettura.

Quando si discute di questo, Ramasamy, ha detto che questa è stata una scelta consapevole, e ha a che fare con la visione globale per Streamlio. Per Ramasamy, piattaforme di streaming non sono destinate a sostituire database. Ciò che egli vede come l’obiettivo finale, tuttavia, va al di là di essere in grado di ingerire i dati della spedizione e i destinatari. Tramite Pup-Sub messaggistica o in Coda, Streamlio vuole permettere ai suoi utenti di eseguire rapida analisi sui dati in arrivo.

Per analisi più approfondita, tuttavia, Ramasamy sarebbe piuttosto rimandare offerte specificamente progettati per questo. Ciò che egli vede come il ruolo di Streamlio è di agire come i dati in tessuto per facilitare il movimento dei dati, ovunque che i dati possono provenire o essere indirizzata a: edge, il cloud, o datacenter.

Streamlio posizionamento e strategia

Che sembra un ben diretto visione per Streamlio. Il cloud è qui per restare, ma on-premise centri dati non stanno andando via, e le applicazioni sul bordo per comunicare i dati. Un milione di dollari, la domanda è: Perché scegliere Streamlio oltre un certo numero di alternative? Tutti i dati piattaforme di streaming voglia di giocare a questo ruolo, e ognuno di loro ha alcune cose andare per esso.

Anche: Apache Freccia: I pochi dati acceleratore che potrebbe

Streamlio, rispetto a Kafka, Scintilla o Flink, ha l’aspetto di un early adopter cosa a questo punto. Anche se ci sembrano essere davvero benefici tecnici per Streamlio architettura, la realtà è che la concorrenza è avanti in termini di scadenza, l’adozione, il finanziamento e condivise. Ma non dire Streamlio è una causa persa, o che nessuno sta utilizzando.

Oltre ad essere utilizzato nella produzione di Yahoo e Twitter, Streamlio ha adopters come Zhaopin (Monster.com azienda in Cina) e STICorp per mostrare per. STICorp effettivamente utilizzato Streamlio per sostituire Kafka, anche se vale la pena notare qui che Ramasamy sottolineato Streamlio non è un rimpiazzo per Kafka.

fancycrave-224908-unsplash.jpg

Dati tessuto è una metafora usata per indicare un livello di tessitura di dati provenienti da fonti eterogenee insieme.

(Immagine: Fancycrave su Unsplash)

C’è la compatibilità API, ma il modo in cui funziona è attraverso il passaggio di codice utilizzando Kafka chiamate API per mezzo di uno strumento che li sostituisce con corrispondente Streamlio chiamate API. Ramasamy notato che questo garantisce l’equivalenza funzionale, ma non vuol dire che c’è il 100% di corrispondenza tra Kafka e Streamlio Api, in quanto riflettono i diversi modelli sottostanti. Streamlio anche notato che c’è un prototipo di integrazione con Apache Fascio, che si svilupperà ulteriormente, se c’è sufficiente interesse del cliente.

Un più ampio punto di fare qui, disegno sul confronto tra Confluenti e Streamlio, sarebbe quella di fare di business open source. Soprattutto alla luce di AWS forcella Elastica, l’ultimo episodio in un’escalation tra open source enterprise fornitori e AWS. Se Streamlio è un successo come gli altri sul mercato, non sarebbe ancora un’altra destinazione per AWS stanziamento? Come potrebbe rispondere?

Ramasamy pensa 2019 segnerà il declino del supporto open source come modello di business, e la rapida crescita dell’open source SaaS come un mercato in crescita e la chiave del modello di business open source in generale. Egli predice vedremo i venditori che cercano di competere e di differenziare la loro capacità di fornire il miglior livello possibile di software-come-un-servizio-ma sfruttando tecnologie open source, invece di un proprietario offre:

“Vedremo [fornitori] di lavoro di fornire valore aggiunto flessibilità, elasticità e prestazioni specifiche per il cloud e SaaS ambienti per offrire ciò che i clienti, sempre più visto come il più importante valore aggiunto: Garantire che i clienti possono concentrarsi sulla creazione di proprie applicazioni, e spendere meno tempo per la cura e l’alimentazione della tecnologia di base che in quelle applicazioni che uso.”

Che sembra essere riflessa in Streamlio strategia, troppo. Prendere componenti open-source, farli integrare, estendere la, e di costruire un’offerta commerciale su di esso. Se questa è la fine di tutto in open source è un altro discorso. Ma è quello che Streamlio sta scommettendo.

Storie correlate:

Kafka è stabilire il suo toeholdPulsar laureati per essere un Apache progetto di primo livello Hortonworks ups suo Kafka GameFrom big data per AI: a che punto siamo nowGogo migra in AWS, gli occhi di dati in tempo reale processingThis avvio pensa che non sa come migliorare la velocità in tempo reale analyticsBy 2025, circa il 30 per cento di dati generato sarà reale timeArcadia Immediata per KSQL: lo Streaming dei dati di google analytics che Cosa fare con i dati? L’evoluzione dei dati platformsWhy AI e di apprendimento automatico sono dati di guida laghi di dati hubsPredictions per il 2019 dati, analisi e AI

Argomenti Correlati:

Cloud

La Trasformazione Digitale

Robotica

Internet delle Cose

L’innovazione

Enterprise Software