Yahoo Bullet looks ahead, in esecuzione di query di dati in streaming

0
136

0

bullet-logo.png

Un paio di mesi fa, abbiamo posto la questione se il mondo ha bisogno di un altro motore di streaming. Ora bisogna estendere la domanda per l’esecuzione di query. Praticamente ogni motore di streaming è un modo per presentare le domande, in caso contrario, perché avete bisogno di un motore di streaming? Sebbene in streaming motori offrono la promessa di fresco, dati in tempo reale, la triste verità è che si deve memorizzare nella cache i dati prima. Che significa che la maggior parte lo streaming motori di query deve guardare a dati già raccolti.

Come rintracciate coinvolgimento dell’utente sulla sua proprietà di Internet, Yahoo era in cerca di un materiale più leggero e mezzi per l’esercizio dei abbastanza rudimentale query che di solito vengono gettate a dati in movimento, come i conti, le medie, le classifiche, e le distribuzioni. E dato i livelli di traffico, ha cercato un mezzo per la convalida dei sensori e strumentazione che raccoglie questi conteggi. Infatti, la convalida è diventato l’utilizzo primario di questo nuovo progetto.

Il risultato è il Proiettile progetto, che Yahoo solo open source su GitHub. Bullet è altamente distribuito framework progettato per il cloud multi-tenant centri dati che consentono di eseguire “forward-looking’ query. Bullet query di agire sui dati che fluisce attraverso il sistema dopo aver inviato la query. In altre parole, si esegue una query di dati che arrivano, piuttosto che i dati che sono già arrivati. Insolito per un progetto open source, il punto comprende anche una interfaccia utente visiva, e quindi non si è necessariamente limitato a riga di comando o strumenti di terze parti. E ha anche una API REST per l’accesso a livello di programmazione.

Come un motore di query, il Proiettile è stato progettato per essere leggero peso, l’aggiunta di un overhead minimo come processo di flussi. Ma c’è qualche pesanti coinvolti nell’che i dati grezzi, formattato come Avro file, deve essere analizzato in colonne che possono poi essere colpito con query SQL che sono collocati oltre scorrevoli finestre di tempo.

Un proiettile può recuperare i record individuali; eseguire le aggregazioni di gruppo come di passaggio, somme, conteggi, classifiche e medie. E, per i casi d’uso in cui si desidera calibrare il software strumentazione, è in grado di generare istogrammi che mostrano le distribuzioni di dati effettivi valori. E se il torrente di dati è troppo grande per la memoria disponibile, è possibile campione, utilizzando il DataSketch libreria che Yahoo sviluppato. DataSketches fornire la cosa più vicina ad una persistenza nel Proiettile, in quanto i risultati della cache (ma non i dati grezzi).

Come Yahoo creata utilizza Tempesta, non sorprende che il Proiettile è stato ottimizzato per quel motore. Ma si può anche leggere da Kafka o Flume. Probabilmente non aggiungere molto valore ai motori di ricerca, come Scintilla di Streaming, che sono limitati a microbatching.

Mentre Proiettile oggi è limitato a una manciata di query SQL sul live, tempo finestrato dati, uno dei prossimi funzionalità che verrà aggiunto è la capacità di flusso incrementale risultati di una applicazione client tramite l’API REST.

Per ora, il punto è la fase iniziale della tecnologia, disponibile come open source, attraverso GitHub. Non c’è supporto da parte del fornitore e non parte di qualsiasi strumento, quindi sei in proprio per quanto riguarda la gestione e l’integrazione. Bullet compete in un affollatissimo panorama di monitoraggio dei log motori come Splunk, Logstash/Elasticsearch, e gli altri che forniscono in tempo reale funzionalità. La sfida per ottenere condivise sta dimostrando il caso che lungimiranti query di fornire il bordo a conoscere i tuoi clienti attraverso il digitale file di registro di impronte che lasciano.

0