Apache Freccia: I pochi dati acceleratore che potrebbe

0
108
arrow.png

Un paio di anni fa, abbiamo notato la comparsa di Apache Freccia; ciò che ha suscitato la nostra attenzione è che i finanziatori consisteva in un “chi è chi “lista” di più di 20 persone con l’invio del calibro di Cloudera, MapR, Hortonworks Salesforce.com, DataStax, Twitter, AWS, e Dremio.

Come si caratterizza, quindi, la Freccia era dei big data, quasi letteralmente, fodera la sua anatra in una colonna. Freccia è uno standard di formato colonnare per mantenere efficiente dei dati in memoria. Si potrebbe pensare che in memoria di calcolare semplicemente la forza bruta delle prestazioni, che è stato uno dei primi disegni di Scintilla. Ma la memoria non è solo un veloce scatola nera. C’è un trucco per il caricamento di dati in modo da poterli leggere in modo efficiente; per questo motivo gli sviluppatori spesso a corto di memoria.

La sfida con il bilanciamento, in questo caso il caricamento dei dati in memoria e l’alimentazione di dati dalla memoria per calcolare il sintomo di un grande vecchio problema che abbiamo usato per riferirsi a come equilibrio del sistema. Per anni, Teradata venduto diverse di data warehouse appliance progettato per un uso intensivo di dati, di elaborazione intensiva, o di carichi di lavoro misti scenari. Solo perché abbiamo portato a calcolare i dati, come nel cluster Hadoop, o di dati separati da calcolare, come il cloud, la sfida rimane la stessa. Infatti, cresce ancora più complicato quando si hanno problemi che davvero prendere requisiti di risorse per il mix: deep learning AI problemi che la crisi di un sacco di dati durante l’utilizzo di speciali hardware GPU per il calcolo.

Apache Freccia è stata concepita per risolvere un equilibrio di problema di sistema per i dati scienziati: fare in modo che non hanno esaurito la memoria durante l’esecuzione i loro modelli o a corto di budget, perché sovrassegnate memoria. Questo non era un immaginario problema. Per Wes McKinney, Python e di serie sviluppatore open source che ha creato la Panda analisi dei dati di libreria per Python (tra gli altri progetti), è stata la frustrazione di colpire la memoria muro. Ha imparato nel modo più duro che, se si ha un grande insieme di dati, è meglio destinare almeno il 5 – 10 volte la quantità di RAM. Ci doveva essere un modo migliore per ridurre le prove, errori, il costo e la complessità di spostamento dei dati in memoria e l’accesso.

McKinney, che è attualmente direttore dell’Orsa Labs, e Jacques Nadeau, CTO di Dremio, ha contribuito a lanciare la Freccia, che è diventato un progetto Apache indietro nel 2016. Freccia sono supportati da una massa critica di dati di grandi progetti open source dal get-go: l’ecosistema Hadoop, Scintilla, Tempesta, Cassandra, Panda, HBase, e Kudu. È possibile leggere i dati da popolari formati di archiviazione come Apache, Parquet, file CSV, Apache ORC, e JSON. La sua iniziale supporto per Python è cresciuta fino a 11 linguaggi di programmazione, tra di loro C++, Java, Python, R, C#, JavaScript, Ruby. Quando viene utilizzato, per esempio con la Scintilla, è stata analizzata come il miglioramento delle prestazioni fino a 25x.

Dato l’ampio supporto, il progetto Apache pagina che riporta una campionatura di prodotti e progetti utilizzando la Freccia è un po ‘ deludente, come alcuni di loro sono nomi familiari. Gli esempi includono Fletcher, un quadro di riferimento per la conversione di una Freccia, schema di lavorare con gli Fpga; Graphistry, una indagine visiva piattaforma utilizzata per la sicurezza, anti-frode, e le relative indagini; e Ray, un distribuite ad alte prestazioni di esecuzione framework progettato per la macchina di apprendimento e AI applicazioni. Ma dove c’è fumo, c’è fuoco; la velocità di download dal portale del progetto sono, in media, 1 milioni di euro mensili. La comunità resta attivo; lo scorso anno quasi 300 persone hanno inviato più di 3000 contributi.

Allora, dove è la Freccia rivolta da qui? Il più emozionante progetto prevede il suo ruolo come base per cuDF, il DataFrame fondazione biblioteca per RAPIDE che si è costruito intorno a Freccia. C’è Gandiva, emergenti l’esecuzione di SQL kernel per Freccia sviluppato da Dremio che è basato su LLVM compilatore open source. Un’altra iniziativa di trasporto in modo che i dati marshalling su una Freccia di un nodo può essere efficacemente replicato o trasferito in un altro.

Ma il pezzo mancante è in streaming, dove la velocità dei dati in arrivo rappresenta una sfida speciale. Ci sono alcuni primi esperimenti per popolare Freccia nodi microbatches da Kafka. E, come il bordo diventa più intelligente (soprattutto come macchina di apprendimento viene applicata), sarà utile anche per la Freccia per emergere in una piccola impronta di versione e, con essa, la raccolta di alcuni lavori di trasporto per l’alimentazione filtrata o dati aggregati fino al cloud.

Non è il momento per la Freccia gente a fare le valigie e andare a casa di sicurezza.

Argomenti Correlati:

La Trasformazione Digitale

Robotica

Internet delle Cose

L’innovazione

Enterprise Software

CXO