ITALIANO

Apache Scintilla si propone di standardizzare distribuito di machine learning per la formazione, l’esecuzione e la distribuzione

238

Zero

L’abbiamo chiamato Macchina di Apprendimento October Fest. La scorsa settimana ha visto la quasi sincronizzati breakout di un certo numero di notizie centrata intorno machine learning (ML): Il rilascio di PyTorch 1.0 beta da Facebook, veloce.ai, Neuton, Infer.NET e MLFlow.

Non a caso, la scorsa settimana è stato anche il momento in cui la Scintilla e AI Summit Europa ha avuto luogo. L’incarnazione Europea di Apache Scintilla del vertice. Il titolo di quest’anno è stata ampliata per includere AI, di attirare un sacco di attenzione nella ML comunità. A quanto pare, funziona anche come una data intorno alla quale ML annunci sono programmati.

Inoltre: Il passato, il presente e il futuro di streaming: Flink, Scintilla, e la banda

MLFlow è Databricks’ di propria creazione. Databricks è l’entità commerciale, dietro Apache Scintilla, in modo da avere MLFlow nuova edizione annunciato in Databricks CTO Matei Zaharia keynote è stato previsto. ZDNet preso con Zaharia a discutere di tutto, dalla adozione di modelli e casi d’uso per la concorrenza, linguaggi di programmazione, e il futuro di machine learning.

Unificata analytics

Databricks’ motto è “unificata analytics”. Come Databricks CEO Ali Ghodsi osservato nel suo discorso di apertura, l’obiettivo è quello di unificare i dati, ingegneria, e il popolo solo, abbattendo la tecnologia e i silos organizzativi. Questa è una visione ampia, e Databricks non è il primo ad intraprendere questo viaggio.

Concentrandosi sulla tecnologia a parte, è tutto di portare insieme di dati ingegneria e scienza di dati. Come Zaharia notato, tutti inizia con i dati di ingegneria:

“In circa il 80 per cento dei casi d’uso, l’obiettivo finale è quello di fare scienza di dati o di machine learning. Ma per fare questo, è necessario disporre di una pipeline che possa raccogliere i dati nel corso del tempo.

Entrambi sono importanti, ma è necessario disporre dei dati di ingegneria per fare il resto. Siamo in grado di indirizzare gli utenti con grandi volumi, che è più impegnativo. Se si utilizza la Scintilla per fare l’elaborazione distribuita, significa che hai un sacco di dati.”

Anche: Supponente e aperto della macchina di apprendimento: Le sfumature dell’utilizzo di Facebook è PyTorch

Più spesso che non, significa anche che i dati provenienti da un certo numero di fonti. Scintilla, così come Delta, Databricks’ proprietaria della piattaforma cloud, costruito su Spark, già supportano la lettura e la scrittura di un certo numero di fonti di dati. La possibilità di utilizzare Scintilla come un trattamento hub per le diverse fonti di dati è stata la chiave del suo successo.

Ora, Databricks vuole fare un passo ulteriore, unificando le diverse apprendimento automatico quadri da laboratorio per la produzione di via MLFlow, e la costruzione di un quadro comune per i dati e l’esecuzione di via del Progetto di Idrogeno.

MLFlow obiettivo è quello di aiutare a gestire esperimenti, condividere e riutilizzare i progetti, e productionize modelli. Esso può essere visto come una combinazione di dati quaderni di scienza avanzata con caratteristiche come la storia che si trovano nel codice di sistemi di versioning come Git, con la dipendenza di gestione e distribuzione di caratteristiche che si trovano in artisti del calibro di Maven e Gradle.

MLFlow è stato annunciato lo scorso giugno, e che ha già circa 50 collaboratori da un certo numero di organizzazioni anche utilizzata in produzione. Zaharia detto che stanno facendo buoni progressi con MLFlow, e a questo punto, l’obiettivo è quello di ottenere un sacco di feedback e migliorare MLFlow fino a quando si è soddisfatti con esso.

Oltre ad essere in grado di distribuire ML di modelli Spark e Delta, MLFlow può anche esportare come il RESTO dei servizi deve essere eseguito su qualsiasi piattaforma o sul Kubernetes via Mobile containerizzazione. Ambienti Cloud sono supportati anche, attualmente AWS SageMaker e Azure ML, sfruttando le funzionalità avanzate come l’A/B testing offerti da queste piattaforme.

Anche: Neuton: Una nuova, dirompente rete neurale framework per applicazioni AI

Zaharia notato che l’obiettivo è quello di assicurarsi che i modelli possono essere confezionati in modo da applicazioni — per esempio, le applicazioni mobili. Ci sono diversi modi per fare questo, ha aggiunto, come ad esempio l’esportazione del modello come una classe Java, ma non in un modo standard, e questo è un gap MLFlow si propone di affrontare.

Il futuro dell’apprendimento automatico è distribuito

Se si ha familiarità con ML modello di distribuzione, si può sapere PMML e PFA. PMML e PFA sono vigenti le norme per l’imballaggio ML di modelli per la distribuzione. Discutere di differenziazione con questi è stato il collegamento per l’altra iniziativa Databricks sta lavorando su: Progetto di Idrogeno.

Progetto di Idrogeno obiettivo è quello di unificare state-of-the-art e AI big data in Apache Scintilla. Che cosa questo significa, in pratica, è unificante di dati e di esecuzione; che offre un modo diverso ML di quadri per lo scambio di dati, e di standardizzare la formazione e processo di inferenza.

Per la parte dati, Progetto Idrogeno basa su Apache Freccia. Apache Freccia è un comune sforzo per rappresentare i big data in memoria per le massime prestazioni e interoperabilità. Zaharia notato che già supporta alcuni tipi di dati, e può essere esteso ad altri: “Possiamo fare di meglio.”

Inoltre: l’Elaborazione di serie storiche di dati: Quali sono le opzioni?

Quindi, perché non riutilizzare PMML/PFA per l’esecuzione di parte? Due parole, secondo Zaharia: Distribuito formazione. Zaharia notato che, mentre PMML / PFA sono orientati verso imballaggio modelli per la distribuzione, e c’è una certa integrazione con questi, entrambi hanno dei limiti. Infatti, ha aggiunto, non esiste un modello standard formato di serializzazione che veramente tagli subito:

“ONNX è uno nuovo. La gente parla anche di Tensorflow grafici, ma nessuno si copre tutto. Tensorflow grafici non copre le cose come random forest. PMML non copre profondo di apprendimento molto bene.

In MLFlow, questi tramite un interfaccia di base, come ” il mio modello è una funzione con alcune librerie di cui ho bisogno per installare.’ Così ,non ci si cura di come il modello sceglie di memorizzare i bit, ma su quello di cui abbiamo bisogno per l’installazione.

Siamo in grado di supportare distribuito formazione via qualcosa come MPI. Questo è un modo standard per costruire High Performance Computing (HPC) di posti di lavoro. E ‘ stato in giro per 20 anni, e funziona!”

Questo autore può testimoniare sinistri, come MPI è stato quello che abbiamo usato per fare HPC ricerca esattamente 20 anni fa. Zaharia ha aggiunto che, ove possibile, vorrebbero per riutilizzare i contributi comunitari, citando per esempio Horovod, un framework open source per la distribuzione ML costruito da Uber.

Zaharia notato che Horovod è un modo più efficiente per comunicare distribuito deep learning, tramite MPI, e funziona con Tensorflow e PyTorch: “Per utilizzare questo, è necessario eseguire un’MPI lavoro e feed di dati, e avete bisogno di pensare a come partizione dati.”

Anche: 10 modi AI avrà un impatto l’impresa nel 2018 TechRepublic

Soumith Chintala, PyTorch progetto di portare, sembra condividere Zaharia le idee circa distribuiti formazione di essere la prossima grande cosa nel profondo apprendimento, come è stato introdotto il versione più recente di PyTorch. Per lo stato dell’arte in questo, si può anche guardare Jim Dowling dalla Logica Orologi AB parlare Distribuito Apprendimento Profondo con Apache Scintilla e TensorFlow scintille e AI Summit (di cui sopra).

Linguaggi di programmazione, le transazioni, e l’adozione

La parte in cui Zaharia menzionato esportazione ML di modelli di classi Java è stata una buona occasione per discutere supporto di linguaggio di programmazione e l’adozione di schemi su Scintilla. Nel complesso, Zaharia le osservazioni sono in linea con il sentimento della comunità:

“Penso che ci vede Python, R, e Java in data science e macchina di apprendimento, progetti, e poi c’è un drop-off.

In MLFlow abbiamo iniziato con solo Python, e aggiunto Java, Scala, R. di Utilizzo varia da caso di utilizzo, che è il motivo per cui cerchiamo di sostenere, come molti come possibile. La maggior parte dei comuni, soprattutto per le nuove ML progetti tende ad essere Python, ma ci sono molti settori in cui R è incredibile biblioteche e di persone che la utilizzano. In altri campi, specialmente per implementazioni su larga scala, l’utilizzo di Java o di Scala.”

Questa è stata anche una buona occasione per discutere di Apache Fascio. Il fascio è un progetto che mira a astratta, streaming di elaborazione tramite una piattaforma indipendente di API, in modo che possa essere portatile. Fascio ha recentemente aggiunto un meccanismo per supportare la programmazione, in altre lingue oltre nativo di Java, ed è ciò che Apache Flink, una chiave concorrente a Scintilla, per aggiungere il supporto Python.

Ultima volta che abbiamo parlato, Databricks non era interessato a dedicare risorse per sostenere la Trave, e allora ci siamo chiesti se la possibilità di aggiungere il supporto per altri linguaggi di programmazione via Trave potrebbe cambiare la situazione. Non proprio, a quanto pare.

Zaharia mantenuto il modo migliore per fare streaming su Scintilla è quello di utilizzare Scintilla strutturato in streaming direttamente, anche se l’integrazione di terze parti con il Fascio esiste. Ma egli ha riconosciuto che la possibilità di sostenere molte lingue diverse, in via Trave è interessante.

Inoltre: AI mezzi di una vita, e la formazione di CNET

Ha anche aggiunto, però, che a differenza di Scintilla, dove l’assistenza in altre lingue è stato fatto a posteriori, in MLFlow, RESTO di supporto consente alle persone di costruire un pacchetto, ad esempio utilizzando Julia ora, se lo desiderano.

Zaharia commentato anche l’introduzione di ACIDO da parte di Apache Flink, e che cosa questo significa per Scintilla, soprattutto in vista dei dati di Artigiani ” in attesa di brevetto. Zaharia era perplesso su cosa esattamente potrebbe essere brevettato. Egli ha osservato che lo streaming che ha lavorato con Postgres, per esempio, è stato intorno dal primi anni del 2000 e, più precisamente, una volta che la semantica è stata supportata da una Scintilla in streaming dal suo rilascio iniziale:

“Quando Scintilla parla esattamente di una volta, che è di tipo transazionale. Delta, inoltre, supporta le transazioni con una varietà di sistemi, come Hive o HDFS. Forse il brevetto copre uno specifico modello di distribuzione o formato di archiviazione. Ma in ogni caso le operazioni sono importanti, questo è importante nella produzione.”

Anche: Il web come un database: Il più grande knowledge graph mai

Come per Databricks cloud-solo strategia, Zaharia notato che funziona abbastanza bene. A volte. è Scintilla utenti di migrare a Databricks piattaforma. Altre volte, è la linea di business requisiti che determinano un cloud-primo approccio, ma in ogni caso, sembra che la Scintilla che ha stabilito un abbastanza forte punto d’appoggio in un tempo relativamente breve. E con Scintilla continuare a innovare, non ci sono segni di rallentamento all’orizzonte.

Precedente e relativa copertura:

Che cosa è l’IA? Tutto quello che devi sapere

Un esecutivo a guida di intelligenza artificiale, machine learning e generale AI alle reti neurali.

Cos’è il deep learning? Tutto quello che devi sapere

Il lowdown su deep learning: da come si relaziona con il più ampio campo di machine learning a come iniziare con esso.

Che cosa è macchina di apprendimento? Tutto quello che devi sapere

Questa guida spiega in cosa consiste la macchina di apprendimento, di come esso è legato all’intelligenza artificiale, come funziona e perché è importante.

Che cos’è il cloud computing? Tutto quello che devi sapere su

Un’introduzione al cloud computing destra, dalle nozioni di base fino a IaaS e PaaS, ibrido, public e private cloud.

Storie correlate:

Non c’è un ruolo per IA o i dati della scienza: questo è un lavoro di squadra di Avvio del Parentado porta scheggia di speranza per l’intelligenza artificiale robotica AI: La vista dal Capo Scienza di Dati Ufficio Salesforce intro Einstein Voce, una IA assistente vocale per le imprese non i posti di lavoro AI è distruggere che mi da fastidio, è quelli che sono in crescita

Argomenti Correlati:

Big Data Analytics

La Trasformazione Digitale

CXO

Internet delle Cose

L’innovazione

Enterprise Software