ITALIANO

Databricks tratta di Microsoft Azure

127

Zero

Databricks, l’azienda fondata dai creatori di Apache Scintilla, che prima ha lanciato il cloud-based Scintilla servizi generali disponibilità nel 2015. Una sola offerta cloud, da Databricks stesso, ma fisicamente basati su Amazon Web Services cloud.

Su Azure lato, nel frattempo, ci sono stati diversi modi per eseguire Apache Scintilla, tra cui in HDInsight, Azure Batch Servizio, i Dati della Scienza Macchine Virtuali e, più recentemente, Azure Machine Learning services. Ma se si voleva full-on Databricks, si aveva a che fare, che su AWS.

Redmond-bound
Inserire Azure Databricks (ADB), un nuovo sapore del premio Apache Scintilla servizio, ma questa volta in base, e strettamente integrato con Microsoft Azure. ADB ha il supporto diretto per Archiviazione Blob di Azure Azzurro e i Dati di Lago Store, altrimenti documentazione standard è stato personalizzato per illustrare come connettersi a un Database di SQL Azure e SQL Data Warehouse, e per la connessione al servizio da Power BI. Si integra anche con il Cosmo DB e Azure Active Directory.

L’integrazione è così stretto che, sebbene il Databricks prodotto stesso proviene da una terza parte, il servizio, infatti, è un first-party offerto da Microsoft. Così, invece di approvvigionamento tramite il mercato, è invece la prestazione come per altri servizi, con l’Azzurro del marchio e Azure Enterprise-grade Sla applicare per l’ADB servizio.

Azure Databricks dispone di un notebook basato su spazio di lavoro collaborativo (i cui dettagli sono illustrati di seguito), il Databricks Runtime (altamente ottimizzato versione di Apache Scintilla), e priva di server di calcolo del modello, che evita la configurazione dettagliata di lavoro normalmente associati con la gestione di Scintilla.

Azure Databricks è diverso da altri Scintilla implementazioni perché l’ambiente stesso è svincolato da qualsiasi Scintilla creata un’istanza del cluster. Invece di sparare e pagare per le risorse del cluster e quindi ottenere il vostro lavoro fatto, tu, invece, hai una fase di progettazione nell’ambito di una Databricks di lavoro e, quando è pronta, è possibile avviare un cluster per eseguire il lavoro.

Prendete il vostro notebook
Molto di questo lavoro viene fatto in Databricks notebook. Questi sono simili nel concetto di Jupyter notebook, infatti, possono essere importati in Databricks notebook (ho fatto a me stesso e posso confermare che funziona) o creati tramite un processo di esportazione.

Databricks i notebook possono essere utilizzati e condivisi in modo collaborativo e può contenere codice in qualsiasi combinazione di lingue supportate, tra cui Python, Scala, R e SQL, nonché markdown testo utilizzato per annotare il notebook contenuti.

Il codice di cellule (sezioni) del notebook può essere eseguito in modo interattivo. Quando il notebook codice (in particolare SQL query) restituisce risultati tabulari, questi possono essere visualizzati come grafici. Un notebook con una serie di grafici e alcuni markdown possono alternativamente essere reso come un cruscotto.

Ma i notebook possono anche essere considerati di produzione di pacchetti eseguibili. I notebook possono di riferimento e l’esecuzione di altri notebook, e possono anche essere eseguito come pieno di posti di lavoro, in base a una pianificazione. E quando i lavori sono in esecuzione, la Scintilla cluster necessari per la loro esecuzione può essere creato al volo, quindi terminata.

Tipologie di Cluster
I cluster possono anche essere creati in modo esplicito, che è necessario per fare il lavoro interattivo contro Scintilla. Standard cluster di consentire una grande quantità di personalizzazione nella loro configurazione, tra cui la macchina virtuale (VM) tipo di driver e nodi del lavoratore; il numero di nodi del lavoratore distribuito e se auto-scaling sarà utilizzato per regolare; le versioni di Databricks, Spark e Scala distribuito; e un timeout di inattività dopo il quale il cluster sarà automaticamente risolto.

Un “serverless” pool può essere creato, invece. Nonostante l’apparente contraddizione in termini, un serverless cluster configurazione è gestita automaticamente e l’utente deve solo specificare il nome e il tipo di VM, e il numero di nodi del lavoratore. Serverless Piscine sono in beta e sono progettati per l’esecuzione di Python e SQL codice in modo interattivo da notebook. La produzione di notebook o su qualsiasi notebook con Scala o R codice deve essere eseguito su Standard cluster, invece.

La piattaforma, stupido
Databricks vende se stesso non come un altro sapore Scintilla, ma Unificata Piattaforma di analisi: una piattaforma collaborativa per la data di preparazione, analisi e apprendimento automatico/AI, che succede ad essere alimentata da un commerciale, versione ottimizzata della Scintilla. Azure Databricks e la sua profonda integrazione con così tante sfaccettature di Azure cloud, e il supporto per notebook che vivere in modo indipendente di provisioning e l’esecuzione di Scintilla cluster, sembra confermare che.

Si può quasi guardare Azure Databricks come dati di tecnico di livello di astrazione più di un pezzo enorme di Azure cloud stesso. Gli elementi fondamentali del suo ambiente, e cioè un’area di lavoro con i notebook, i database, i cluster e l’occupazione, porta un po ‘ di ordine sia alla Azure cloud e Spark SQL, streaming di machine learning e di grafico di elaborazione sub-componenti.

Argomenti Correlati:

Intelligenza Artificiale

La Trasformazione Digitale

Robotica

Internet delle Cose

L’innovazione

Enterprise Software