DotData vanta funzionalità di ingegneria automatizzata per Databricks

0
138

Andrew Brust

Di Andrew Brust per Big on Data | 2 agosto 2021 — 13:00 GMT (14:00 BST) | Argomento: Intelligenza artificiale

La scorsa settimana, dotData, una società focalizzata sull'ingegneria delle funzionalità automatizzate (AutoFE) e sull'apprendimento automatico delle macchine (AutoML), ha annunciato l'integrazione della sua tecnologia AutoFE con la piattaforma Databricks. L'ingegneria delle funzionalità è una delle parti più difficili della creazione di un modello di apprendimento automatico perché richiede conoscenze tecniche e di dominio per determinare quali colonne nei dati di origine sono più rilevanti per le previsioni del modello. La nuova integrazione di DotData consente agli utenti di Databricks, compresi quelli senza competenze avanzate di data science, di progettare funzionalità del modello ML più ricche, affrontare casi d'uso AI più impegnativi e migliorare la precisione del modello.

Leggi anche: Il 2021 basato sui dati: previsioni per un anno impegnativo in dati, analisi e intelligenza artificiale.

Che cos'è Automated Feature Engineering?

ZDNet ha parlato con Ryohei Fujimaki, PhD, CEO e fondatore di dotData, che ha spiegato che l'azienda La tecnologia AutoFE funziona scoprendo modelli nei dati di origine per trovare funzionalità statisticamente importanti che possono migliorare l'accuratezza del modello al fine di aumentare le funzionalità rilevanti per il dominio che gli scienziati dei dati potrebbero scoprire intuitivamente. In particolare, la libreria Python di dotData, dotData Py, è ora compatibile con Databricks e può essere installata tramite pip sulla piattaforma Databricks. Questo sostituisce il noioso lavoro di ingegneria delle funzionalità convenzionali che altrimenti dovrebbe essere eseguito manualmente nel codice contro frame di dati Spark, Pandas o Dask.

La tecnologia di DotData utilizza algoritmi in grado di scoprire modelli multimodali nei dati per trovare colonne (cioè caratteristiche) che hanno un impatto sulle previsioni. Inoltre, AutoFE può trasformare un insieme di tabelle relazionali normalizzate in un'unica “tabella delle funzionalità” che può essere utilizzata come set di dati con cui addestrare il modello di apprendimento automatico ottimale. Sono supportati anche dati temporali, geolocalizzati e di testo, così come l'integrazione con l'archiviazione di oggetti e file system come Amazon S3, Azure Data Lake Storage (ADLS) e Hadoop Distributed File System (HDFS), oltre ai tradizionali data warehouse.

La nuova collaborazione

Le funzionalità di spiegazione, come le spiegazioni delle funzionalità generate automaticamente e i progetti delle funzionalità, sono disponibili per aiutare i data scientist dei cittadini e gli scienziati dei dati allo stesso modo in modo che possano capire che cos'è ciascuna caratteristica e in che modo è rilevante. L'integrazione dotData/Databricks utilizza la potenza di entrambe le piattaforme per la prototipazione rapida dei casi d'uso e per migliorare l'accuratezza del modello trovando più rapidamente le funzionalità ottimali. Ad esempio, gli utenti possono gestire le funzionalità AI di dotData utilizzando il nuovo Feature Store di Databricks (un repository centralizzato di funzionalità) e gli esperimenti ML possono essere gestiti utilizzando l'implementazione di MLFlow di Databricks. A un livello inferiore, la tecnologia AutoFE di dotData utilizza Databricks File System (DBFS) e Databricks Runtime (una versione ottimizzata di Apache Spark) per accelerare l'esecuzione.

Leggi anche:< /p>Databricks alza la posta per l'IA con il nuovo motore AutoML e il nuovo feature store
L'AI diventa rigorosa: Databricks annuncia MLflow 1.0
Databricks sposta MLflow su Linux Foundation, introduce Delta Engine

Queste particolari integrazioni sono principalmente rivolte a data scientist esperti che utilizzano Python, notebook e varie librerie di machine learning come PyTorch, XGBoost, TensorFlow e Scikit-learn. AutoFE di DotData supporta i data scientist mentre esplorano diversi tipi di ipotesi di funzionalità. Si concentra sui casi d'uso dei dati aziendali convenzionali piuttosto che sui casi d'uso del deep learning (ad es. dotData non estrae immagini, video o dati non strutturati). Consente agli utenti di beneficiare del calcolo avanzato piuttosto che della contestualità.

Cosa riserva il futuro?

L'integrazione della conoscenza del dominio nel processo di creazione del modello è sempre stata una sfida. AutoFE affronta questa sfida aumentando le funzionalità del dominio con altre più statistiche. Rispetto alla progettazione manuale delle funzionalità, AutoFE analizza più dati in un periodo di tempo più breve per trovare le funzionalità più rilevanti. DotData è un pioniere in questo spazio. Grazie a questa nuova integrazione con Databricks, gli utenti di entrambe le piattaforme possono ora trarre vantaggio dall'individuazione e dalla generazione di funzionalità pertinenti e dall'ottimizzazione della precisione del modello. È probabile che in futuro una qualche forma di AutoFE diventi più mainstream, trovando la sua strada in numerose piattaforme AutoML.

Esin Alpturk ha contribuito alla segnalazione in questo post.

Argomenti correlati:

Big Data Analytics Trasformazione digitale CXO Internet of Things Innovation Enterprise Software Andrew Brust

Di Andrew Brust per Big on Data | 2 agosto 2021 — 13:00 GMT (14:00 BST) | Argomento: Intelligenza artificiale