I sidste uge annoncerede dotData, et firma med fokus på automatiseret feature engineering (AutoFE) og automatiseret machine learning (AutoML), integrationen af sin AutoFE -teknologi med Databricks -platformen. Feature engineering er en af de hårdeste dele ved at opbygge en machine learning -model, fordi det kræver både teknisk og domænekendskab for at afgøre, hvilke kolonner i kildedataene, der er mest relevante for modellens forudsigelser. DotDatas nye integration gør det muligt for Databricks -brugere, herunder dem uden avanceret datavidenskabelig ekspertise, at designe rigere ML -modelfunktioner, tackle mere udfordrende AI -brugssager og forbedre modelnøjagtigheden.
Læs også: Datadrevet 2021: Forudsigelser for et travlt år inden for data, analyse og AI .
Hvad er Automatiseret Feature Engineering?
ZDNet talte med Ryohei Fujimaki, ph.d., dotDatas administrerende direktør og grundlægger, der forklarede, at virksomhedens AutoFE-teknologien fungerer ved at opdage mønstre i kildedataene for at finde statistisk vigtige funktioner, der kan forbedre modelnøjagtigheden for at øge de domænerelevante funktioner, som dataforskere kan opdage intuitivt. Specifikt er dotDatas Python-bibliotek, dotData Py, nu Databricks-kompatibelt og kan installeres via pip på Databricks-platformen. Dette erstatter kedeligt traditionelt funktionelt ingeniørarbejde, der ellers skal udføres manuelt i kode mod Spark, Pandas eller Dask dataframes.
DotDatas teknologi bruger algoritmer, der kan opdage multimodale mønstre i dataene for at finde kolonner (dvs. funktioner), der har betydning for forudsigelser. Derudover kan AutoFE transformere et sæt normaliserede relationelle tabeller til et enkelt “funktionstabel”, der kan bruges som datasæt til at træne den optimale maskinlæringsmodel med. Temporale, geografiske og tekstdata understøttes også, ligesom integration med objektlagring og filsystemer som Amazon S3, Azure Data Lake Storage (ADLS) og Hadoop Distributed File System (HDFS) samt traditionelle datalagre.
Det nye samarbejde
Funktioner, der kan forklares, såsom automatisk genererede funktionsforklaringer og funktionsblåtryk, er tilgængelige for både borgerdatavidenskabere og datavidenskabsfolk, så de kan forstå, hvad hver funktion er, og hvordan den er relevant. DotData/Databricks -integrationen anvender begge platforme til hurtig prototypering af brugssager og forbedring af modelnøjagtigheden ved hurtigere at finde de optimale funktioner. For eksempel kan brugere styre dotDatas AI -funktioner ved hjælp af Databricks 'nye Feature Store (et centraliseret lager af funktioner), og ML -eksperimenter kan administreres ved hjælp af Databricks' implementering af MLFlow. På et lavere niveau bruger dotDatas AutoFE -teknologi Databricks File System (DBFS) og Databricks Runtime (en optimeret version af Apache Spark) til at fremskynde udførelsen.
Læs også: < /p> Databricks øger AI -ante med ny AutoML -motor og funktionslager
AI bliver streng: Databricks annoncerer MLflow 1.0
Databricks flytter MLflow til Linux Foundation, introducerer Delta Engine
Disse særlige integrationer er primært rettet mod erfarne dataforskere, der bruger Python, notebooks og forskellige maskinlæringsbiblioteker som PyTorch, XGBoost, TensorFlow og Scikit-learn. DotDatas AutoFE understøtter dataforskere, når de udforsker forskellige typer funktionshypoteser. Det fokuserer på de konventionelle anvendelser af forretningsdata i stedet for brug af dyb læring (dvs. dotData bryder ikke image, video eller ustrukturerede data). Det lader brugerne drage fordel af avanceret beregning frem for kontekstualitet.
Hvad rummer fremtiden?
Integrering af domænekendskab i modelopbygningsprocessen har altid været en udfordring. AutoFE tackler denne udfordring ved at udvide domænefunktioner med mere statistiske funktioner. Sammenlignet med manuel funktionsteknik analyserer AutoFE flere data på kortere tid for at finde de mest relevante funktioner. DotData er en pioner inden for dette rum. Gennem denne nye integration med Databricks kan brugere af begge platforme nu drage fordel af at finde og generere relevante funktioner og optimere modelnøjagtighed. Chancerne er store for, at en form for AutoFE vil blive mere mainstream i fremtiden og finde vej til mange AutoML -platforme.
Esin Alpturk bidrog til rapporteringen i dette indlæg.
Relaterede emner:
Big Data Analytics Digital Transformation CXO Internet of Things Innovation Enterprise Software