DotData har automatiserad funktionsteknik för databaser

0
124

 Andrew Brust

Av Andrew Brust för Big on Data | 2 augusti 2021 – 13:00 GMT (14:00 BST) | Ämne: Artificiell intelligens

Förra veckan tillkännagav dotData, ett företag med fokus på automatiserad funktionsteknik (AutoFE) och automatiserat maskininlärning (AutoML), integrationen av sin AutoFE -teknik med Databricks -plattformen. Feature engineering är en av de tuffaste delarna i att bygga en maskininlärningsmodell eftersom det kräver både teknisk och domänkunskap för att avgöra vilka kolumner i källdata som är mest relevanta för modellens förutsägelser. DotDatas nya integration gör det möjligt för Databricks -användare, inklusive dem utan avancerad datavetenskaplig expertis, att designa rikare ML -modellfunktioner, hantera mer utmanande AI -användningsfall och förbättra modellnoggrannheten.

Läs också: Datadriven 2021: Prognoser för ett hektiskt år inom data, analys och AI .

Vad är Automated Feature Engineering?

ZDNet pratade med Ryohei Fujimaki, doktor, dotDatas VD och grundare, som förklarade att företagets AutoFE-tekniken fungerar genom att upptäcka mönster i källdatan för att hitta statistiskt viktiga funktioner som kan förbättra modellnoggrannheten för att öka domänrelevanta funktioner som datavetenskapare kan upptäcka intuitivt. Specifikt är dotDatas Python-bibliotek, dotData Py, nu Databricks-kompatibelt och kan installeras via pip på Databricks-plattformen. Detta ersätter tråkigt konventionellt funktionsteknikarbete som annars måste utföras manuellt i kod mot Spark, Pandas eller Dask -dataramar.

DotDatas teknik använder algoritmer som kan upptäcka multimodala mönster i data för att hitta kolumner (dvs. funktioner) som påverkar förutsägelser. Dessutom kan AutoFE omvandla en uppsättning normaliserade relationstabeller till en enda “funktionstabell” som kan användas som datauppsättning för att träna den optimala maskininlärningsmodellen. Temporal, geografisk och textdata stöds också, liksom integration med objektlagring och filsystem som Amazon S3, Azure Data Lake Storage (ADLS) och Hadoop Distributed File System (HDFS), samt traditionella datalager.

Det nya samarbetet

Funktioner som kan förklaras, till exempel automatiskt genererade funktionsförklaringar och funktionsritningar, finns tillgängliga för att hjälpa medborgardatavetenskapare och datavetenskapare så att de kan förstå vad varje funktion är och hur den är relevant. DotData/Databricks -integrationen använder båda plattformarnas kraft för snabb prototypering av användningsfall och förbättrar modellnoggrannheten genom att hitta de optimala funktionerna snabbare. Till exempel kan användare styra dotDatas AI -funktioner med hjälp av Databricks nya Feature Store (ett centraliserat arkiv med funktioner), och ML -experiment kan hanteras med hjälp av Databricks implementering av MLFlow. På en lägre nivå använder dotDatas AutoFE -teknik Databricks File System (DBFS) och Databricks Runtime (en optimerad version av Apache Spark) för att påskynda körningen.

Läs också: < /p> Databricks ökar AI -ante med nya AutoML -motor och funktionslager
AI blir strikt: Databricks tillkännager MLflow 1.0
Databricks flyttar MLflow till Linux Foundation, introducerar Delta Engine

Dessa specifika integrationer riktar sig främst till erfarna datavetenskapare som använder Python, bärbara datorer och olika maskininlärningsbibliotek som PyTorch, XGBoost, TensorFlow och Scikit-learn. DotDatas AutoFE stöder datavetenskapare när de utforskar olika typer av funktionshypoteser. Den fokuserar på konventionella affärsdataanvändningsfall istället för fall med djupinlärning (dvs dotData bryter inte bild, video eller ostrukturerad data). Det låter användarna dra nytta av avancerad beräkning snarare än kontextualitet.

Vad innebär framtiden?

Att integrera domänkunskap i modellbyggnadsprocessen har alltid varit en utmaning. AutoFE tacklar denna utmaning genom att förstärka domänfunktioner med mer statistiska funktioner. Jämfört med manuell funktionsteknik analyserar AutoFE mer data på kortare tid för att hitta de mest relevanta funktionerna. DotData är en pionjär inom detta område. Genom denna nya integration med Databricks kan användare av båda plattformarna nu dra nytta av att hitta och generera relevanta funktioner och optimera modellnoggrannheten. Chansen finns att någon form av AutoFE kommer att bli mer mainstream i framtiden och hitta sin väg till många AutoML -plattformar.

Esin Alpturk bidrog till rapporteringen i detta inlägg.

Relaterade ämnen:

Big Data Analytics Digital Transformation CXO Internet of Things Innovation Enterprise Software  Andrew Brust

Av Andrew Brust för Big on Data | 2 augusti 2021 – 13:00 GMT (14:00 BST) | Ämne: Artificiell intelligens