DotData kan skryte av automatisert funksjonsteknikk for Databricks

0
101

 Andrew Brust

Av Andrew Brust for Big on Data | 2. august 2021 – 13:00 GMT (14:00 BST) | Tema: Kunstig intelligens

I forrige uke kunngjorde dotData, et selskap med fokus på automatisert funksjonsteknikk (AutoFE) og automatisert maskinlæring (AutoML), integreringen av sin AutoFE -teknologi med Databricks -plattformen. Feature engineering er en av de tøffeste delene av å bygge en maskinlæringsmodell fordi det krever både teknisk og domenekunnskap for å avgjøre hvilke kolonner i kildedataene som er mest relevante for modellens spådommer. DotDatas nye integrasjon gjør det mulig for Databricks -brukere, inkludert de uten avansert datavitenskapskompetanse, å designe rikere ML -modellfunksjoner, takle mer utfordrende AI -brukstilfeller og forbedre modellnøyaktigheten.

Les også: Datadrevet 2021: Spådommer for et travelt år innen data, analyse og AI .

Hva er Automated Feature Engineering?

ZDNet snakket med Ryohei Fujimaki, PhD, dotDatas administrerende direktør og grunnlegger, som forklarte at selskapets AutoFE-teknologien fungerer ved å oppdage mønstre i kildedataene for å finne statistisk viktige funksjoner som kan forbedre modellnøyaktigheten for å forsterke de domenerelevante funksjonene som dataforskere kan oppdage intuitivt. Spesielt er dotDatas Python-bibliotek, dotData Py, nå Databricks-kompatibelt og kan installeres via pip på Databricks-plattformen. Dette erstatter kjedelig konvensjonelt funksjonsingeniørarbeid som ellers må utføres manuelt i kode mot Spark-, Pandas- eller Dask -datarammer.

DotDatas teknologi bruker algoritmer som kan oppdage multimodale mønstre i dataene for å finne kolonner (dvs. funksjoner) som påvirker spådommer. I tillegg kan AutoFE transformere et sett med normaliserte relasjonelle tabeller til en enkelt “funksjonstabell” som kan brukes som datasett for å trene den optimale maskinlæringsmodellen. Temporale, geografiske og tekstdata støttes også, det samme er integrasjon med objektlagring og filsystemer som Amazon S3, Azure Data Lake Storage (ADLS) og Hadoop Distributed File System (HDFS), samt tradisjonelle datavarehus.

Det nye samarbeidet

Forklarbarhetsfunksjoner, for eksempel automatisk genererte funksjonsforklaringer og funksjonsblåkopier, er tilgjengelige for å hjelpe innbyggerdataforskere og datavitenskapere, slik at de kan forstå hva hver funksjon er og hvordan den er relevant. DotData/Databricks -integrasjonen bruker kraften til begge plattformene for rask prototyping av brukstilfeller og forbedring av modellnøyaktigheten ved å finne de optimale funksjonene raskere. For eksempel kan brukere styre dotDatas AI -funksjoner ved å bruke Databricks nye Feature Store (et sentralisert depot av funksjoner), og ML -eksperimenter kan administreres ved å bruke Databricks implementering av MLFlow. På et lavere nivå bruker dotDatas AutoFE -teknologi Databricks File System (DBFS) og Databricks Runtime (en optimalisert versjon av Apache Spark) for å fremskynde utførelsen.

Les også: < /p> Databricks øker AI -ante med ny AutoML -motor og funksjonslager
AI blir streng: Databricks kunngjør MLflow 1.0
Databricks flytter MLflow til Linux Foundation, introduserer Delta Engine

Disse spesielle integrasjonene er først og fremst rettet mot erfarne datavitenskapere som bruker Python, notatbøker og forskjellige maskinlæringsbiblioteker som PyTorch, XGBoost, TensorFlow og Scikit-learn. DotDatas AutoFE støtter dataforskere når de utforsker forskjellige typer funksjonshypoteser. Den fokuserer på konvensjonelle saker for bruk av forretningsdata i stedet for bruk av dyp læring (dvs. dotData bryter ikke bilde, video eller ustrukturerte data). Det lar brukerne dra nytte av avansert beregning i stedet for kontekstualitet.

Hva bringer fremtiden?

Integrering av domenekunnskap i modellbyggingsprosessen har alltid vært en utfordring. AutoFE takler denne utfordringen ved å forsterke domenefunksjoner med mer statistiske. Sammenlignet med manuell funksjonsteknikk, analyserer AutoFE flere data på kortere tid for å finne de mest relevante funksjonene. DotData er en pioner på dette området. Gjennom denne nye integrasjonen med Databricks kan brukere av begge plattformene nå dra nytte av å finne og generere relevante funksjoner og optimalisere modellnøyaktigheten. Sjansen er stor for at en eller annen form for AutoFE vil bli mer mainstream i fremtiden og finne veien til mange AutoML -plattformer.

Esin Alpturk bidro til rapporteringen i dette innlegget.

Relaterte emner:

Big Data Analytics Digital Transformation CXO Internet of Things Innovation Enterprise Software  Andrew Brust

Av Andrew Brust for Big on Data | 2. august 2021 – 13:00 GMT (14:00 BST) | Tema: Kunstig intelligens