Vorige week kondigde dotData, een bedrijf dat zich richt op geautomatiseerde feature engineering (AutoFE) en geautomatiseerde machine learning (AutoML), de integratie van zijn AutoFE-technologie met het Databricks-platform aan. Feature engineering is een van de moeilijkste onderdelen van het bouwen van een machine learning-model, omdat er zowel technische als domeinkennis nodig is om te bepalen welke kolommen in de brongegevens het meest relevant zijn voor de voorspellingen van het model. De nieuwe integratie van DotData stelt Databricks-gebruikers in staat, ook degenen zonder geavanceerde datawetenschapsexpertise, om rijkere ML-modelfuncties te ontwerpen, meer uitdagende AI-gebruikscasussen aan te pakken en de modelnauwkeurigheid te verbeteren.
Lees ook: Datagedreven 2021: voorspellingen voor een druk jaar in data, analyse en AI.
Wat is Automated Feature Engineering?
ZDNet sprak met Ryohei Fujimaki, PhD, de CEO en oprichter van dotData, die uitlegde dat de AutoFE-technologie werkt door patronen in de brongegevens te ontdekken om statistisch belangrijke functies te vinden die de nauwkeurigheid van het model kunnen verbeteren om de domeinrelevante functies te vergroten die gegevenswetenschappers intuïtief zouden kunnen ontdekken. De Python-bibliotheek van dotData, dotData Py, is nu compatibel met Databricks en kan via pip op het Databricks-platform worden geïnstalleerd. Dit vervangt vervelend conventioneel feature-engineeringwerk dat anders handmatig in code moet worden uitgevoerd tegen Spark-, Panda's- of Dask-dataframes.
De technologie van DotData gebruikt algoritmen die multimodale patronen in de gegevens kunnen ontdekken om kolommen (d.w.z. functies) te vinden die van invloed zijn op voorspellingen. Bovendien kan AutoFE een set genormaliseerde relationele tabellen transformeren in een enkele “functietabel” die kan worden gebruikt als de dataset waarmee het optimale machine learning-model kan worden getraind. Tijdelijke, geolocatie- en tekstgegevens worden ook ondersteund, evenals integratie met objectopslag- en bestandssystemen zoals Amazon S3, Azure Data Lake Storage (ADLS) en het Hadoop Distributed File System (HDFS), evenals traditionele datawarehouses.
De nieuwe samenwerking
Verklaarbaarheidsfuncties, zoals automatisch gegenereerde functieverklaringen en functieblauwdrukken, zijn beschikbaar om zowel datawetenschappers als datawetenschappers te helpen, zodat ze kunnen begrijpen wat elke functie is en hoe deze relevant is. De dotData/Databricks-integratie gebruikt de kracht van beide platforms voor het snel maken van prototypes van gebruiksscenario's en het verbeteren van de modelnauwkeurigheid door sneller de optimale functies te vinden. Gebruikers kunnen bijvoorbeeld de AI-functies van dotData beheren door de nieuwe Feature Store van Databricks (een gecentraliseerde opslagplaats van functies) te gebruiken, en ML-experimenten kunnen worden beheerd door de implementatie van MLFlow van Databricks te gebruiken. Op een lager niveau gebruikt de AutoFE-technologie van dotData het Databricks File System (DBFS) en de Databricks Runtime (een geoptimaliseerde versie van Apache Spark) om de uitvoering te versnellen.
Lees ook:< /p>Databricks verhoogt AI-ante met nieuwe AutoML-engine en feature store
AI wordt streng: Databricks kondigt MLflow 1.0 aan
Databricks verplaatst MLflow naar Linux Foundation, introduceert Delta Engine
Deze specifieke integraties zijn voornamelijk gericht op ervaren datawetenschappers die Python, notebooks en verschillende machine learning-bibliotheken gebruiken, zoals PyTorch, XGBoost, TensorFlow en Scikit-learn. DotData's AutoFE ondersteunt datawetenschappers bij het onderzoeken van verschillende soorten functiehypothesen. Het richt zich op de conventionele use-cases van zakelijke gegevens in plaats van op deep learning-use-cases (d.w.z. dotData ontgint geen afbeeldingen, video of ongestructureerde gegevens). Het laat gebruikers profiteren van geavanceerde berekeningen in plaats van contextualiteit.
Wat brengt de toekomst?
Het integreren van domeinkennis in het modelbouwproces is altijd een uitdaging geweest. AutoFE pakt deze uitdaging aan door domeinfuncties uit te breiden met meer statistische functies. Vergeleken met handmatige feature-engineering, analyseert AutoFE meer gegevens in een kortere tijd om de meest relevante features te vinden. DotData is een pionier op dit gebied. Door deze nieuwe integratie met Databricks kunnen gebruikers van beide platforms nu profiteren door relevante functies te vinden en te genereren en de nauwkeurigheid van modellen te optimaliseren. De kans is groot dat een of andere vorm van AutoFE in de toekomst meer mainstream zal worden en zijn weg zal vinden naar tal van AutoML-platforms.
Esin Alpturk heeft bijgedragen aan de rapportage in dit bericht.
Verwante onderwerpen:
Big Data Analytics Digitale transformatie CXO Internet of Things Innovatie Enterprise Software