DotData bietet automatisiertes Feature-Engineering für Databricks

0
116

Andrew Brust

Von Andrew Brust für Big on Data | 2. August 2021 – 13:00 GMT (14:00 BST) | Thema: Künstliche Intelligenz

Letzte Woche gab dotData, ein Unternehmen mit Fokus auf automatisiertes Feature Engineering (AutoFE) und automatisiertes maschinelles Lernen (AutoML), die Integration seiner AutoFE-Technologie in die Databricks-Plattform bekannt. Feature Engineering ist einer der schwierigsten Schritte beim Erstellen eines Modells für maschinelles Lernen, da sowohl technisches als auch Domänenwissen erforderlich ist, um zu bestimmen, welche Spalten in den Quelldaten für die Vorhersagen des Modells am relevantesten sind. Die neue Integration von DotData ermöglicht es Databricks-Benutzern, auch ohne fortgeschrittene Data-Science-Kenntnisse, umfangreichere ML-Modellfunktionen zu entwickeln, anspruchsvollere KI-Anwendungsfälle zu bewältigen und die Modellgenauigkeit zu verbessern.

Lesen Sie auch: Datengetrieben 2021: Vorhersagen für ein arbeitsreiches Jahr in den Bereichen Daten, Analysen und KI.

Was ist Automated Feature Engineering?

ZDNet sprach mit Ryohei Fujimaki, PhD, CEO und Gründer von dotData, der erklärte, dass die  . des UnternehmensDie AutoFE-Technologie erkennt Muster in den Quelldaten, um statistisch wichtige Merkmale zu finden, die die Modellgenauigkeit verbessern können, um die domänenrelevanten Merkmale zu erweitern, die Data Scientists intuitiv entdecken könnten. Insbesondere die Python-Bibliothek von dotData, dotData Py, ist jetzt Databricks-kompatibel und kann über pip auf der Databricks-Plattform installiert werden. Dies ersetzt mühsame konventionelle Feature-Engineering-Arbeiten, die sonst manuell im Code gegen Spark-, Pandas- oder Dask-Dataframes ausgeführt werden müssen.

Die Technologie von DotData verwendet Algorithmen, die multimodale Muster in den Daten entdecken können, um Spalten (d. h. Merkmale) zu finden, die sich auf Vorhersagen auswirken. Darüber hinaus kann AutoFE einen Satz normalisierter relationaler Tabellen in eine einzelne “Feature-Tabelle” umwandeln, die als Datensatz verwendet werden kann, um das optimale Modell für maschinelles Lernen zu trainieren. Zeitliche, geografische und Textdaten werden ebenso unterstützt wie die Integration mit Objektspeicher- und Dateisystemen wie Amazon S3, Azure Data Lake Storage (ADLS) und dem Hadoop Distributed File System (HDFS) sowie traditionellen Data Warehouses.

Die neue Zusammenarbeit

Erklärbarkeitsfunktionen wie automatisch generierte Funktionserklärungen und Funktionsblaupausen sind verfügbar, um Citizen Data Scientists und Data Scientists gleichermaßen zu helfen, damit sie verstehen, was jedes Feature ist und wie es relevant ist. Die dotData/Databricks-Integration nutzt die Leistungsfähigkeit beider Plattformen für das schnelle Prototyping von Anwendungsfällen und die Verbesserung der Modellgenauigkeit, indem die optimalen Funktionen schneller gefunden werden. Benutzer können beispielsweise die KI-Funktionen von dotData mithilfe des neuen Feature Stores von Databricks (einem zentralen Repository von Funktionen) steuern, und ML-Experimente können mithilfe der Implementierung von MLFlow von Databricks verwaltet werden. Auf einer niedrigeren Ebene verwendet die AutoFE-Technologie von dotData das Databricks File System (DBFS) und die Databricks Runtime (eine optimierte Version von Apache Spark), um die Ausführung zu beschleunigen.

Lesen Sie auch:< /p>Databricks steigert KI-Ante mit neuer AutoML-Engine und neuem Feature Store
KI wird rigoros: Databricks kündigt MLflow 1.0 an
Databricks verschiebt MLflow zur Linux Foundation und führt Delta Engine ein

Diese speziellen Integrationen richten sich in erster Linie an erfahrene Datenwissenschaftler, die Python, Notebooks und verschiedene Bibliotheken für maschinelles Lernen wie PyTorch, XGBoost, TensorFlow und Scikit-learn verwenden. AutoFE von DotData unterstützt Datenwissenschaftler bei der Untersuchung verschiedener Arten von Feature-Hypothesen. Es konzentriert sich eher auf die herkömmlichen Anwendungsfälle für Geschäftsdaten als auf Deep-Learning-Anwendungsfälle (d. h. dotData verarbeitet keine Bilder, Videos oder unstrukturierten Daten). Es ermöglicht Benutzern, von fortschrittlicher Berechnung anstelle von Kontextualität zu profitieren.

Was bringt die Zukunft?

Die Integration von Domänenwissen in den Modellbildungsprozess war schon immer eine Herausforderung. AutoFE geht diese Herausforderung an, indem es Domänenfunktionen mit statistischeren erweitert. Im Vergleich zum manuellen Feature-Engineering analysiert AutoFE mehr Daten in kürzerer Zeit, um die relevantesten Features zu finden. DotData ist ein Pionier in diesem Bereich. Durch diese neue Integration mit Databricks können Nutzer beider Plattformen nun davon profitieren, relevante Funktionen zu finden und zu generieren und die Modellgenauigkeit zu optimieren. Es besteht die Möglichkeit, dass eine Form von AutoFE in Zukunft mehr Mainstream wird und ihren Weg in zahlreiche AutoML-Plattformen findet.

Esin Alpturk hat zur Berichterstattung in diesem Beitrag beigetragen.

Verwandte Themen:

Big Data Analytics Digitale Transformation CXO Internet of Things Innovation Unternehmenssoftware Andrew Brust

Von Andrew Brust für Big on Data | 2. August 2021 – 13:00 GMT (14:00 BST) | Thema: Künstliche Intelligenz