Dremio, das seit fast vier Jahren eine Plattform zur Erleichterung von BI-Analysen über Data Lakes (zuerst in Hadoop-Clustern und jetzt in der Cloud) anbietet, kündigt heute eine Multi- Monatsinitiative, um die Leistung seiner Plattform so weit zu entwickeln, dass sie mit dedizierten Data-Warehouse-Plattformen übereinstimmt.
Lesen Sie auch: Startup Dremio kommt aus der Tarnung und startet speicherbasierte BI-Abfrage-Engine
Die Initiative namens Dart (selbst ein Hinweis auf Dremios Kerntechnologie Apache “Arrow”) liefert sofort bestimmte Leistungssteigerungen und wird die Plattform im Laufe des nächsten Jahres oder so weiter verbessern. Tomer Shiran, Gründer und Chief Product Officer bei Dremio, informierte ZDNet und erklärte, dass Dart die Dremio-Plattform dazu bringen wird, SQL-Engines wie Apache Hive und Presto zu übertreffen und die Leistung der Snowflakes und Redshifts der Welt zu erreichen, während es den Kunden weiterhin möglich ist halten ihre Daten in offenen Formaten und speichern sie im Cloud-Objektspeicher (oder HDFS).
Lesen Sie auch: Apache Arrow vereint In-Memory-Big-Data-Systeme
Optimierungs-Hitparade
Shiran würde genau verstehen, inwieweit eigenständige SQL-Engines zu wünschen übrig lassen. Als VP Product Management bei der ehemaligen MapR (deren Plattform jetzt die HPE Ezmeral Data Fabric ist) war Shiran eine wichtige Kraft hinter einer solchen Engine, Apache Drill. Während diese Engine das Versprechen eines universellen SQL-Abfragezugriffs auf Daten in zahlreichen Quellen erfüllte, waren ihre Leistung und Akzeptanz etwas glanzlos. Als Shiran MapR verließ, um zusammen mit seinem MapR-Alumnus Jacques Nadeau Dremio zu gründen, verstand er, dass intelligente Optimierung der Schlüssel zur interaktiven Abfrage von Business Intelligence (BI)-Maßstab von dem ist, was wir heute Data Lakes nennen.
< strong>Lesen Sie auch: Dremio veröffentlicht Data Lake Engines für AWS und Azure
Dart ist dieser Mission treu. Es führt über das Open-Source-Gandiva-Toolset von Dremio eine Abfrageplanung auf Industrieniveau und eine erweiterte Ausführung von nativen Codeabfragen ein. Dart bietet auch eine bessere ANSI SQL-Unterstützung, einschließlich einer nahezu universellen Unterstützung für leseorientierte Abfrageoperationen. Darüber hinaus kann Dremio durch das Ablegen des Hive-Metastores und das Platzieren von Metadaten direkt im See große Metadatenoperationen während der Ausführung statt im Voraus ausführen, was Abfragen weiter beschleunigt. Laut Dremio ist das Ergebnis eine bis zu 8-mal schnellere Abfrageplanung, eine bis zu 6-mal schnellere Verarbeitungsrate und eine bis zu 8-mal schnellere Ausführung.
Lesen Sie auch: Open-Source-Projekt “Gandiva” möchte Analysen entsperren
Kartoffel, Kartoffel
Trotz der Schlagzeile in diesem Beitrag über die Konvergenz von Warehouse- und Lake-Paradigmen durch Dart, hat die Schlagzeile für Dremios Pressemitteilung die Prämisse vorangetrieben, dass Dart die Obsoleszenz von Cloud-Data-Warehouses beschleunigt. Offensichtlich sehen verschiedene Parteien die Frage unterschiedlich. Anbieter wie Dremio und Databricks möchten Sie davon überzeugen, dass der See das Lager ersetzt. Anbieter wie Snowflake möchten das Gegenteil tun. Dann gibt es noch Microsoft, das in seinem Azure Synapse Analytics-Dienst sowohl ein Warehouse als auch einen Apache Spark-basierten Data Lake anbietet (und lokal macht im Wesentlichen dasselbe mit SQL Server Big Data Clusters).
Was gibt es also? Die Antwort ist, dass die Technologie weniger zählt als der Anwendungsfall. Die meisten Lager werden akribisch modelliert und mit einer hohen Barriere für die Eingabe neuer Daten betrieben, mit strenger Kuration. Die meisten Seen versuchen, Daten einzubeziehen, um eine Analyse der “unbekannten Unbekannten” zu ermöglichen. Warehouses verwenden in der Regel spaltenbasierte, relationale Datenbanktechnologie und Lakes bestehen in der Regel aus CSV-, JSON- und Parquet-Dateien im Cloud-Speicher.
Aber man könnte hier argumentieren, dass Dremio Warehouse-Technologie implementiert, anstatt sie zu veralten. Der wirkliche Unterschied besteht darin, dass die Daten im Fall von Dremio in offenen Formaten gespeichert werden, mit denen viele andere Analyse-Engines kompatibel sind. Die meisten Data Warehouses verwenden mittlerweile proprietäre Formate, die für ihre eigene Plattform optimiert, aber von ihr abhängig sind.
Rufen Sie mich nur nicht zu spät an, um Fragen zu stellen
Unabhängig vom Speichermedium und dem proprietären oder Open-Source-Ansatz muss die Koexistenz von kuratierten und modellierten Daten mit integrativen, locker strukturierten Daten berücksichtigt werden. Verwenden Sie beliebige Etiketten. Stellen Sie nur sicher, dass Sie beide Anwendungsfälle berücksichtigen können und die geschäftskritischen Abfragen schnell ausgeführt werden.
Lesen Sie auch: Dremio mit Schwerpunkt auf Data Lakes sammelt 135 Millionen $ Finanzierungsrunde der Serie D
Verwandte Themen:
Cloud Digitale Transformation Robotik Internet der Dinge Innovation Unternehmenssoftware