Dremio's Dart-initiatief consolideert meer en magazijnparadigma's

0
96

Andrew Brust

Door Andrew Brust voor Big on Data | 3 juni 2021 — 13:30 GMT (14:30 BST) | Onderwerp: Big Data Analytics

Dremio, dat al bijna vier jaar een platform biedt dat is ontworpen om BI-analyse over datameren te vergemakkelijken (eerst in Hadoop-clusters en nu in de cloud), kondigt vandaag een multi- initiatief van een maand om de prestaties van het platform te ontwikkelen tot het punt van pariteit met speciale datawarehouse-platforms.

Lees ook: Startup Dremio komt voort uit stealth, lanceert op geheugen gebaseerde BI-query-engine

Het initiatief, Dart genaamd (zelf een verwijzing naar Dremio's belangrijkste Apache “Arrow”-technologie), levert onmiddellijk bepaalde prestatieverbeteringen op en zal het platform in de loop van het volgende jaar of zo blijven verbeteren. Tomer Shiran, oprichter en chief product officer bij Dremio, lichtte ZDNet in en legde uit dat Dart ervoor zal zorgen dat het Dremio-platform beter presteert dan SQL-engines zoals Apache Hive en Presto, en de prestaties van de Snowflakes en Redshifts van de wereld zal evenaren, terwijl klanten nog steeds kunnen houden hun gegevens in open formaten en opgeslagen in cloud-objectopslag (of HDFS, wat dat betreft).

Lees ook: Apache Arrow verenigt in-memory Big Data-systemen

Optimalisatie hitparade

Shiran zou heel goed begrijpen in hoeverre op zichzelf staande SQL-engines iets te wensen overlaten. Als VP Product Management bij het voormalige MapR (waarvan het platform nu de HPE Ezmeral Data Fabric is), was Shiran een belangrijke kracht achter een dergelijke engine, Apache Drill. Hoewel die engine de belofte van universele SQL-querytoegang tot gegevens in tal van bronnen waarmaakte, waren de prestaties en acceptatie enigszins matig. Toen Shiran MapR verliet om samen met collega MapR-alumnus Jacques Nadeau Dremio op te richten, begreep hij dat slimme optimalisatie de sleutel was tot interactieve bevraging op business intelligence (BI)-schaal van wat we nu datameren noemen.

< strong>Lees ook: Dremio lanceert Data Lake Engines voor AWS en Azure

Dart is trouw aan die missie. Het introduceert query-planning van industriële klasse en uitgebreide uitvoering van native code-query's, via Dremio's open source Gandiva-toolset. Dart biedt ook betere ANSI SQL-ondersteuning, inclusief bijna universele ondersteuning voor leesgeoriënteerde querybewerkingen. Door de Hive-metastore te dumpen en metadata direct in het meer te plaatsen, kan Dremio bovendien grote metadatabewerkingen verzenden tijdens de uitvoering in plaats van vooraf, waardoor zoekopdrachten verder worden versneld. Dremio zegt dat het resultaat tot 8x snellere queryplanning, tot 6x snellere verwerkingssnelheid en tot 8x snellere uitvoering is.

Lees ook: Open source “Gandiva”-project wil analytics deblokkeren

Potato, potahto

Ondanks de kop voor dit bericht over de convergentie van de magazijn- en meerparadigma's door Dart, drong de kop voor het persbericht van Dremio aan op het uitgangspunt dat Dart de veroudering van clouddatawarehouses versnelt. Het is duidelijk dat verschillende partijen de vraag anders zien. Verkopers zoals Dremio en Databricks willen je ervan overtuigen dat het meer het magazijn vervangt. Verkopers zoals Snowflake willen het tegenovergestelde doen. Dan is er Microsoft, dat zowel een magazijn als een op Apache Spark gebaseerd datameer biedt in zijn Azure Synapse Analytics-service (en on-premises doet in wezen hetzelfde met SQL Server Big Data Clusters).

Dus wat geeft? Het antwoord is dat de technologie er minder toe doet dan de use case. De meeste magazijnen zijn minutieus gemodelleerd en worden beheerd met een hoge drempel voor het invoeren van nieuwe gegevens, met strikte curatie. De meeste meren proberen gegevens te bevatten om analyse van de 'onbekende onbekenden' mogelijk te maken. Magazijnen gebruiken meestal zuilvormige, relationele databasetechnologie en meren bestaan ​​meestal uit CSV-, JSON- en Parquet-bestanden in cloudopslag.

Maar men zou hier kunnen stellen dat Dremio magazijntechnologie implementeert in plaats van deze te verouderen. Het echte verschil is dat in het geval van Dremio de gegevens worden opgeslagen in open formaten waarmee veel andere analyse-engines compatibel zijn. De meeste datawarehouses gebruiken ondertussen propriëtaire formaten die zijn geoptimaliseerd voor, maar gebonden aan, hun eigen platform.

Bel me niet te laat om een ​​vraag te stellen

Ongeacht het opslagmedium en de propriëtaire of open source-benadering, moet rekening worden gehouden met het naast elkaar bestaan ​​van samengestelde en gemodelleerde gegevens met meer inclusieve, terloops gestructureerde gegevens. Gebruik de labels die u maar wilt. Zorg ervoor dat u beide gebruiksscenario's kunt gebruiken en dat de missiekritieke zoekopdrachten snel worden uitgevoerd.

Lees ook: Dremio, gericht op datameer, haalt $ 135 miljoen op voor serie D-financieringsronde

Verwante onderwerpen:

Cloud Digital Transformation Robotics Internet of Things Innovatie Enterprise Software Andrew Brust

Door Andrew Brust voor Big on Data | 3 juni 2021 — 13:30 GMT (14:30 BST) | Onderwerp: Big Data-analyse