L'initiative Dart de Dremio consolide davantage les paradigmes des lacs et des entrepôts

0
168

Andrew Brust

Par Andrew Brust pour Big on Data | 3 juin 2021 — 13h30 GMT (14h30 BST) | Sujet : Big Data Analytics

Dremio, qui propose depuis bientôt quatre ans une plateforme conçue pour faciliter l'analyse BI sur les lacs de données (d'abord dans les clusters Hadoop et maintenant dans le cloud) annonce aujourd'hui une multi- initiative d'un mois pour faire évoluer les performances de sa plate-forme au point de parité avec les plates-formes d'entrepôt de données dédiées.

Lisez également : La startup Dremio sort de la furtivité et lance un moteur de requête BI basé sur la mémoire

L'initiative, appelée Dart (elle-même une référence à la technologie de base Apache “Arrow” de Dremio), apporte certains gains de performances immédiatement et continuera d'améliorer la plate-forme au cours de la prochaine année. Tomer Shiran, fondateur et chef de produit chez Dremio, a informé ZDNet et expliqué que Dart obtiendra la plate-forme Dremio pour surpasser les moteurs SQL comme Apache Hive et Presto, et égaler les performances des Snowflakes et Redshifts du monde, tout en permettant aux clients de conserver leurs données dans des formats ouverts et stockées dans un stockage d'objets cloud (ou HDFS, d'ailleurs).

Lisez également : Apache Arrow unifie les systèmes Big Data en mémoire

Hit parade de l'optimisation

Shiran comprendrait intimement à quel point les moteurs SQL autonomes laissent à désirer. En tant que vice-président de la gestion des produits chez MapR (dont la plate-forme est maintenant HPE Ezmeral Data Fabric), Shiran était une force majeure derrière l'un de ces moteurs, Apache Drill. Bien que ce moteur ait tenu la promesse d'un accès universel aux requêtes SQL aux données de nombreuses sources, ses performances et son adoption étaient quelque peu ternes. Lorsque Shiran a quitté MapR pour cofonder Dremio avec un autre ancien élève de MapR Jacques Nadeau, il a compris que l'optimisation intelligente était la clé des requêtes interactives à l'échelle de la Business Intelligence (BI) de ce que nous appelons aujourd'hui les lacs de données.

< strong>Lire également : Dremio publie des moteurs de lac de données pour AWS et Azure

Dart est fidèle à cette mission. Il introduit la planification des requêtes de classe industrielle et l'exécution étendue des requêtes de code natif, via l'ensemble d'outils open source Gandiva de Dremio. Dart apporte également une meilleure prise en charge ANSI SQL, y compris une prise en charge presque universelle des opérations de requête orientées lecture. De plus, en abandonnant le métastore Hive et en plaçant les métadonnées directement dans le lac, Dremio peut envoyer d'importantes opérations de métadonnées pendant l'exécution plutôt qu'en amont, ce qui accélère encore les requêtes. Dremio affirme que le résultat est une planification des requêtes jusqu'à 8 fois plus rapide, un taux de traitement jusqu'à 6 fois plus rapide et une exécution jusqu'à 8 fois plus rapide.

Lire aussi : Le projet open source “Gandiva” veut débloquer l'analyse

Pomme de terre, pomme de terre

Malgré le titre de cet article sur Dart faisant converger les paradigmes des entrepôts et des lacs, le titre du communiqué de presse de Dremio a avancé l'hypothèse que Dart accélère l'obsolescence des entrepôts de données cloud. De toute évidence, les différentes parties voient la question différemment. Des vendeurs comme Dremio et Databricks souhaitent vous convaincre que le lac remplace l'entrepôt. Des vendeurs comme Snowflake souhaitent faire le contraire. Ensuite, il y a Microsoft, qui propose à la fois un entrepôt et un lac de données basé sur Apache Spark dans son service Azure Synapse Analytics (et sur site fait essentiellement la même chose avec SQL Server Big Data Clusters).

Alors qu'est-ce qui donne ? La réponse est que la technologie importe moins que le cas d'utilisation. La plupart des entrepôts sont méticuleusement modélisés et exploités avec une barrière élevée à l'entrée de nouvelles données, avec une conservation stricte. La plupart des lacs cherchent à inclure des données pour permettre l'analyse des « inconnus inconnus ». Les entrepôts ont tendance à utiliser une technologie de base de données relationnelle en colonnes et les lacs ont tendance à se composer de fichiers CSV, JSON et Parquet dans le stockage en nuage.

Mais on pourrait soutenir ici que Dremio met en œuvre la technologie d'entrepôt plutôt que de l'obsoler. La vraie différence est que dans le cas Dremio, les données sont stockées dans des formats ouverts avec lesquels de nombreux autres moteurs d'analyse sont compatibles. La plupart des entrepôts de données, quant à eux, utilisent des formats propriétaires optimisés pour, mais captifs, leur propre plate-forme.

Ne m'appelez pas en retard pour interroger

Indépendamment du support de stockage et de l'approche propriétaire ou open source, la coexistence de données organisées et modélisées avec des données plus inclusives et structurées de manière informelle doit être prise en compte. Utilisez les étiquettes que vous voulez. Assurez-vous simplement que vous pouvez gérer les deux cas d'utilisation et que les requêtes critiques s'exécutent rapidement.

Lisez également : Dremio, axé sur les lacs de données, lève 135 millions de dollars de financement de série D

Sujets connexes :

Cloud Transformation numérique Robotique Internet des objets Innovation Logiciels d'entreprise Andrew Brust

Par Andrew Brust pour Big on Data | 3 juin 2021 — 13h30 GMT (14h30 BST) | Sujet : Analyse des mégadonnées