Dremio, che da quasi quattro anni offre una piattaforma progettata per facilitare l'analisi della BI sui data lake (prima nei cluster Hadoop e ora nel cloud) annuncia oggi un multi- iniziativa del mese per far evolvere le prestazioni della sua piattaforma fino al punto di parità con le piattaforme di data warehouse dedicate.
Leggi anche: La startup Dremio esce dallo stealth, lancia il motore di query BI basato sulla memoria
L'iniziativa, denominata Dart (a sua volta un riferimento alla tecnologia Apache “Arrow”) di Dremio, offre immediatamente alcuni miglioramenti delle prestazioni e continuerà a migliorare la piattaforma nel corso del prossimo anno. Tomer Shiran, fondatore e chief product officer di Dremio, ha informato ZDNet e ha spiegato che Dart farà in modo che la piattaforma Dremio superi le prestazioni dei motori SQL come Apache Hive e Presto, e corrisponda alle prestazioni di Snowflakes e Redshift del mondo, pur consentendo ai clienti di mantengono i loro dati in formati aperti e archiviati nell'archiviazione di oggetti cloud (o HDFS, se è per questo).
Leggi anche: Apache Arrow unifica i sistemi Big Data in-memory
Hit parade di ottimizzazione
Shiran capirebbe perfettamente fino a che punto i motori SQL autonomi lasciano a desiderare. In qualità di VP Product Management presso l'ex MapR (la cui piattaforma è ora HPE Ezmeral Data Fabric), Shiran è stata una delle principali forze dietro uno di questi motori, Apache Drill. Sebbene quel motore mantenesse la promessa di un accesso universale alle query SQL ai dati in numerose fonti, le sue prestazioni e la sua adozione erano alquanto scarse. Quando Shiran ha lasciato MapR per fondare Dremio con il collega MapR alunno Jacques Nadeau, ha capito che l'ottimizzazione intelligente era la chiave per l'interrogazione interattiva su scala di business intelligence (BI) di quelli che ora chiamiamo data lake.
< strong>Leggi anche: Dremio rilascia i motori Data Lake per AWS e Azure
Dart è fedele a quella missione. Introduce la pianificazione delle query di livello industriale e l'esecuzione di query di codice nativo esteso, tramite il set di strumenti open source Gandiva di Dremio. Dart offre anche un migliore supporto SQL ANSI, incluso il supporto quasi universale per le operazioni di query orientate alla lettura. Inoltre, abbandonando il metastore Hive e inserendo i metadati direttamente nel lago, Dremio può inviare grandi operazioni di metadati durante l'esecuzione anziché in anticipo, accelerando ulteriormente le query. Dremio afferma che il risultato è una pianificazione delle query fino a 8 volte più veloce, una velocità di elaborazione fino a 6 volte più veloce e un'esecuzione fino a 8 volte più veloce.
Leggi anche: Il progetto open source “Gandiva” vuole sbloccare l'analisi
Potato, potahto
Nonostante il titolo di questo post su Dart che fa convergere i paradigmi del magazzino e del lago, il titolo del comunicato stampa di Dremio ha spinto la premessa che Dart acceleri l'obsolescenza dei data warehouse cloud. Chiaramente, diverse parti vedono la domanda in modo diverso. Venditori come Dremio e Databricks desiderano convincerti che il lago sostituisce il magazzino. I venditori come Snowflake desiderano fare il contrario. Poi c'è Microsoft, che offre sia un magazzino che un data lake basato su Apache Spark nel suo servizio Azure Synapse Analytics (e in locale fa essenzialmente lo stesso con SQL Server Big Data Clusters).
Quindi cosa dà? La risposta è che la tecnologia conta meno del caso d'uso. La maggior parte dei magazzini è modellata meticolosamente e gestita con un'elevata barriera all'ingresso di nuovi dati, con una rigorosa cura. La maggior parte dei laghi cerca di includere dati per consentire l'analisi delle “incognite sconosciute”. I magazzini tendono a utilizzare la tecnologia di database relazionale a colonne e i laghi tendono a consistere di file CSV, JSON e Parquet nell'archiviazione cloud.
Ma qui si potrebbe obiettare che Dremio sta implementando la tecnologia di magazzino piuttosto che renderla obsoleta. La vera differenza è che nel caso Dremio i dati sono archiviati in formati aperti con cui sono compatibili molti altri motori di analisi. La maggior parte dei data warehouse, nel frattempo, utilizza formati proprietari ottimizzati per, ma vincolati, alla propria piattaforma.
Basta non chiamarmi tardi per interrogare
Indipendentemente dal supporto di archiviazione e dall'approccio proprietario o open source, la coesistenza di dati curati e modellati con dati più inclusivi e strutturati in modo casuale deve essere soddisfatta. Usa tutte le etichette che vuoi. Assicurati solo di poter soddisfare entrambi i casi d'uso e che le query mission-critical vengano eseguite rapidamente.
Leggi anche: Dremio, incentrato sul data lake, raccoglie 135 milioni di dollari di finanziamenti per la serie D
Argomenti correlati:
Cloud Trasformazione digitale Robotica Internet delle cose Innovazione Software aziendale