Dremios Dart-initiativ konsoliderar sjö- och lagerparadigmerna ytterligare

0
107

 Andrew Brust

Av Andrew Brust för Big on Data | 3 juni 2021 – 13:30 GMT (14:30 BST) | Ämne: Big Data Analytics

Dremio, som i nästan fyra år nu, har erbjudit en plattform utformad för att underlätta BI-analys över datasjöar (först i Hadoop-kluster och nu i molnet) tillkännager idag en multi- månadsinitiativ för att utveckla plattformens prestanda till en jämnhetsgrad med dedikerade datalagerplattformar.

Läs också: Start Dremio kommer från stealth, lanserar minnesbaserad BI-sökfrågan

Initiativet, som kallas Dart (i sig en referens till Dremios kärna Apache “Arrow” -teknologi), levererar vissa prestationsvinster omedelbart och kommer att fortsätta att förbättra plattformen under det närmaste året. Tomer Shiran, grundare och produktchef på Dremio, informerade ZDNet och förklarade att Dart kommer att få Dremio-plattformen att överträffa SQL-motorer som Apache Hive och Presto, och matcha prestanda för världens snöflingor och röda skift, samtidigt som kunderna fortfarande behålla deras data i öppna format och lagras i molnobjektlagring (eller HDFS för den delen).

Läs också: Apache Arrow förenar Big Data-system i minnet

Optimering hitparade

Shiran skulle förstå intimt i vilken utsträckning fristående SQL-motorer lämnar något att önska. Som VP Product Management vid tidigare MapR (vars plattform nu är HPE Ezmeral Data Fabric) var Shiran en stor kraft bakom en sådan motor, Apache Drill. Medan den motorn levererade på löfte om universell SQL-fråga tillgång till data i många källor, dess prestanda och antagande var något svag. När Shiran lämnade MapR för att grunda Dremio tillsammans med MapR-alumnen Jacques Nadeau förstod han att smart optimering var nyckeln till Business Intelligence (BI) -skalig interaktiv fråga om vad vi nu kallar datasjöar.

< stark> Läs också: Dremio släpper Data Lake Engines för AWS och Azure

Dart är sant mot det uppdraget. Den introducerar frågeplanering i industriell klass och utökad exekvering av inbyggd kodfråga via Dremios öppna källkodsverktyg Gandiva. Dart ger också bättre ANSI SQL-stöd, inklusive nästan universellt stöd för läsorienterade frågefunktioner. Dessutom kan Dremio skicka stora metadataoperationer under exekvering istället för uppåt och ytterligare påskynda frågor genom att dike Hive-metastoren och placera metadata direkt i sjön. Dremio säger att resultatet är upp till 8 gånger snabbare frågeplanering, en upp till 6 gånger snabbare bearbetningshastighet och upp till 8 gånger snabbare körning.

Läs också: “Gandiva” -projektet med öppen källkod vill avblockera analyser

Potatis, potahto

Trots rubriken för detta inlägg om Dart som konvergerar lager- och sjöparadigmerna, pressade rubriken för Dremios pressmeddelande att Dart accelererar föråldring av molndatalager. Det är uppenbart att olika parter ser frågan annorlunda. Leverantörer som Dremio och Databricks vill övertyga dig om att sjön ersätter lagret. Leverantörer som Snowflake vill göra det motsatta. Sedan finns det Microsoft, som erbjuder både ett lager och en Apache Spark-baserad datasjö i sin Azure Synapse Analytics-tjänst (och lokalt gör i princip samma sak med SQL Server Big Data Clusters).

Så vad ger? Svaret är att tekniken betyder mindre än användningsfallet. De flesta lager är noggrant modellerade och drivs med ett stort hinder för införande av nya data, med strikt kurering. De flesta sjöar försöker inkludera data för att möjliggöra analys av de “okända okända.” Lager brukar använda kolumner, relationsdatabasteknik och sjöar tenderar att bestå av CSV-, JSON- och parkettfiler i molnlagring.

Men man kan här argumentera för att Dremio implementerar lagerteknik snarare än att föråldra den. Den verkliga skillnaden är att i Dremio-fallet lagras data i öppna format som många andra analysmotorer är kompatibla med. De flesta datalager använder under tiden egna format som är optimerade för, men fångade av, sin egen plattform.

Ring mig bara inte sent för att fråga

Oavsett lagringsmedium och proprietär eller öppen källkodsanpassning, måste samlevnaden mellan kurerade och modellerade data och mer inkluderande, tillfälligt strukturerad data tillgodoses. Använd de etiketter du vill ha. Se bara till att du kan tillgodose båda användningsfall och att de uppdragskritiska frågorna går snabbt.

Läs också: Dremio-fokuserad data insamlar $ 135 miljoner $ D-finansieringsrunda

Relaterade ämnen:

Cloud Digital Transformation Robotics Internet of Things Innovation Enterprise Software  Andrew Brust

Av Andrew Brust för Big on Data | 3 juni 2021 – 13:30 GMT (14:30 BST) | Ämne: Big Data Analytics