Dremios Dart-initiativ konsoliderer yderligere sø- og lagerparadigmer

0
111

 Andrew Brust

Af Andrew Brust til Big on Data | 3. juni 2021 – 13:30 GMT (14:30 BST) | Emne: Big Data Analytics

Dremio, der i næsten fire år nu har tilbudt en platform designet til at lette BI-analyse over datasøer (først i Hadoop-klynger og nu i skyen) annoncerer i dag en multi- måneders initiativ til at udvikle sin platforms ydeevne til paritet med dedikerede datalagerplatforme.

Læs også: Startup Dremio kommer fra stealth, lancerer hukommelsesbaseret BI-forespørgselsmotor

Initiativet, kaldet Dart (i sig selv en henvisning til Dremios centrale Apache “Arrow” -teknologi) leverer visse præstationsgevinster med det samme og vil fortsætte med at forbedre platformen i løbet af det næste år eller deromkring. Tomer Shiran, grundlægger og Chief Product Officer hos Dremio, orienterede ZDNet og forklarede, at Dart vil få Dremio-platformen til at overgå SQL-motorer som Apache Hive og Presto og matche præstationen for verdens sne-flager og rødskift, mens kunderne stadig opbevar deres data i åbne formater og gemt i cloud-objektlagring (eller HDFS for den sags skyld).

Læs også: Apache Arrow forener store hukommelsessystemer i hukommelsen

Optimerings hitparade

Shiran ville forstå nøje, i hvilket omfang enkeltstående SQL-motorer lader noget tilbage at ønske. Som VP Product Management på den tidligere MapR (hvis platform nu er HPE Ezmeral Data Fabric) var Shiran en vigtig kraft bag en sådan motor, Apache Drill. Mens den motor leverede på løftet om universel SQL-forespørgsel om adgang til data i adskillige kilder, var dens ydeevne og vedtagelse noget mangelfuld. Da Shiran forlod MapR for at grundlægge Dremio sammen med MapR-alumnen Jacques Nadeau, forstod han, at smart optimering var nøglen til Business Intelligence (BI) -skala interaktiv forespørgsel efter det, vi nu kalder datasøer.

< stærk> Læs også: Dremio frigiver Data Lake Engines til AWS og Azure

Dart er tro mod denne mission. Det introducerer forespørgselsplanlægning i industriel klasse og udvidet udførelse af indfødte kodeforespørgsler via Dremios open source Gandiva-værktøjssæt. Dart giver også bedre ANSI SQL-support, herunder næsten universel support til læserienteret forespørgsel. Derudover kan Dremio udsende store metadataoperationer under udførelse i stedet for foran, hvilket yderligere fremskynder forespørgsler ved at droppe Hive-metastoren og placere metadata direkte i søen. Dremio siger, at resultatet er op til 8 gange hurtigere planlægning af forespørgsler, en op til 6 gange hurtigere behandlingshastighed og op til 8 gange hurtigere udførelse.

Læs også: Open source “Gandiva” -projektet ønsker at fjerne blokering af analyser

Kartoffel, potahto

På trods af overskriften til dette indlæg om Dart, der konvergerer lager- og søparadigmerne, skubbede overskriften til Dremios pressemeddelelse forudsætningen om, at Dart fremskynder forældelsen af ​​cloud-datalager. Det er klart, at forskellige parter ser spørgsmålet forskelligt. Leverandører som Dremio og Databricks ønsker at overbevise dig om, at søen erstatter lageret. Leverandører som Snowflake ønsker at gøre det modsatte. Så er der Microsoft, der tilbyder både et lager og en Apache Spark-baseret datasø i sin Azure Synapse Analytics-tjeneste (og lokalt gør det stort set det samme med SQL Server Big Data Clusters).

Så hvad giver? Svaret er, at teknologien betyder mindre end brugssagen. De fleste lagre er omhyggeligt modelleret og drives med en høj barriere for adgang til nye data med streng kurering. De fleste søer søger at inkludere data for at muliggøre analyse af de “ukendte ukendte.” Lager har tendens til at bruge søjleformel, relationel databaseteknologi, og søer har tendens til at bestå af CSV-, JSON- og parketfiler i skyopbevaring.

Men man kan her argumentere for, at Dremio implementerer lagerteknologi snarere end at forælde den. Den reelle forskel er, at i Dremio-sagen lagres dataene i åbne formater, som mange andre analysemotorer er kompatible med. De fleste datavarehuse bruger i mellemtiden proprietære formater, der er optimeret til, men fanget til, deres egen platform.

Bare ring mig ikke for sent til forespørgsel

Uanset lagringsmediet og proprietær eller open source-tilgang skal sameksistensen af ​​kuraterede og modellerede data med mere inkluderende, tilfældigt strukturerede data tilpasses. Brug de etiketter, du ønsker. Bare sørg for at du kan rumme begge brugssager, og at de missionskritiske forespørgsler kører hurtigt.

Læs også: Data søfokuseret Dremio rejser $ 135 mio. Serie D-finansieringsrunde

Relaterede emner:

Cloud Digital Transformation Robotics Internet of Things Innovation Enterprise Software  Andrew Brust

Af Andrew Brust til Big on Data | 3. juni 2021 – 13:30 GMT (14:30 BST) | Emne: Big Data Analytics