Dremios Dart-initiativ konsoliderer ytterligere innsjø- og lagerparadigmer

0
107

 Andrew Brust

Av Andrew Brust for Big on Data | 3. juni 2021 – 13:30 GMT (14:30 BST) | Emne: Big Data Analytics

Dremio, som i snart fire år nå, har tilbudt en plattform designet for å legge til rette for BI-analyse over datasjøer (først i Hadoop-klynger og nå i skyen) kunngjør i dag en fler- måneders initiativ for å utvikle plattformens ytelse til et paritetsnivå med dedikerte datalagerplattformer.

Les også: Oppstart Dremio kommer fra skjult, lanserer minnebasert BI-spørringsmotor

Initiativet, kalt Dart (i seg selv en referanse til Dremios kjerne Apache “Arrow” -teknologi), leverer visse ytelsesgevinster umiddelbart og vil fortsette å forbedre plattformen i løpet av det neste året eller så. Tomer Shiran, grunnlegger og produktansvarlig i Dremio, orienterte ZDNet og forklarte at Dart vil få Dremio-plattformen til å overgå SQL-motorer som Apache Hive og Presto, og matche ytelsen til Snowflakes og Redshifts i verden, samtidig som kundene fortsatt holde dataene deres i åpne formater og lagret i lagring av skyobjekter (eller HDFS for den saks skyld).

Les også: Apache Arrow forener Big Data-systemer i minnet

Optimaliserings hitparade

Shiran ville forstå nøyaktig i hvilken grad frittstående SQL-motorer lar noe være å ønske. Som VP Product Management ved tidligere MapR (hvis plattform nå er HPE Ezmeral Data Fabric), var Shiran en stor styrke bak en slik motor, Apache Drill. Mens motoren leverte løftet om universell SQL-tilgang til data i mange kilder, var ytelsen og adopsjonen noe svak. Da Shiran forlot MapR for å grunnlegge Dremio sammen med MapR-alumnen Jacques Nadeau, forsto han at smart optimalisering var nøkkelen til business intelligence (BI) -skala interaktiv spørring av det vi nå kaller datasjøer.

< sterk> Les også: Dremio lanserer Data Lake Engines for AWS og Azure

Dart er tro mot det oppdraget. Den introduserer søkeplanlegging i industriell klasse og utvidet utførelse av innfødte koder, via Dremios åpne kildekode Gandiva-verktøy. Dart gir også bedre ANSI SQL-støtte, inkludert nesten universell støtte for leseorienterte spørringsoperasjoner. I tillegg, ved å kaste Hive-metastoren og plassere metadata direkte i sjøen, kan Dremio sende store metadataoperasjoner under utførelse i stedet for foran, og ytterligere akselerere spørsmål. Dremio sier at resultatet er opptil 8 ganger raskere spørreplanlegging, opptil 6 ganger raskere prosesseringshastighet og opptil 8 ganger raskere gjennomføring.

Les også: Åpen kildekode “Gandiva” -prosjektet ønsker å oppheve blokkering av analyser

Potet, potahto

Til tross for overskriften for dette innlegget om Dart som konvergerer lager- og innsjøparadigmer, presset overskriften til Dremios pressemelding forutsetningen om at Dart akselererer utdateringen av sky-datalager. Det er klart at forskjellige parter ser spørsmålet annerledes. Leverandører som Dremio og Databricks ønsker å overbevise deg om at innsjøen erstatter lageret. Leverandører som Snowflake ønsker å gjøre det motsatte. Så er det Microsoft, som tilbyr både et lager og en Apache Spark-basert datasjø i sin Azure Synapse Analytics-tjeneste (og lokale gjør i det vesentlige det samme med SQL Server Big Data Clusters).

Så hva gir? Svaret er at teknologien betyr mindre enn brukssaken. De fleste lager er omhyggelig modellert, og drives med en høy barriere for innføring av nye data, med streng kurering. De fleste innsjøer søker å inkludere data for å tillate analyse av de “ukjente ukjente.” Lager har en tendens til å bruke søylen, relasjonell databaseteknologi, og innsjøer har en tendens til å bestå av CSV-, JSON- og Parkett-filer i skylagring.

Men man kan her argumentere for at Dremio implementerer lagerteknologi i stedet for å forfalske den. Den virkelige forskjellen er at i Dremio-saken lagres dataene i åpne formater som mange andre analysemotorer er kompatible med. De fleste datalagre bruker i mellomtiden proprietære formater som er optimalisert for, men fanget av, sin egen plattform.

Bare ring meg ikke sent

Uansett lagringsmedium og proprietær eller åpen kildekode-tilnærming, må sameksistensen av kuraterte og modellerte data med mer inkluderende, tilfeldig strukturerte data imøtekommes. Bruk hvilke etiketter du vil ha. Bare vær sikker på at du kan imøtekomme begge brukssaker og at de oppdragskritiske spørsmålene kjører fort.

Les også: Data lake-fokusert Dremio skaffer $ 135 millioner serier D-finansieringsrunde

Beslektede emner:

Cloud Digital Transformation Robotics Internet of Things Innovasjon Enterprise Software  Andrew Brust

Av Andrew Brust for Big on Data | 3. juni 2021 – 13:30 GMT (14:30 BST) | Tema: Big Data Analytics