Databricks' TPC-DS benchmark-resultater og analyseplatformkrigene

0
147

Andrew Brust Skrevet af Andrew Brung, Bidragyder Andrew Brust Andrew Brust Bidragyder

Andrew Brust har arbejdet i softwareindustrien i 25 år som udvikler, konsulent, iværksætter og CTO med speciale i applikationsudvikling, databaser og business intelligence-teknologi. Han har været klummeskribent for udviklermagasiner og konferencetaler siden midten af ​​90'erne og en teknologibogskribent og blogger siden 2005.

Fuld biografi udgivet i Big on Data den 24. januar 2022 | Emne: Big Data

databricks-tpc-ds-results.png

Databricks' TPC-DS-benchmark-resultatoversigt

Kredit: Transaction Processing Performance Council (TPC)

Efterhånden som datakilder og mængder vokser, og da en datadrevet orientering i stigende grad anses for at være en konkurrencemæssig nødvendighed, er krigen mellem platformsleverandører om at levere det primære lager for vores data intens. Krigen har flere fronter, hvoraf den ene er analytics. Og inden for dette område er datavarehuset og datasølejrene de vigtigste kombattanter.

Data warehouse-siden er stærk, da den inkluderer en kombination af trofaste etablerede leverandører som Teradata og Vertica (nu en del af Micro Focus), alle tre store cloud-udbydere (AWS, Google Cloud, Microsoft Azure) og industriens elskede Snowflake. På datasøsiden er uafhængige udbydere, som Cloudera og de førnævnte Databricks, måske de mest emblematiske konkurrenter.

For andre kunder handler kriterierne mere om paradigmet — inklusive datamodellering og i en vis forstand datastyring — end det handler om ydeevne. En søs etos er at gemme data i form af navngivne filer i åbne formater, således at dataene er kompatible med og kan bruges af en række database- og analysemotorer. Og fordi dataene er gemt som filer på en disk eller i skylager, er behovet (og viljen) til at modellere dem mindre.

Dette gør dataene mindre formelle, ofte mindre undersøgte og også mindre undersøgte. Kontrol er mere delegeret, hvilket gør det nemmere at indsætte data. (Disse karakteristika ved en datasø gælder også for søhusscenarier.)

Et datavarehus er mere formelt og kontrolleret, idet det typisk håndhæver en mere eksplicit og omfattende datamodel. Den er mindre agil, hvilket frustrerer brugerne, men den har også mere et filter, som kan korrelere med en generelt højere grad af datakvalitet og brugertillid.

Store benchmarks for big data

databricks-tpc-ds-configuration.png

Databricks TPC-DS benchmarked konfiguration

Kredit: Transaction Processing Performance Council (TPC)

Et system med infrastruktur til en værdi af $5 millioner og massive datamængder kan muligvis klare Alibabas benchmark, men det er ikke typisk for, hvad de fleste kunder har brug for eller har råd til. Det viser, at Databricks SQL kan påtage sig enorme arbejdsbyrder, og for nogle kunder vil det i sig selv være vigtigt.

Betydningen af ​​Databricks' benchmark-resultater kan bedst forstås gennem korrekt udformning af spørgsmålet. Databricks ville indramme det i form af: “Hvilken model regerer øverst?” Men måske er spørgsmålet: “Hvilken model appellerer mere til bestemte kunder, i særlige use cases?” Efterfulgt af: “Er ydeevnen nu tilstrækkelig med begge modeller?”

I sidste ende kan de fleste virksomheder sandsynligvis drage fordel af et datavarehus og et datasø(hus). Lageret kan være et opbevaringssted for højt undersøgte, omhyggeligt tilpassede og modellerede data til at drive rapportering, operationelle dashboards og ad hoc-forespørgsler i området af “kendte ukendte”. Søer og søhuse kan i mellemtiden rumme flere data med en kortere ombordstigningsproces, med mindre “modeling-on-write” og bruges til udforskende analyser og improviseret visualiseringer.

Gevinsten, ikke vinderen

TPC-resultaterne gør det klart, at begge modeller fungerer godt, leverer fremragende resultater, kan interface efter behov og arbejder med de samme BI-værktøjer. De er også omkostningseffektive, sky-først, elastiske og smidige. Men selvom lager/sø-spørgsmålet ikke behøver at kræve et enten/eller-valg, er der en fordel ved, at leverandører ser det sådan: Konkurrence om de samme kunder og samme arbejdsbelastning resulterer i fortsat innovation, som kommer kunden til gode.

Om TPC-benchmarks er den ultimative dommer for, hvad der er bedst, afhænger af køberens kriterier. Men Databricks' TPC-DS-resultater er imponerende uanset. De er en milepæl for industrien og en tvingende funktion til at sikre, at leverandører anvender en tilgang til løbende forbedringer, uanset om de sælger søen, søhuset eller lageret.

Fremhævede

Efter anholdelser af ransomware bliver mørke web-kriminelle bekymrede. De bedste tilbud på bærbare computere, der er tilgængelige nu: HP, Dell, Lenovo og flere ofte stillede spørgsmål: Hvad sker der med 5G og lufthavne sikkerhed? COVID-test: Sådan får du gratis hurtige testsæt derhjemme Cloud | Digital transformation | Robotik | Internet of Things | Innovation | Enterprise Software