Serverløs ved re:Invent: Hvor skal Amazon Redshift gå?

0
159

Tony Baer (dbInsight)

Af Tony Baer (dbInsight) til Big on Data | 6. december 2021 | Emne: Big Data

Et centralt højdepunkt fra sidste uges re:Invent var udvidelsen af ​​serverløs databehandling til en række AWS-analysetjenester, herunder Amazon EMR, Kinesis Data Streams, MSK (Managed Service for Kafka) og Redshift. Til cloudanalyse var AWS ikke den første til at tilbyde serverløse muligheder, da Google Cloud BigQuery og Azure Synapse Analytics længe har tilbudt serverløse muligheder (derimod er Snowflakes stadig i preview).

Serverløs var ikke eneste nye funktion annonceret i sidste uge. AWS annoncerede også forhåndsvisningen af ​​automatiserede materialiserede visninger, der behandler oprettelsen af ​​disse visninger meget som omkostningsbaserede forespørgselsoptimeringer: den genererer automatisk visningerne baseret på data-hotspots. Ikke desto mindre greb serverløs rampelyset.

AWS forbedrer sit branchespil ved re:Invent 2021

Mens AWS's serverløse meddelelser kunne ses som at holde trit med Joneses, hvad angår Amazon Redshift, er det en del af en større fortælling om, at data warehousing-tjenesten ikke kun indhenter det, men kommer i position til potentielt at omgå sine rivaler.

< p>For at opsummere, har Amazon Redshift længe været kendt mere som et marked frem for en teknologisk leder.

Da AWS lancerede Redshift tilbage i 2013, var det en af ​​de første cloud-data warehousing-tjenester. Startende med teknologi erhvervet fra ParAccel, profiterede AWS, men betalte også prisen for at være blandt de første på markedet. Dets tidlige indtræden, sammen med porteføljen af ​​andre AWS-analysetjenester, gjorde det muligt for Redshift at skabe en stor kundeliste med mere end titusindvis af kunder i dag.

AWS gaflede den erhvervede ParAccel-teknologi. Men fra starten fulgte den en konventionel data warehousing-arkitektur med lokalt tilknyttet lager. Derimod var Google Cloud BigQuery, der blev lanceret tilbage i 2010, banebrydende for det cloud-native datavarehus. Ikke desto mindre var det lanceringen af ​​Snowflake i 2014, der virkelig satte det elastiske cloud-datavarehus på kortet.

For sidste uges serverløse meddelelse var nøgleudviklingen lanceringen af ​​RA3-instanser tilbage i 2019. De gav den længe søgte elasticitet med adskillelse af computer og lagring og banede vejen for serverløs. Som det viser sig, er RA3 den transformation, der også gjorde det muligt for Redshift at gøre langt mere. Tidligere i år udgav AWS Advanced Query Accelerator (AQUA) til Amazon Redshift, som vi på det tidspunkt karakteriserede som et “generationsskifte”, der udnyttede elasticiteten i RA3-instanserne. Det var rettet mod arbejdsbelastninger for “near-line” data, der sidder eksternt på Amazon Redshift Managed Storage, lagrer varme data i SSD, mens du bruger Nitro hypervisor og FPGA'er til at accelerere behandlingen af ​​køligere data, der sidder på S3.

I øvrigt , i vores indlæg sidste forår satte vi serverless på vores ønskeliste til det, vi ville se næste gang. En gang i en blå måne får vi det indimellem rigtigt.

Men der er mere. Fordi RA3-instanser samler meget af dataene i S3, ryddede det vejen for datadeling, som oprindeligt blev frigivet tilbage i foråret for kunder med flere AWS-konti. Ved re:Invent i sidste uge blev denne mulighed udvidet på tværs af flere regioner. Igen, AWS var ikke den første på markedet. For eksempel har Snowflake promoveret forskellige former for datadeling, siden det begyndte at tale Data Sharehouse tilbage i 2017 (de bruger ikke længere det udtryk). AWS lancerede en datamarkedsplads (kaldet Amazon Data Exchange) for flere år siden, men udvidede den kun til Redshift.

Lad os komme med et par ansvarsfraskrivelser. Først og fremmest må du ikke forveksle datadeling med fødereret forespørgsel. Redshift kan fjernforespørge data, der sidder i RDS- og Aurora-databaser til MySQL og PostgreSQL, og via Redshift Spectrum til EMR og S3. Men det ligner meget, hvad Google allerede tilbyder med BigQuery. For det andet, tro ikke, at AWS opgiver klargjorte forekomster – det vil også blive ved med at tilbyde dem til Redshift, fordi der er kunder, der foretrækker niveaufakturering. Det lærte Google til sidst, da det efterfølgende introducerede faste slots til BigQuery.

Med cloud-native arkitektur og serverløs support har AWS nogle muligheder for at score nogle førstepladser. Med cloud-native serverløs arkitektur kunne AWS flytte mere analytisk og AI-behandling i databasen.

Men maskinlæring i databasen er allerede blevet til bordspil for cloud-datavarehuse. AWS gør det allerede med Redshift ML, hvor du kan bruge SQL-kommandoer til at udløse udviklingsmodeller i SageMaker, og derefter bringe modellerne i databasen som en form for brugerdefineret funktion (UDF) til at køre trænings- og/eller inferens-arbejdsbelastninger. Til gengæld leverer Google også ML i databasen til BigQuery, men det er begrænset til specifikke, kurerede modeller; mens Microsoft tillader kørsel af ML-modeller i Azure Synapse Spark-puljer. Og med Snowpark kan du bruge ikke-SQL-sprog til at presse behandling ned, såsom ML-modeller, som UDF'er direkte ind i Snowflake-databasen.

Vores ønskeliste er at bringe Spark direkte ind i Redshift. I dag skal du starte en separat EMR-klynge for at køre Spark (men i det mindste nu kan den også udløses serverløs). Selvfølgelig er der intet, der forhindrer AWS i at bryde Spark ud som en separat serverløs tjeneste, ligesom Google Cloud for nylig gjorde. Men i dag lader Azure Synapse Analytics dig køre en kureret (undersæt) version af Spark i databasen uden at starte en separat klynge; vi vil gerne se AWS følge op.

Men lad os ikke stoppe der. Serverløs giver også mulighed for at starte arbejdsbelastninger med tredjepartsværktøjer, især med BI-rapportering og visualisering. Redshift har i øjeblikket integrationer med sin egen QuickSight og med populære værktøjer som Tableau, men du skal flytte data og behandle dem i separate klynger.

Så lad os komme til benet. Vi ville elske at se AWS tilføje en “Redshift-native”-tilstand for tredjeparter, der er villige til at køre funktioner som ELT eller visualisering som containeriserede mikrotjenester, der kører direkte inde i Redshift RA3-beregningsknudepunkter, eller hvilke næste generationsknuder, der kommer ud i de kommende år. Til sammenligning leverer Snowflake almindelige API'er, så tredjeparter kan få adgang til Snowflake-data, men dataene behandles i separate klynger. Forestil dig at køre en ELT-tjeneste fra Informatica eller Fivetran som en mikrotjeneste i en Redshift-beregningsknude. AWS kunne så promovere Redshift som det billigste og hurtigste datavarehus i skyen.

AWS re:Invent

AWS opgraderer sit industrigrundspil på re:Invent 2021 AWS CEO afslører ny privat 5G-tjeneste AWS sigter mod mainframes med migrationstjenesten AWS, CrowdStrike og Presidio-partner for ransomware-reduktionskit AWS lancerer kvartet af serverløse, on-demand-løsninger AWS retter sig mod bil- og industrisektorer med FleetWise, TwinMaker Processor-køreplan tilføjer Graviton3, Trainium, nye forekomster IoT RoboRunner sigter mod at administrere robotflåder Amazon | Digital transformation | Robotik | Internet of Things | Innovation | Enterprise Software