Serverløs ved re:Invent: Hvor skal Amazon Redshift gå?

0
153

Tony Baer (dbInsight)

Av Tony Baer (dbInsight) for Big on Data | 6. desember 2021 | Emne: Big Data

Et sentralt høydepunkt fra forrige ukes re:Invent var utvidelsen av serverløs databehandling til en rekke AWS-analysetjenester, inkludert Amazon EMR, Kinesis Data Streams, MSK (Managed Service for Kafka) og Redshift. For skyanalyse var AWS ikke den første som tilbyr serverløse alternativer, ettersom Google Cloud BigQuery og Azure Synapse Analytics lenge har tilbudt serverløse alternativer (derimot er Snowflakes fortsatt i forhåndsvisning).

Serverløs var ikke eneste nye funksjonen annonsert forrige uke. AWS kunngjorde også forhåndsvisningen av automatiserte materialiserte visninger som behandler opprettelsen av disse visningene omtrent som kostnadsbaserte spørringsoptimaliserere: den genererer automatisk visningene basert på data-hot spots. Ikke desto mindre tok serverløs rampelyset.

AWS forbedrer sitt bransjespill på re:Invent 2021

Mens AWS sine serverløse kunngjøringer kan sees på som å holde tritt med Joneses, angående Amazon Redshift, er det en del av en større fortelling om at datavarehustjenesten ikke bare fanger opp, men kommer i posisjon til å omgå sine rivaler.

< p>For å oppsummere har Amazon Redshift lenge vært kjent mer som et marked enn en teknologileder.

Da AWS lanserte Redshift tilbake i 2013, var det en av de første skydatavarehustjenestene. Fra og med teknologi anskaffet fra ParAccel, tjente AWS, men betalte også prisen for å være blant de første på markedet. Den tidlige inntredenen, sammen med porteføljen av andre AWS-analysetjenester, gjorde det mulig for Redshift å lage en stor kundeliste med mer enn titusenvis av kunder i dag.

AWS gaffel den oppkjøpte ParAccel-teknologien. Men fra starten fulgte den en konvensjonell datavarehusarkitektur med lokalt tilkoblet lagring. Derimot var Google Cloud BigQuery, lansert tilbake i 2010, banebrytende for det skybaserte datavarehuset. Ikke desto mindre var det lanseringen av Snowflake i 2014 som virkelig satte det elastiske skydatavarehuset på kartet.

For forrige ukes serverløse kunngjøring var nøkkelutviklingen lanseringen av RA3-forekomster tilbake i 2019. De ga den lenge ettersøkte elastisiteten med separasjon av databehandling og lagring og banet vei for serverløs. Som det viser seg, er RA3 transformasjonen som også tillot Redshift å gjøre langt mer. Tidligere i år ga AWS ut Advanced Query Accelerator (AQUA) for Amazon Redshift som vi på den tiden karakteriserte som et “generasjonsskifte” som utnyttet elastisiteten til RA3-forekomstene. Den var rettet mot arbeidsbelastninger for “near-line” data som sitter eksternt på Amazon Redshift Managed Storage, lagring av varme data i SSD mens du bruker Nitro hypervisor og FPGAer for å akselerere behandlingen av kjøligere data som sitter på S3.

Forresten , i vårt innlegg i fjor vår, satte vi serverless på ønskelisten vår for det vi ønsket å se neste gang. En gang i en blå måne får vi av og til rett.

Men det er mer. Fordi RA3-forekomster samler mye av dataene i S3, ryddet det veien for datadeling, som opprinnelig ble utgitt på våren for kunder med flere AWS-kontoer. Ved re:Invent forrige uke ble denne muligheten utvidet til flere regioner. Igjen, AWS var ikke først på markedet. For eksempel har Snowflake fremmet ulike former for datadeling siden det begynte å snakke Data Sharehouse tilbake i 2017 (de bruker ikke lenger det begrepet). AWS lanserte en datamarkedsplass (kalt Amazon Data Exchange) for flere år siden, men utvidet den til Redshift.

La oss ta et par ansvarsfraskrivelser. Først av alt, ikke forveksle datadeling med forent søk. Redshift kan fjernspørre data som sitter i RDS- og Aurora-databaser for MySQL og PostgreSQL, og via Redshift Spectrum, til EMR og S3. Men det er ganske likt det Google allerede tilbyr med BigQuery. For det andre, ikke tro at AWS forlater klargjorte forekomster – det vil fortsette å tilby dem for Redshift også fordi det er kunder som foretrekker nivåfakturering. Google lærte etter hvert det da de senere introduserte flatrate-spor for BigQuery.

Med skybasert arkitektur og serverløs støtte har AWS noen muligheter til å score noen førsteplasser. Med skybasert serverløs arkitektur kan AWS flytte mer analytisk og AI-behandling i databasen.

Men maskinlæring i databasen har allerede blitt bordspill for skydatavarehus. AWS gjør det allerede med Redshift ML, hvor du kan bruke SQL-kommandoer for å trigge utviklingsmodeller i SageMaker, og deretter bringe modellene inn i databasen som en form for brukerdefinert funksjon (UDF) for å kjøre trenings- og/eller inferensarbeidsbelastninger. På sin side tilbyr Google også ML i databasen for BigQuery, men det er begrenset til spesifikke, kuraterte modeller; mens Microsoft tillater kjøring av ML-modeller i Azure Synapse Spark-pooler. Og med Snowpark kan du bruke ikke-SQL-språk for å presse ned prosessering, for eksempel ML-modeller, som UDF-er direkte inn i Snowflake-databasen.

Vår ønskeliste er å bringe Spark direkte inn i Redshift. I dag må du starte en egen EMR-klynge for å kjøre Spark (men i det minste nå kan den også utløses serverløs også). Selvfølgelig er det ingenting som hindrer AWS i å bryte ut Spark som en egen serverløs tjeneste, akkurat som Google Cloud nylig gjorde. Men i dag lar Azure Synapse Analytics deg kjøre en kurert (delsett) versjon av Spark i databasen uten å starte en egen klynge; vi vil gjerne se AWS følge opp.

Men la oss ikke stoppe der. Serverless gir også muligheten til å fyre opp arbeidsbelastninger med tredjepartsverktøy, spesielt med BI-rapportering og visualisering. Redshift har for tiden integrasjoner med sin egen QuickSight og med populære verktøy som Tableau, men du må flytte data og behandle dem i separate klynger.

Så la oss komme i gang. Vi vil gjerne se AWS legge til en “Redshift-native”-modus for tredjeparter som er villige til å kjøre funksjoner som ELT eller visualisering som containeriserte mikrotjenester som kjører direkte inne i Redshift RA3-beregningsnoder, eller hva som helst neste generasjons noder som kommer ut i årene som kommer. Til sammenligning tilbyr Snowflake vanlige APIer for tredjeparter for å få tilgang til Snowflake-data, men dataene behandles i separate klynger. Tenk deg å kjøre en ELT-tjeneste fra Informatica eller Fivetran som en mikrotjeneste i en Redshift-beregningsnode. AWS kan da promotere Redshift som det billigste og raskeste datavarehuset i skyen.

AWS re:Invent

AWS oppgraderer sitt bransjespill på re:Invent 2021 AWS CEO avduker den nye private 5G-tjenesten AWS tar sikte på stormaskiner med migrasjonstjenesten AWS, CrowdStrike og Presidio-partner for ransomware-reduksjonssett AWS lanserer en kvartett av serverløse, on-demand-løsninger AWS retter seg mot bil- og industrisektorer med FleetWise, TwinMaker Processor roadmap legger til Graviton3, Trainium, nye forekomster IoT RoboRunner har som mål å administrere robotflåter Amazon | Digital transformasjon | Robotikk | Internet of Things | Innovasjon | Enterprise Software