Serverlös vid re:Invent: Vart ska Amazon Redshift ta vägen?

0
196

Tony Baer (dbInsight)

Av Tony Baer (dbInsight) för Big on Data | 6 december 2021 | Ämne: Big Data

En viktig höjdpunkt från förra veckans re:Invent var utvidgningen av serverlös datoranvändning till en mängd AWS-analystjänster, inklusive Amazon EMR, Kinesis Data Streams, MSK (Managed Service for Kafka) och Redshift. För molnanalys var AWS inte först med att erbjuda serverlösa alternativ, eftersom Google Cloud BigQuery och Azure Synapse Analytics länge har erbjudit serverlösa alternativ (däremot är Snowflakes fortfarande i förhandsvisning).

Serverlösa var inte det enda ny funktion som tillkännagavs förra veckan. AWS tillkännagav också förhandsvisningen av automatiserade materialiserade vyer som behandlar skapandet av dessa vyer ungefär som kostnadsbaserade frågeoptimerare: den genererar automatiskt vyerna baserat på data hot spots. Ändå grep serverlöst rampljuset.

AWS förbättrar sitt branschspel vid re:Invent 2021

Medan AWS serverlösa meddelanden kan ses som att hänga med Joneses, när det gäller Amazon Redshift, är det en del av en större berättelse om att datalagringstjänsten inte bara kommer ikapp, utan kommer i position för att potentiellt kringgå sina rivaler.

< p>För att sammanfatta, Amazon Redshift har länge varit känt mer som en marknad snarare än en teknikledare.

När AWS lanserade Redshift redan 2013 var det en av de första molndatalagertjänsterna. Från och med teknik som förvärvats från ParAccel, tjänade AWS men betalade också priset för att vara bland de första på marknaden. Dess tidiga inträde, tillsammans med portföljen av andra AWS-analystjänster, gjorde det möjligt för Redshift att skapa en stor kundlista med mer än tiotusentals kunder idag.

AWS klaffade den förvärvade ParAccel-teknologin. Men från början följde den en konventionell datalagerarkitektur med lokalt ansluten lagring. Däremot var Google Cloud BigQuery, som lanserades redan 2010, banbrytande för det molnbaserade datalagret. Inte desto mindre var det lanseringen av Snowflake 2014 som verkligen satte det elastiska molndatalagret på kartan.

För förra veckans serverlösa tillkännagivande var nyckelutvecklingen lanseringen av RA3-instanser redan 2019. De gav den länge eftersökta elasticiteten med separation av dator och lagring och banade väg för serverlös. Som det visar sig är RA3 transformationen som också gjorde det möjligt för Redshift att göra mycket mer. Tidigare i år släppte AWS Advanced Query Accelerator (AQUA) för Amazon Redshift som vi då karakteriserade som ett “generationsskifte” som utnyttjade elasticiteten i RA3-instanserna. Det var inriktat på arbetsbelastningar för “nära-linje”-data som sitter på distans på Amazon Redshift Managed Storage, lagring av het data i SSD samtidigt som Nitro-hypervisorn och FPGA:er används för att påskynda bearbetningen av svalare data som sitter på S3.

För övrigt , i vårt inlägg förra våren satte vi serverless på vår önskelista för vad vi ville se härnäst. En gång i en blå måne får vi det ibland rätt.

Men det finns mer. Eftersom RA3-instanser samlar mycket av datan i S3, banade det vägen för datadelning, som ursprungligen släpptes på våren för kunder med flera AWS-konton. Vid re:Invent förra veckan utökades den möjligheten till flera regioner. Återigen, AWS var inte först på marknaden. Till exempel har Snowflake främjat olika former av datadelning sedan det började prata Data Sharehouse 2017 (de använder inte längre den termen). AWS lanserade en datamarknadsplats (kallad Amazon Data Exchange) för flera år sedan, men utökade den precis till Redshift.

Låt oss göra ett par ansvarsfriskrivningar. Först av allt, blanda inte ihop datadelning med federerad fråga. Redshift kan fjärrsöka data som finns i RDS- och Aurora-databaser för MySQL och PostgreSQL, och via Redshift Spectrum, till EMR och S3. Men det är ganska likt vad Google redan erbjuder med BigQuery. För det andra, tro inte att AWS överger provisionerade instanser – det kommer att fortsätta erbjuda dem för Redshift också eftersom det finns kunder som föredrar nivåfakturering. Google fick så småningom reda på det när de sedan introducerade schablonmässiga slots för BigQuery.

Med molnbaserad arkitektur och serverlöst stöd har AWS några möjligheter att ta några första. Med molnbaserad serverlös arkitektur kan AWS flytta mer analytisk och AI-bearbetning i databasen.

Men maskininlärning i databasen har redan blivit tabellinsatser för molndatalager. AWS gör det redan med Redshift ML, där du kan använda SQL-kommandon för att trigga utvecklingsmodeller i SageMaker, och sedan ta med modellerna i databasen som en form av användardefinierad funktion (UDF) för att köra tränings- och/eller slutledningsarbetsbelastningar. I sin tur tillhandahåller Google även ML i databasen för BigQuery, men det är begränsat till specifika, utvalda modeller; medan Microsoft tillåter körning av ML-modeller inom Azure Synapse Spark-pooler. Och med Snowpark kan du använda icke-SQL-språk för att pressa ned bearbetning, såsom ML-modeller, som UDF:er direkt in i Snowflake-databasen.

Vår önskelista är att ta Spark direkt till Redshift. Idag skulle du behöva starta ett separat EMR-kluster för att köra Spark (men åtminstone nu kan det också triggas serverlöst också). Naturligtvis finns det inget som hindrar AWS från att bryta ut Spark som en separat serverlös tjänst, precis som Google Cloud nyligen gjorde. Men idag låter Azure Synapse Analytics dig köra en kurerad (delmängd) version av Spark i databasen utan att starta ett separat kluster; vi skulle vilja se AWS följa upp.

Men låt oss inte sluta där. Serverlöst ger också möjlighet att starta arbetsbelastningar med verktyg från tredje part, särskilt med BI-rapportering och visualisering. Redshift har för närvarande integrationer med sin egen QuickSight och med populära verktyg som Tableau, men du måste flytta data och bearbeta den i separata kluster.

Så låt oss sätta igång. Vi skulle gärna se AWS lägga till ett “Redshift-native”-läge för tredje parter som är villiga att köra funktioner som ELT eller visualisering som containeriserade mikrotjänster som körs direkt inuti Redshift RA3-beräkningsnoder, eller vad som helst nästa generations noder som kommer ut under kommande år. Som jämförelse tillhandahåller Snowflake vanliga API:er för tredje part att komma åt Snowflake-data, men data bearbetas i separata kluster. Föreställ dig att köra en ELT-tjänst från Informatica eller Fivetran som en mikrotjänst i en Redshift-beräkningsnod. AWS skulle sedan kunna marknadsföra Redshift som det billigaste, snabbaste datalagret i molnet.

AWS re:Invent

AWS lanserar sitt branschspel på re:Invent 2021 AWS CEO avslöjar nya privata 5G-tjänsten AWS tar sikte på stordatorer med migrationstjänsten AWS, CrowdStrike och Presidio-partnern för ransomware-reduceringskit AWS lanserar en kvartett av serverlösa, on-demand-lösningar AWS riktar sig till bil- och industrisektorer med FleetWise, TwinMaker Processor roadmap lägger till Graviton3, Trainium, nya instanser IoT RoboRunner syftar till att hantera robotflottor Amazon | Digital transformation | Robotik | Internet of Things | Innovation | Företagsprogramvara