DANSK

Oracles MySQL HeatWave kører på Autopilot

134

Af Tony Baer (dbInsight) for Big on Data | 10. august 2021 – 16:00 GMT (17:00 BST) | Emne: Big Data Analytics

I slutningen af sidste år tog Oracle MySQL i en ny retning ved at introducere en cloud-database-as-a-service (DBaaS), der tilføjede analyser. Otte måneder senere introducerer den næste akt en ny “Autopilot” -funktion til sin MySQL Database Service med HeatWave, der anvender maskinlæring til at juice OLTP- og OLAP -ydeevne i databasen. Dette er anden gang, at Oracle anvender maskinlæring til at optimere databasens drift, men sammenlignet med den autonome database er MySQL HeatWaves Autopilot -funktioner designet til at introducere intelligent automatisering til et marked, der arbejder med små afdelingsdatabaser, der foretrækker open source, er omkostningsfølsom og er mere vant til manuel drejning af knapper.

Specifikt bruger MySQL Autopilot internaliseret maskinlæring til at hjælpe brugerne med nogle opgaver og anvender lukket kredsløbsautomatisering til at håndtere andre. Det hjælper brugere ved at fremsætte anbefalinger til, hvordan de kan tilvejebringe og indlæse databasen, og implementerer automatiseret lukket kredsløb til fejlhåndtering/fejlgendannelse og forespørgselskørsel. Og med maskinlæring kan Autopilot iterativt forbedre forespørgselsplaner baseret på resultater fra andre lignende, forskellige forespørgsler. Den seneste udgivelse af MySQL HeatWave øger også klyngestørrelsen til 64, mere end fordobling af kapacitetsgrænser til 32-TByte-forekomster og øger skalerbarheden med 20%.

For eksempel, ved klargøring af databasen, udfører Autopilot en smart scanning af tabellen ved hjælp af adaptive samplingsteknikker til at forudsige den mest optimale klyngestørrelse. Dette er baseret på at forudsige mængden af hukommelse, der vil være nødvendig for at holde bordet og de mellemliggende resultater i hukommelsen. I dette tilfælde fremsender output fra modellen anbefalinger, herunder en forklaring på anbefalingen til kunden, som i sidste ende beslutter om klyngestørrelse.

Omvendt, i tilfælde af forespørgselsudførelse, planlægger modellen automatisk forespørgsler ved hjælp af logik for at reducere strid mellem kort- og langvarige forespørgsler, der er karakteristiske for blandede arbejdsbyrder. Uden en sådan smart forespørgselsplanlægning kan korte forespørgsler, som forventes at være interaktive, blive forsinket med lange arbejdsbyrder, medmindre en databaseadministrator tager handling. Med Autopilot kan dette scenario undgås, da det forudsiger udførelsestiden for hver forespørgsel og derefter prioriterer korte forespørgsler frem for lange for at reducere eller eliminere ventetiden på interaktive forespørgsler.

Andre Autopilot -funktioner inkluderer optimeringer til indlæsning og beslutning om, hvor data fysisk skal placeres. Baseret på forespørgselsmønstre stræber algoritmen efter at placere rækker, der hyppigst er forbundet tættere sammen og inden for samme eller tilstødende partitioner på den samme knude. Derefter forudsiger den grad af forbedring, som brugeren kan forvente ved at sammenligne den foreslåede optimerede placering vs. Forklaring af resultaterne vil være nyttig for kunder, der beslutter, om de vil tage HeatWaves anbefalinger om dataplacering.

En relateret funktion, der påvirker forespørgselsplanlægning, er automatisk forespørgselsplanforbedring, hvor systemet lærer af forespørgsler og forbedrer ydeevnen for efterfølgende forespørgsler, der ikke er t nødvendigvis identisk med eksisterende forespørgsler.

Til sammenligning har forespørgselsplanlæggere med konventionelle relationsdatabaser tendens til at være regelbaserede og optimere til omkostninger eller ydeevne. Til gengæld påtager erfarne DBA'er sig typisk opgaven med skemadesign at optimere til forventede forespørgsler og udlægge data (dataindlæsning for at optimere adgangen). MySQL Autopilot-rutiner automatiserer disse opgaver ved hjælp af ML, og virksomheden hævder, at dens algoritmer kan forbedre ydeevnen på benchmarks som TPC-H (typisk brugt til analyse) med op til 40%.

Som vi har bemærket med Oracle Autonomous Database, markerer databaser en ideel anvendelse til anvendelse af ML, da problemerne er velbegrænsede, optimeringerne kan være veldefinerede (f.eks. Optimere til ydeevne, gennemstrømning eller kapacitet osv.) Og kan levere en rig forsyning af driftsdata. Autopilot anvender ML -modeller til optimering af forespørgselsplanlægning og ydeevne; klyngekapacitet; overhead netværk; og parallelisering af lastoperationer.

Andre forbedringer i denne udgivelse inkluderer kapacitetsforøgelser; mens den første udgivelse af Oracle MySQL HeatWave begrænsede klynger til 24 noder (indeholdende op til 12 TBytes data), øger den nye udgivelse det til 64 noder og 32 TBytes. Systemskalering for ende-til-ende-forespørgsler er blevet forbedret med omkring 20%.

Sikkerheden skærpes også; mens data allerede var krypteret i hvile, i den nye version, er de også krypteret på ledningen. Det synkroniserer det med MySQL -tilbud fra Azure og Google Cloud; til sammenligning er kryptering valgfri med Amazon Aurora.

Som vi bemærkede, da Oracle første gang udgav den nuværende MySQL Database Service med HeatWave i slutningen af sidste år, var Oracle -tjenesten ikke beregnet til at være en kopi af rivaliserende skytjenester, der implementerede core open source MySQL -databasen uden ændringer.

Fra dette synspunkt er Oracles service mere sammenlignelig med Amazon Aurora, hvor AWS tilføjede sine egne forbedringer til lagermotoren for at få MySQL til at håndtere større, multi-terabyte transaktionsbehandlingsimplementeringer, der understøtter høj samtidighed. Oracles service håndterer det, men adskiller sig også ved at tilføje analyser med forespørgselacceleratoren HeatWave i hukommelsen. Vi gennemgik forskellene og tilbød sammenligninger med Microsoft Azure (som udvidede PostgreSQL til at understøtte sharded transaktionsbehandling) og naturligvis Aurora. Og vi sammenlignede de analytiske udvidelser med andre tilpassede platforme, f.eks. Actian Vector.

Mens Amazon Redshift har været på Oracle's radarskærm i nogen tid, hurtigt frem til nutiden, er Oracle ikke overraskende målrettet mod Snowflake. Med henvisning til tredjeparts benchmarks, som det bestilte og udgav, hævder Oracle, at MySQL HeatWave overgår Snowflake; Amazon Redshift; Azure Synapse Analytics; og Google Cloud Platforms BigQuery. I modsætning til de fleste clouddatabaserivaler har Oracle længe positioneret sine databaser til at håndtere blandede transaktions- og analytiske arbejdsbyrder, og da MySQL HeatWave først blev frigivet i slutningen af sidste år, udvidede det det til MySQL. Så sammenlignet med AWS, f.eks., Placerer Oracle MySQL HeatWave som overskridende Amazon Redshifts muligheder (til analyse); AQUA (analyseforespørgselacceleration); Aurora (til transaktioner); og lim (til ETL).

Når man sammenligner Oracle MySQL HeatWave med andre clouddatalagre eller “data lakehouse” -platforme, er der stadig forskelle med hensyn til integration af AutoML eller andre machine learning -tjenester, og der er ingen mulighed for at køre Spark indbygget. Når det er sagt, er det oprindelige mål organisationer, der søger at konsolidere deres MySQL -forekomster og udvide dem til analyse. Vi kunne se sådanne funktioner komme til HeatWave nede ad vejen.

HeatWaves maskinlæringsdrevne Autopilot -funktioner inviterer naturligvis til sammenligninger med Oracle Autonomous Database. Men hver tjener et meget forskelligt publikum. Den autonome database er bygget på Exadata og er beregnet som en virksomhedskonsolideringsplatform for Oracle -forekomster, der kan ramme petabyte -området. Som nævnt ovenfor er MySQL -databaser typisk meget mindre, har en tendens til at blive kørt på afdelingsniveau med kunder, der leder efter lave omkostninger. I de fleste organisationer kan der være snesevis, hvis ikke hundredvis eller flere MySQL -afdelingsdatabaser, der flyder rundt. Det er det søde sted, som Oracle er målrettet mod med MySQL Database Service med HeatWave.

Som vi bemærkede, da andre har slået Oracle til startstregen med deres egne vanilje MySQL -implementeringer, måtte Oracle gøre noget anderledes. I denne udgivelse sender tilføjelse af maskinlæring beskeden til udviklere om, at deres MySQL -instanser på Oracle Cloud Infrastructure også skal kræve mindre pleje og fodring og fungere bedre.

Oplysning: Oracle er en dbInsight -klient.

Big Data

Hvor er IBMs hybride cloud -startplade? Syv måder at gøre realtidsteknologi til virkelighed for din organisation Maskinlæring på kanten: TinyML bliver stor Hvad sker der med Cloudera? McDonald's ønsker at 'demokratisere' maskinlæring for alle brugere på tværs af sine aktiviteter

Relaterede emner:

Cloud Digital Transformation Robotics Internet of Things Innovation Enterprise Software

Af Tony Baer (dbInsight) for Big on Data | 10. august 2021 – 16:00 GMT (17:00 BST) | Emne: Big Data Analytics

Big Data

Relaterede emner:

LEAVE A REPLY