Oracles MySQL HeatWave går på Autopilot

0
101

 Tony Baer (dbInsight)

Av Tony Baer (dbInsight) for Big on Data | 10. august 2021 – 16:00 GMT (17:00 BST) | Tema: Big Data Analytics

På slutten av fjoråret tok Oracle MySQL i en ny retning ved å introdusere en cloud database-as-a-service (DBaaS) som la til analyse. Åtte måneder senere introduserer den neste akten en ny “Autopilot” -funksjon i MySQL Database Service med HeatWave som bruker maskinlæring til å juice OLTP- og OLAP -ytelse til databasen. Dette er andre gang Oracle har brukt maskinlæring for å optimalisere driften av databasen, men sammenlignet med Autonomous Database er MySQL HeatWaves Autopilot -evner designet for å introdusere intelligent automatisering til et marked som arbeider med små avdelingsdatabaser som foretrekker åpen kildekode, er kostnadssensitiv, og er mer vant til manuell dreie av knotter.

Spesielt bruker MySQL Autopilot internalisert maskinlæring for å hjelpe brukere med noen oppgaver, og bruker lukket sløyfe-automatisering for å håndtere andre. Den hjelper brukerne ved å komme med anbefalinger om hvordan de klargjør og laster databasen, og implementerer automatisert lukket sløyfe for feilhåndtering/feilgjenoppretting og utførelse av forespørsler. Og med maskinlæring kan Autopilot iterativt forbedre spørringsplaner basert på resultater fra andre lignende, forskjellige søk. Den siste versjonen av MySQL HeatWave øker også klyngestørrelsen til 64, mer enn å doble kapasitetsgrensene til 32-TByte-forekomster, og øker skalerbarheten med 20%.

For eksempel, ved etablering av databasen, utfører Autopilot en smart skanning av tabellen ved hjelp av adaptive prøvetakingsteknikker for å forutsi den mest optimale klyngestørrelsen. Dette er basert på å forutsi mengden minne som vil være nødvendig for å holde bordet og mellomresultatene i minnet. I dette tilfellet gir produksjonen av modellen anbefalinger, inkludert en forklaring på anbefalingen til kunden, som til slutt bestemmer størrelsen på klyngen.

Omvendt, når det gjelder kjøring av spørringer, planlegger modellen automatisk spørringer ved hjelp av logikk for å redusere strid mellom korte og langvarige spørringer som er karakteristiske for blandede arbeidsmengder. Uten slik smart søkeplanlegging kan korte spørringer, som forventes å være interaktive, bli forsinket med lange arbeidsmengder med mindre en databaseadministrator iverksetter tiltak. Med Autopilot kan dette scenariet unngås ettersom det forutsier utførelsestiden for hvert søk, og deretter prioriterer korte spørringer fremfor lange for å redusere eller eliminere ventetiden på interaktive søk.

Andre Autopilot -funksjoner inkluderer optimaliseringer for lasting og avgjørelse av hvor du fysisk skal plassere data. Basert på spørringsmønstre streber algoritmen etter å plassere rader som oftest er knyttet tettere sammen og innenfor de samme, eller tilstøtende partisjoner på den samme noden. Den forutsier deretter forbedringsgraden som brukeren kan forvente ved å sammenligne den foreslåtte optimaliserte plasseringen mot standarden. Å forklare resultatene vil være nyttig for kunder som bestemmer om de skal ta HeatWaves anbefalinger om dataplassering.

En relatert funksjon som påvirker spørringsplanlegging er automatisk forbedring av spørringsplaner der systemet lærer av spørsmål og forbedrer ytelsen til etterfølgende spørsmål som ikke er t nødvendigvis identisk med eksisterende søk.

Til sammenligning har spørringsplanleggere med konvensjonelle relasjonsdatabaser en tendens til å være regelbaserte og optimalisere for kostnader eller ytelse. På sin side tar erfarne DBA vanligvis på seg skjemautformingen for å optimalisere for forventede søk, og legge ut dataene (datalasting for å optimalisere tilgangen). MySQL Autopilot-rutiner automatiserer disse oppgavene ved hjelp av ML, og selskapet hevder at algoritmene kan forbedre ytelsen på benchmarks som TPC-H (vanligvis brukt til analyse) med opptil 40%.

Som vi har notert med Oracle Autonomous Database, markerer databaser et ideelt brukstilfelle for bruk av ML ettersom problemene er godt begrenset, optimaliseringene kan være veldefinerte (f.eks. Optimalisere for ytelse, gjennomstrømning eller kapasitet, etc.) og kan gi en rik tilgang på driftsdata. Autopilot bruker ML -modeller for å optimalisere spørringsplanlegging og ytelse; klyngekapasitet; nettverkskostnader; og parallellisering av lasteoperasjoner.

Andre forbedringer i denne utgivelsen inkluderer kapasitetsøkninger; mens den første utgivelsen av Oracle MySQL HeatWave begrenset klynger til 24 noder (med opptil 12 TBytes med data), øker den nye versjonen det til 64 noder og 32 TBytes. Systemskalering for ende-til-ende-søk er forbedret med omtrent 20%.

Sikkerheten skjerpes også; mens data allerede var kryptert i ro, i den nye versjonen, er de også kryptert på ledningen. Det synkroniserer det med MySQL -tilbud fra Azure og Google Cloud; til sammenligning er kryptering valgfritt med Amazon Aurora.

Som vi bemerket da Oracle først ga ut den nåværende MySQL Database -tjenesten med HeatWave i slutten av fjoråret, var Oracle -tjenesten ikke ment å være en kopi av rivaliserende skytjenester som implementerte kjernen MySQL -databasen med åpen kildekode uten endringer.

Fra det synspunktet er Oracles tjeneste mer sammenlignbar med Amazon Aurora, der AWS la sine egne forbedringer til lagringsmotoren for å få MySQL til å håndtere større transaksjonsbehandlinger med flere terabyte som støtter høy samtidighet. Oracles tjeneste håndterer det, men differensierer seg også ved å legge til analyser med HeatWave in-memory query accelerator. Vi gjennomgikk forskjellene, og tilbyr sammenligninger med Microsoft Azure (som utvidet PostgreSQL til å støtte skjermet transaksjonsbehandling) og, selvfølgelig, Aurora. Og vi sammenlignet de analytiske utvidelsene med andre tilpassede plattformer som Actian Vector.

Mens Amazon Redshift har vært på Oracle's radarskjerm en stund, raskt videresende til nåtiden, er Oracle ikke overraskende rettet mot Snowflake. Med henvisning til tredjeparts benchmarks som den bestilte og publiserte, hevder Oracle at MySQL HeatWave overgår Snowflake; Amazon Redshift; Azure Synapse Analytics; og Google Cloud Platforms BigQuery. I motsetning til de fleste clouddatabaserivaler, har Oracle lenge posisjonert sine databaser for å håndtere blandede transaksjons- og analytiske arbeidsmengder, og da MySQL HeatWave først ble utgitt i slutten av fjoråret, utvidet det det til MySQL. Så sammenlignet med AWS, for eksempel, posisjonerer Oracle MySQL HeatWave som å overskride mulighetene til Amazon Redshift (for analyse); AQUA (analytics query acceleration); Aurora (for transaksjoner); og lim (for ETL).

Når du sammenligner Oracle MySQL HeatWave med andre skydatavarehus eller “data lakehouse” -plattformer, er det fortsatt forskjeller når det gjelder integrering av AutoML eller andre maskinlæringstjenester, og det er ingen mulighet for å kjøre Spark innfødt. Når det er sagt, er det opprinnelige målet organisasjoner som søker å konsolidere MySQL -forekomster og utvide dem til analyse. Vi kunne se slike funksjoner komme til HeatWave nedover veien.

HeatWaves maskinlæringsdrevne Autopilot -funksjoner inviterer naturligvis til sammenligninger med Oracle Autonomous Database. Men hver tjener et veldig annet publikum. Den autonome databasen er bygget på Exadata og er ment som en konsolideringsplattform for virksomheter for Oracle -forekomster som kan treffe petabyte -serien. Som nevnt ovenfor, MySQL -databaser er vanligvis mye mindre, har en tendens til å kjøres på avdelingsnivå, med kunder som leter etter lave kostnader. I de fleste organisasjoner kan det være dusinvis, om ikke hundrevis eller flere MySQL -avdelingsdatabaser som flyter rundt. Det er det søte stedet som Oracle er rettet mot med MySQL Database Service med HeatWave.

Som vi noterte, gitt at andre har slått Oracle til startstreken med sine egne vanilje MySQL -implementeringer, måtte Oracle gjøre noe annerledes. I denne versjonen, ved å legge til maskinlæring, sendes meldingen til utviklere om at MySQL -forekomster i Oracle Cloud Infrastructure også skulle kreve mindre omsorg og fôring og fungere bedre.

Avsløring: Oracle er en dbInsight -klient.

Big Data

Hvor er IBMs hybridsky -lanseringsplate? Syv måter å gjøre sanntidsteknologi reell for organisasjonen Maskinlæring på kanten: TinyML blir stor Hva skjer videre med Cloudera? McDonald's ønsker å 'demokratisere' maskinlæring for alle brukere på tvers av operasjonene

Relaterte emner:

Cloud Digital Transformation Robotics Internet of Things Innovation Enterprise Software

Av Tony Baer (dbInsight) for Big on Data | 10. august 2021 – 16:00 GMT (17:00 BST) | Tema: Big Data Analytics