Google lancerer serverless Spark, AI -arbejdsbord, nye datatilbud på Cloud Next

0
96

 Andrew Brust

Af Andrew Brust for Big on Data | 12. oktober 2021 | Emne: Big Data Analytics

Selvom skyen har været fantastisk til data og analyse – i betragtning af dens ubegrænsede lagring og beregningskapacitet – har den også forårsaget en reel tilbagegang i produktiviteten for dataprofessionelle. Grunden til dette er ganske enkelt, at de store cloud -udbydere har kastet adskillige dataplatforme på markedet og overladt det til kunderne at vælge den rigtige kombination af tjenester og derefter integrere dem. Sig, hvad du vil om de gamle vagtvirksomheders softwarebemodninger, men de sparede deres kunder meget på den “samling, der kræves” -oplevelse, som skyhyskalerne pålægger i dag.

Måske er det derfor passende, at Gerrit Kazmaier, indtil for nylig den data- og analysefokuserede koncerndirektør i SAP, er Google Clouds nyligt prægede vicepræsident & amp; General Manager, Databaser, Analytics & amp; Looker. SAP er et virksomhedssoftwarefirma, hvis der nogensinde var et. Og uanset om der er et kausalt fænomen i spil, eller hvis det er tilfældigt apropos, orienterede Kazmaier ZDNet om en række nye muligheder, der blev annonceret i dag ved Googles Cloud Next '21 digitale begivenhed, der bringer virksomhedssoftware-stil “nøglefærdig” operation til Google Clouds dataplatform.

På toppen af ​​AI og analyse

Den første store afsløring fra Google Cloud er et nyt tilbud inden for Vertex AI -tjenesten kaldet Vertex AI Workbench. Workbench er i det væsentlige en administreret notebook -oplevelse, der fungerer som et IDE (integreret udviklingsmiljø) til maskinlæring og AI -arbejde. Det binder sammen Vertex AIs kernekomponenter (som dets trænings- og forudsigelsestjenester) sammen med nøglekomponenter i dataplatformen som BigQuery, Dataproc og Dataplex.

Dette er den slags integration, der stort set har manglet i cloudanalysemiljøer, og ved at sætte det hele sammen hjælper datavidenskabsfolk, maskinindlæringsingeniører og dataingeniører med at undgå at skulle skifte gear og miste deres tankegange ved at hoppe fra service til service. At have flere tjenester UI'er åbne i forskellige browserfaner er ikke integration; gør en række tjenester tilgængelige inden for rammerne af en anden, komplementær tjeneste.

Omni, nuværende

En anden af ​​Google Clouds store meddelelser i dag er den generelle tilgængelighed (GA) for BigQuery Omni, som gør det muligt for BigQuery -brugere at få adgang til data, de har i Amazon Web Services (AWS) eller Microsoft Azure. Dette opnås ved at køre forekomster af BigQuery i de konkurrerende skyer, udføre forespørgslerne der og sende resultaterne tilbage til Google Cloud -hjemmebasen. Jeg skrev detaljeret om Omni, da den blev lanceret i preview i juli 2020.

Læs også: Google BigQuery Omni forbinder kunder med data i AWS og Azure

< p>Kazmaier fortalte ZDNet, at kunder, herunder Electronic Arts og Johnson & amp; Johnson har brugt BigQuery Omni til stor fordel. Det er klart, form denne og andre meddelelser, at BigQuery er centralt for Googles “data cloud” -strategi. At give BigQuery adgang til data, der er gemt i andre skyer, er et must-have for Google, og GA for Omni er en vigtig milepæl.

Læs også:

Indhentning af Google BigQuery
Google tager BigQuery til nye geografiske områder, bringer geospatiale muligheder ind i beta
Googles BigQuery bliver offentlig

Op med Spark, ned med servere

Den næste meddelelse er en, der er meget gratis for de andre: en autoskaling, serverløs implementering af Apache Spark, kaldet Spark på Google Cloud, tilgængelig som en forhåndsvisningstjeneste. Spark er blevet et allestedsnærværende råvaremiljø på tværs af branchen for alle former for analyser, datateknik og maskinlæring. Ja, cloud -udbydere har bygget serverløse Spark -tjenester til sig selv; for eksempel datastrømme på Azure Data Factory udfører på Spark -klynger, som kunderne aldrig behøver at klargøre selv, og kode genereret af Amazon Glue gør det samme. Men at bruge Spark til at udføre et bestemt trin i de fleste data- og AI -rørledninger har krævet eksplicit levering af en Spark -klynge og håndtere den latens, der kræves for at klyngen kan dreje op.

Læs også: Azure Data Factory v2: Hands-on oversigt

Med den serverløse Spark på Google Cloud, ligesom med BigQuery selv, sender kunderne simpelthen deres arbejdsbyrde til udførelse, og Google Cloud tager sig af resten, udfører opgaverne og generer ikke kunden med at skulle størrelse eller endda tænke på en diskret Gnistklynge. Tjenesten vil blive integreret i – du gættede det – BigQuery, Dataproc, Dataplex og Vertex AI, så brugerne af disse tjenester kan udnytte Spark uden at have byrden ved infrastrukturudbydelse og -styring.

Of Cloud (Spanner ) og (Google) Earth

Næste op: Google har implementeret en PostgreSQL -grænseflade oven på Cloud Spanner, dens geografisk distribuerede relationsdatabasetjeneste. Selvom det ikke er en implementering af Postgres selv (noget der er tilgængeligt på Cloud SQL), tillader dette tilbud kode, der bruger Postgres 'SQL dialekt og wire -protokol til at fungere på Spanner. Sammenlign dette tilbud med Postgres -grænsefladen på AWS 'Aurora -databasetjeneste eller Azure Database for PostgreSQL Hyperscale. I begge disse tilfælde, som med Spanner Postgres-grænsefladen, er cloud-hostede, vandret skalerede databaser tilgængelige for dem med Postgres-færdigheder. Spanner Postgres -tilbudet er tilgængeligt i forhåndsvisning.

Læs også:

Googles Cloud Spanner: hvordan stabler det?
Google afslører Spanner, databaseteknikken, der kan spænde over planeten

Og her er lidt mere integration: 50+ petabytes af Google Earth -data tilgængelige for brugere af BigQuery, Google Clouds ML -teknologier og Google Maps. Tjenesten, kaldet Google Earth Engine, lanceres i preview

Looker her

Hvis du har glemt det, ejer Google Cloud Looker nu. For helvede, Looker -navnet er endda i Kazmaiers titel. Og selvom, ja, Looker er en BI-front-end i sig selv, ser det ud til, at Google ser lige så meget værdi i LookML-modelleringssproget, hvormed Looker kan definere semantiske modeller, der gør data lettere analyseret af BI-brugere. Til dette formål bliver Googles Connected Sheets -teknologi, der giver brugere af Google Sheets mulighed for at forespørge data i BigQuery, kompatibel med LookML, noget Google Cloud siger, at den vil frigive i preview -form inden udgangen af ​​dette år.

Læs også:

Google køber Looker for 2,6 mia. dollars, har til formål at udvide sin analytiske rækkevidde, understøtte flere skyer Looker 7, første store udgivelse i virksomhedens Google-æra, annonceret
Looker får Google-integrationsfunktioner i frigivelse efter overtagelse

Ud over forbundne ark annoncerer Google imidlertid et partnerskab med Salesforces Tableau, der snart også vil levere den meget populære business intelligence -platform med adgang til Looker -semantiske modeller via LookML. Mens andre brancheaktører som Databricks, Informatica, Trifacta, Fivetran og Collibra også vil være spotlight -partnere hos Cloud Next, er dette partnerskab med Tableau hidtil uset og meget interessant. Det viser, at Google Cloud ved, at det ikke kan være en dominerende data cloud -udbyder uden at få hjælp fra partnere fra hele analyseverdenen. Det viser også igen, at Google forfulgte Looker-opkøbet lige så meget for Lookers backend-datamodelleringsfunktioner som for dets front-end datavisualisering og dashboardfunktioner.

Læs også: Salesforce-Tableau , andre BI -handler flyder; nummeret er nu fem i træk

Hænger ting sammen?

At bemærke den relative mangel på integration af cloud -tjenester, der har eksisteret indtil nu, er ikke bare en klage. For kunderne at foretage integrationen og hacke igennem hele kompleksiteten er masser af arbejde, der medfører masser af risiko og omkostninger sammen med det. Microsoft har taget fat på integrationsvakuumet med Azure Synapse Analytics, og man kan hævde, at AWS har forsøgt at gøre det med sit Lake Formation -tilbud.

Læs også: Azure Synapse Analytics kombinerer datalager, sø og rørledninger

Med dagens meddelelser fra Google Cloud anerkender alle tre store cloud -udbydere, at det er vigtigt at integrere deres tjenester. Det er godt, men alle tre har også en lang vej at gå, før deres data- og analysetilbud er enkle at bruge, fuldt rationaliseret og problemfrit integreret. Til sidst vil hyperskalerne dog med legitimitet kunne sige, at skyen er den nye virksomhedsstak.

Indlæg opdateret den 12. oktober kl. 19:03 ET for at fjerne Wayfair fra listen over kunder, der bruger BigQuery Omni. Selvom WayFair er en BigQuery -kunde, har den ikke vedtaget Omni.

Google Cloud

Google Cloud, General Mills udvider skyen, analysepartnerskab Google lancerer serverless Spark, AI -arbejdsbord, nye datatilbud Google opretter værktøjer til at spore kulstofaftryk, emissionsdata Også: Opdateringer af arbejdsområde, Jira integration, kryptering og filklassificering funktioner Google Cloud går sammen med Cybereason til XDR platform Google Cloud ruller nye lagringsprodukter ud for bedre databeskyttelse

Relaterede emner:

Cloud Digital Transformation Robotics Internet of Things Innovation Enterprise Software  Andrew Brust

Af Andrew Brust for Big on Data | 12. oktober 2021 | Emne: Big Data Analytics