Google lanserar serverless Spark, AI -arbetsbänk, nya dataanbud på Cloud Next

0
133

 Andrew Brust

Av Andrew Brust för Big on Data | 12 oktober 2021 | Ämne: Big Data Analytics

Medan molnet har varit bra för data och analys – med tanke på dess gränslösa lagring och beräkningskapacitet – har det också orsakat en verklig nedgång i produktiviteten för dataproffs. Anledningen till detta, enkelt uttryckt, är att de stora molnleverantörerna har kastat många dataplattformar på marknaden och lämnat det åt kunderna att välja rätt kombination av tjänster och sedan integrera dem. Säg vad du vill om de gamla vaktföretagens mjukvaror, men de sparade sina kunder mycket av den “monteringskrav” -upplevelse som molnhyppkalarna ställer inför idag.

Kanske är det därför lämpligt att Gerrit Kazmaier, tills nyligen den data- och analysfokuserade Executive Vice President på SAP, är Google Clouds nyligen präglade Vice President & amp; General Manager, Databaser, Analytics & amp; Snygging. SAP är ett företagsprogramvaruföretag om det någonsin funnits ett sådant. Och om det finns ett kausalt fenomen som spelar in, eller om det bara är av en slump apropos, Kazmaier informerade ZDNet om ett antal nya funktioner, som tillkännagavs idag på Googles Cloud Next '21 digitala evenemang, som ger företagets “nyckelfärdiga” operation till företag Google Clouds dataplattform.

På toppen av AI och analys

Den första stora avslöjningen från Google Cloud är ett nytt erbjudande inom Vertex AI -tjänsten som heter Vertex AI Workbench. Workbench är i huvudsak en hanterad notebook -upplevelse som fungerar som en IDE (integrerad utvecklingsmiljö) för maskininlärning och AI -arbete. Det knyter samman Vertex AI: s kärnkomponenter (som dess utbildning och förutsägelsestjänster) tillsammans med viktiga komponenter i dataplattformen som BigQuery, Dataproc och Dataplex.

Det här är den typ av integration som till stor del har saknats i molnanalysmiljöer och att lägga ihop allt hjälper datavetenskapare, maskininlärningsingenjörer och dataingenjörer att slippa byta växel och tappa tankegångar och hoppa från tjänst till tjänst. Att ha flera tjänsters gränssnitt öppna i olika webbläsarflikar är inte integration; att göra en rad tjänster tillgängliga inom ramen för en annan, kompletterande är.

Omni, närvarande

En annan av Google Clouds stora meddelanden idag är den allmänna tillgängligheten (GA) för BigQuery Omni, vilket gör att BigQuery -användare kan få tillgång till data de har i Amazon Web Services (AWS) eller Microsoft Azure. Detta uppnås genom att köra instanser av BigQuery i de konkurrerande molnen, utföra frågorna där och lägga resultaten tillbaka till Google Cloud -hemmabasen. Jag skrev i detalj om Omni när den lanserades i förhandsvisning i juli 2020.

Läs också: Google BigQuery Omni ansluter kunder till data i AWS och Azure

< p>Kazmaier berättade för ZDNet att kunder inklusive Electronic Arts och Johnson & amp; Johnson har använt BigQuery Omni till stor fördel. Det är klart, form detta och andra tillkännagivanden, att BigQuery är central för Googles “data moln” strategi. Att ge BigQuery åtkomst till data som lagras i andra moln är ett måste för Google, och GA för Omni är en viktig milstolpe.

Läs också:

Att komma ikapp med Google BigQuery
Google tar BigQuery till nya geografier, ger geospatiala funktioner till beta
Googles BigQuery blir offentligt

Upp med Spark, ner med servrar

Nästa tillkännagivande är ett som är mycket gratis för de andra: en autoskalning, serverlös implementering av Apache Spark, kallad Spark på Google Cloud, tillgänglig som förhandsgranskningstjänst. Spark har blivit en allestädes närvarande varumiljö i branschen för alla typer av analyser, datateknik och maskininlärning. Ja, molnleverantörer har byggt serverlösa Spark -tjänster för sig själva; till exempel dataflöden på Azure Data Factory körs på Spark -kluster som kunder aldrig behöver tillhandahålla själva och kod som genereras av Amazon Glue gör likaså. Men att använda Spark för att utföra ett visst steg i de flesta data- och AI -rörledningar har krävt ett uttryckligt tillhandahållande av ett Spark -kluster och hantering av den latens som krävs för att klustret ska snurra upp.

Läs också: Azure Data Factory v2: Praktisk översikt

Med serverless Spark på Google Cloud, ungefär som med BigQuery själv, skickar kunderna helt enkelt in sina arbetsbelastningar för körning och Google Cloud tar hand om resten, utför jobben och stör inte kunden med att behöva storleksanpassa eller ens tänka på en diskret Gnistkluster. Tjänsten kommer att integreras i – du gissade det – BigQuery, Dataproc, Dataplex och Vertex AI så att användare av dessa tjänster kan utnyttja Spark utan att ha bördan av infrastrukturförsörjning och hantering.

Of Cloud (Spanner ) och (Google) Earth

Därefter: Google har implementerat ett PostgreSQL -gränssnitt ovanpå Cloud Spanner, dess geografiskt distribuerade relationsdatabasstjänst. Även om det inte är en implementering av Postgres själv (något som är tillgängligt på Cloud SQL), tillåter detta erbjudande kod som använder Postgres SQL -dialekt och trådprotokoll att fungera på Spanner. Jämför detta erbjudande med Postgres -gränssnittet på AWS 'Aurora -databastjänst eller Azure Database for PostgreSQL Hyperscale. I båda dessa fall, som med gränssnittet Spanner Postgres, är molnbaserade, horisontellt skalade databaser tillgängliga för dem med Postgres-färdigheter. Spanner Postgres -erbjudandet är tillgängligt i förhandsgranskning.

Läs också:

Googles Cloud Spanner: hur staplar det?
Google avslöjar Spanner, databastekniken som kan spänna över planeten

Och här är lite mer integration: 50+ petabyte med Google Earth -data tillgängliga för användare av BigQuery, Google Clouds ML -teknik och Google Maps. Tjänsten, kallad Google Earth Engine, lanseras i förhandsvisning

Looker här

Om du har glömt, äger Google Cloud Looker nu. Fan, Looker -namnet finns till och med i Kazmaiers titel. Och medan, ja, Looker är en BI-front-end i sig, verkar det som om Google ser lika mycket värde i LookML-modelleringsspråket, med vilket Looker kan definiera semantiska modeller som gör data enklare att analysera av BI-användare. För detta ändamål kommer Googles Connected Sheets -teknik, som gör det möjligt för användare av Google Sheets att söka efter data i BigQuery, att bli kompatibel med LookML, något Google Cloud säger att det kommer att släppas i förhandsgranskningsformulär i slutet av detta år.

Läs också:

Google köper Looker för 2,6 miljarder dollar, syftar till att förlänga sin analytiska räckvidd, stödja flera moln Looker 7, första stora utgåvan i företagets Googles era, tillkännagivna
Looker får Googles integrationsmöjligheter i release efter förvärv

Utöver Connected Sheets meddelar dock Google ett partnerskap med Salesforces Tableau som snart också kommer att erbjuda den mycket populära business intelligence -plattformen tillgång till Lookers semantiska modeller, via LookML. Medan andra branschaktörer som Databricks, Informatica, Trifacta, Fivetran och Collibra också kommer att vara spotlight -partners på Cloud Next, är detta partnerskap med Tableau oöverträffat och mycket intressant. Det visar att Google Cloud vet att det inte kan vara en dominerande datormolnleverantör utan att ta hjälp av partners från hela analysvärlden. Det visar också igen att Google eftersträvade Looker-förvärvet lika mycket för Lookers backend-datamodelleringsfunktioner som för dess front-end datavisualisering och instrumentpanel.

Läs också: Salesforce-Tableau , andra BI -erbjudanden flöde; numret är nu fem i rad

Hooking stuff together?

Att bemöta den relativa avsaknaden av integration av molntjänster som har funnits hittills är ingen krångel. För kunderna att göra integrationen och hacka igenom all komplexitet är massor av arbete, som medför massor av risker och kostnader tillsammans med det. Microsoft har tagit upp integrationsvakuumet med Azure Synapse Analytics och, kan man hävda, AWS har försökt göra det med sitt Lake Formation -erbjudande.

Läs också: Azure Synapse Analytics kombinerar datalager, sjö och rörledningar

Med dagens tillkännagivanden från Google Cloud inser alla tre stora molnleverantörerna att det är viktigt att integrera sina tjänster. Det är bra, men alla tre har också en lång väg att gå innan deras data- och analysutbud är enkla att använda, fullt rationaliserade och sömlöst integrerade. Så småningom kommer dock hyperskalarna med legitimitet att kunna säga att molnet är den nya företagsstacken.

Inlägg uppdaterat den 12 oktober kl. 19:03 ET för att ta bort Wayfair från listan över kunder som använder BigQuery Omni. Även om WayFair är en BigQuery -kund har den inte använt Omni.

Google Cloud

Google Cloud, General Mills utökar moln, analyspartnerskap Google lanserar serverless Spark, AI -arbetsbänk, nya dataanbud Google skapar verktyg för att spåra koldioxidavtryck, utsläppsdata Också: Arbetsytans uppdateringar, Jira -integrering, kryptering och filklassificeringsfunktioner Google Cloud går samman med Cybereason för XDR -plattformen Google Cloud lanserar nya lagringsprodukter för bättre dataskydd

Relaterade ämnen:

Cloud Digital Transformation Robotics Internet of Things Innovation Enterprise Software  Andrew Brust

Av Andrew Brust för Big on Data | 12 oktober 2021 | Ämne: Big Data Analytics