Hoewel de cloud geweldig is geweest voor gegevens en analyses – gezien de onbeperkte opslag- en rekencapaciteit – heeft het ook geleid tot een echte achteruitgang in productiviteit voor dataprofessionals. De reden hiervoor is, simpel gezegd, dat de grote cloudproviders talloze dataplatforms op de markt hebben gesmeten en het aan klanten hebben overgelaten om de juiste combinatie van diensten te kiezen en deze vervolgens te integreren. Zeg wat je wilt over de oude garde enterprise-softwaregiganten, maar ze hebben hun klanten veel van de “montage vereist”-ervaring bespaard die de cloud-hyperscalers tegenwoordig opleggen.
Misschien is het dan ook passend dat Gerrit Kazmaier, tot voor kort de op data en analyse gerichte Executive Vice President bij SAP, de nieuwe Vice President & Algemeen directeur, databases, analyses & Kijker. SAP is een ondernemingssoftwarebedrijf als er ooit een was. En of er een causaal fenomeen in het spel is, of dat het gewoon toevallig is, Kazmaier informeerde ZDNet over een aantal nieuwe mogelijkheden, die vandaag werden aangekondigd op Google's Cloud Next '21 digitale evenement, die bedrijfssoftware-achtige “turnkey” operatie naar Het dataplatform van Google Cloud.
Op het hoekpunt van AI en analyse
De eerste grote onthulling van Google Cloud is een nieuw aanbod binnen zijn Vertex AI-service genaamd Vertex AI Workbench. De Workbench is in wezen een beheerde notebookervaring die dient als een IDE (geïntegreerde ontwikkelomgeving) voor machine learning en AI-werk. Het verbindt de kerncomponenten van Vertex AI (zoals de trainings- en voorspellingsservices) samen met de belangrijkste componenten van het dataplatform zoals BigQuery, Dataproc en Dataplex.
Dit is het soort integratie dat grotendeels ontbrak in cloud-analyseomgevingen en door dit allemaal samen te voegen, helpen datawetenschappers, machine learning-engineers en data-engineers om te voorkomen dat ze van versnelling moeten veranderen en hun gedachten kwijtraken en van service naar service moeten springen. Het openen van de gebruikersinterface van meerdere services in verschillende browsertabbladen is geen integratie; het beschikbaar stellen van een reeks diensten in de context van een andere, complementaire is.
Omni, aanwezig
Een andere grote aankondiging van Google Cloud vandaag is de algemene beschikbaarheid (GA) van BigQuery Omni, waarmee BigQuery-gebruikers toegang kunnen krijgen tot gegevens die ze hebben in Amazon Web Services (AWS) of Microsoft Azure. Dit wordt bereikt door instanties van BigQuery in die concurrerende clouds uit te voeren, de zoekopdrachten daar uit te voeren en de resultaten terug te sturen naar de Google Cloud-thuisbasis. Ik schreef in detail over Omni toen het in juli 2020 als preview werd gelanceerd.
Lees ook: Google BigQuery Omni verbindt klanten met gegevens in AWS en Azure
Kazmaier vertelde ZDNet dat klanten, waaronder Wayfair, Electronic Arts en Johnson & Johnson gebruikt BigQuery Omni met groot voordeel. Het is duidelijk, uit deze en andere aankondigingen, dat BigQuery centraal staat in de “datacloud”-strategie van Google. Het bieden van BigQuery-toegang tot gegevens die zijn opgeslagen in andere clouds is een must voor Google, en GA of Omni is een belangrijke mijlpaal.
Lees ook:
Inhalen met Google BigQuery
Google brengt BigQuery naar nieuwe geografische gebieden, brengt geospatiale mogelijkheden in bèta
BigQuery van Google wordt openbaar
Up met Spark, down met servers
De volgende aankondiging is er een die zeer complementair is aan de andere: een automatisch schalende, serverloze implementatie van Apache Spark, Spark op Google Cloud genaamd, beschikbaar als preview-service. Spark is een alomtegenwoordige commodity-omgeving geworden in de hele branche voor allerlei soorten analyses, data-engineering en machine learning-workloads. Ja, cloudproviders hebben zelf serverloze Spark-services gebouwd; gegevensstromen op Azure Data Factory worden bijvoorbeeld uitgevoerd op Spark-clusters die klanten nooit zelf hoeven in te richten en code die is gegenereerd door Amazon Glue doet hetzelfde. Maar het gebruik van Spark om een bepaalde stap in de meeste data- en AI-pipelines uit te voeren, vereist de expliciete inrichting van een Spark-cluster en het omgaan met de latentie die nodig is om het cluster te laten draaien.
Lees ook: Azure Data Factory v2: praktisch overzicht
Met de serverloze Spark op Google Cloud, net als met BigQuery zelf, dienen klanten hun workloads gewoon in voor uitvoering en Google Cloud zorgt voor de rest, voert de taken uit en valt de klant niet lastig met het formaat of zelfs nadenken over een discrete Spark-cluster. De service wordt geïntegreerd in – je raadt het al – BigQuery, Dataproc, Dataplex en Vertex AI, zodat gebruikers van deze services Spark kunnen gebruiken zonder de last van infrastructuurvoorziening en -beheer.
Of Cloud (Spanner) ) en (Google) Earth
Volgende: Google heeft een PostgreSQL-interface geïmplementeerd bovenop Cloud Spanner, de geografisch verspreide relationele databaseservice. Hoewel het geen implementatie van Postgres zelf is (iets dat beschikbaar is op Cloud SQL), staat dit aanbod code toe die het SQL-dialect en draadprotocol van Postgres gebruikt om op Spanner te werken. Vergelijk dit aanbod met de Postgres-interface op de Aurora-databaseservice van AWS of Azure Database for PostgreSQL Hyperscale. In beide gevallen zijn, net als bij de Spanner Postgres-interface, in de cloud gehoste, horizontaal geschaalde databases beschikbaar voor mensen met Postgres-vaardigheden. Het Spanner Postgres-aanbod is beschikbaar als preview-versie.
Lees ook:
Google's Cloud Spanner: hoe werkt het?
Google onthult Spanner, de databasetechnologie die de hele planeet kan overspannen
En hier is nog wat meer integratie: 50+ petabyte aan Google Earth-gegevens beschikbaar voor gebruikers van BigQuery, de ML-technologieën van Google Cloud en Google Maps. De service, Google Earth Engine genaamd, wordt gelanceerd in preview
Kijk hier
Mocht je het vergeten zijn, Google Cloud is nu de eigenaar van Looker. Heck, de Looker-naam staat zelfs in de titel van Kazmaier. En hoewel, ja, Looker op zich een BI-front-end is, lijkt het erop dat Google evenveel waarde ziet in de LookML-modelleringstaal, waarmee Looker semantische modellen kan definiëren waarmee gegevens gemakkelijker door BI-gebruikers kunnen worden geanalyseerd. Daarom wordt de Connected Sheets-technologie van Google, waarmee gebruikers van Google Spreadsheets gegevens kunnen opvragen in BigQuery, compatibel met LookML, iets waarvan Google Cloud zegt dat het eind dit jaar in preview-vorm zal verschijnen.
Lees ook:
Google koopt Looker voor $ 2,6 miljard, wil zijn analysebereik uitbreiden, meerdere clouds ondersteunenLooker 7, eerste grote release in het Google-tijdperk van het bedrijf, aangekondigd
Looker krijgt Google-integratiemogelijkheden in release na overname
Naast Connected Sheets kondigt Google echter een samenwerking aan met Salesforce's Tableau, dat binnenkort dat zeer populaire business intelligence-platform ook via LookML toegang zal geven tot semantische modellen van Looker. Terwijl andere spelers in de sector, zoals Databricks, Informatica, Trifacta, Fivetran en Collibra, ook in de schijnwerpers staan bij Cloud Next, is deze samenwerking met Tableau ongekend en zeer interessant. Het laat zien dat Google Cloud weet dat het geen dominante datacloudprovider kan zijn zonder de hulp in te roepen van partners uit de hele analysewereld. Het toont ook nogmaals aan dat Google de overname van Looker evenzeer nastreefde voor Looker's back-end datamodelleringscapaciteiten als voor zijn front-end datavisualisatie- en dashboardmogelijkheden.
Lees ook: Salesforce-Tableau, andere BI-deals stromen; het aantal is nu vijf op een rij
Alles aan elkaar knopen?
Klagen over het relatieve gebrek aan integratie van cloudservices dat tot nu toe bestond, is niet alleen een probleem. Voor klanten is het een hoop werk om de integratie uit te voeren en door alle complexiteit te hacken, en een hoop risico's en kosten met zich mee te brengen. Microsoft heeft het integratievacuüm aangepakt met Azure Synapse Analytics en je zou kunnen stellen dat AWS dit heeft geprobeerd met zijn Lake Formation-aanbod.
Lees ook: Azure Synapse Analytics combineert datawarehouse, lake en pijpleidingen
Met de aankondigingen van vandaag van Google Cloud erkennen alle drie de grote cloudproviders hoe cruciaal het is om hun services te integreren. Dat is goed, maar ze hebben alle drie nog een lange weg te gaan voordat hun data- en analyse-aanbod gebruiksvriendelijk, volledig gerationaliseerd en naadloos geïntegreerd is. Uiteindelijk zullen de hyperscalers echter met recht kunnen zeggen dat de cloud de nieuwe enterprise-stack is.
Google Cloud
Google Cloud, General Mills breidt cloud uit, analysepartnerschap Google lanceert serverloze Spark, AI-workbench, nieuw gegevensaanbod Google creëert tools om CO2-voetafdruk en emissiegegevens bij te houden Ook: Workspace-updates, Functies voor Jira-integratie, encryptie en bestandsclassificatie Google Cloud bundelt krachten met Cybereason voor XDR-platform Google Cloud introduceert nieuwe opslagproducten voor betere gegevensbescherming
Verwante onderwerpen:
Cloud Digital Transformation Robotics Internet of Things Innovatie Enterprise Software