Big Data 2019: Cloud herdefinieert de database en Machine Learning loopt het

0
93

Nul

In de voorspellingen spel, het is tijd voor ons om bat clean-up eenmaal meer. Volgende Grote op Gegevens bro Andrew Brust roundup van de AI-gerelateerde voorspellingen van een dwarsdoorsnede van de managers uit de sector, nu is het onze beurt. Wij zullen vooral focussen op wat dit alles betekent voor de database, een technologie die na Y2K werd gedacht aan het invoeren zijn klaar staat.

In 2019, bekijken we de AI en de cloud als de grote verstoorders.

Laten we schilderen van de grote foto in de eerste. Bij Ovum, we hebben lang voorspeld dat in 2019, de helft van alle nieuwe Big Data-workloads zou draaien in de cloud. Volgens onze laatste gegevens, dat scenario is al lager uit, met onze enquêtes blijkt ongeveer 45% van de respondenten rapportage waarop ten minste een aantal Big Data workloads in de cloud.

De cloud is de impact op de databases is dat het herdefiniëren van de fundamentele architecturale veronderstellingen over hoe het hen en gegevens te beheren. Op het terrein, het was al over het inrijgen van de naald in de dimensionering van het net genoeg vermogen volledig worden benut, maar niet te veel capaciteit om te activeren van software audits resulteren in overtollige licentie kosten. En voor Big Data, het was al over het brengen van het berekenen van de gegevens, omdat de netwerkbelasting van het verplaatsen van al die terabytes werd niet beschouwd als uiterst rationeel.

Voer de cloud, commodity-infrastructuur, het goedkoper maken van de opslag, sneller netwerk verbindt, en de meeste van alle, vrijwel onbeperkte schaal, en voor database-leveranciers, het was terug naar de tekentafel, zoals het scheiden van opslag berekenen. Voeg wat olie op het vuur: onze overtuiging dat de beste manier te realiseren waarde van de cloud-database is de implementatie door middel van beheerde Database-as-a-Service (DBaaS) waar patches, upgrades, back-ups, failover, en het inrichten en behandeld door de cloud provider, niet de DBA. En dat stelt ons voor onze eerste voorspelling, die door de manier, gebeurt buzzword-compliant.

Zelf rijden databases met behulp ML zal zich vermenigvuldigen

Cloud database aanbieders zullen gelden machine learning (ML) hun DBaaS aanbod self-running. Iets meer dan een jaar geleden, Oracle schopte de deur open, het eerste met een Autonome Data Warehouse 18c, gevolgd ongeveer zes maanden later met de Autonome Transactie Database 18c. Don ‘ t try this at home, Oracle biedt alleen de autonome database in de openbare cloud, waar het, niet de doeldatabase beheert, controleert de omgeving.

Het toepassen van ML naar database-bewerking is een no-brainer om verschillende redenen. Eerste -, database-operaties genereren enorme hoeveelheden van log-gegevens voor het voeden van de modellen. Ten tweede, database-bewerking (vooral in een managed cloud service) is een goed begrensd probleem dat zich verzet drift of scope creep. Tot slot, het beenwerk dat ML automatiseert, zoals het configureren van een database voor verschillende patronen laden, of het optimaliseren van query ‘ s, is het werk dat voor de DBA, geen toegevoegde waarde.

Niet verrassend, de komst van de autonome databases ontstaan grote angst onder de dba ‘ s om de beveiliging van hun taken. Zoals we reeds in onze Oracle OpenWorld postmortem, de langste lijn die we zagen voor een breakout was het een voor DBA vs. Autonome Database sessie. Zoals we reeds in dat stuk, tenzij hun werkgevers zijn dom, ze hebben nog steeds banen – nog steeds moet dba ‘ s te maken van strategische beslissingen over wat de database zal dekken, het ontwerp van het schema, en het instellen van (en verantwoordelijk voor) het beleid met betrekking tot het draaien en vastzetten van de database.

We verwachten dat in 2019 dat meer cloud-database providers zullen volgen Oracle ‘ s leiden. Gebruikmakend ML uitvoeren van de database zal worden met een standaard selectievakje item voor elke DBaaS aanbieden; wij verwachten ook een paar database aanbieders te onderscheiden van Oracle en toepassen van een aantal van deze concepten naar lokale implementaties.

Serverloze wordt checkbox optie

We verwachten ook dat serverloze computing, die voor het eerst werd geïntroduceerd met AWS Lambda te vereenvoudigen en de ontwikkeling van de applicatie door het elimineren van de noodzaak om de bepaling servers met autoscaling, zal het steeds wijdverbreide met cloud DBaaS diensten. In dit scenario, dba ‘ s opgeven bovenste en lagere drempels en vervolgens de database autoscales. Voorbeelden zijn Amazon DynamoDB, waar serverloze is de kern van het ontwerp, en Amazon Aurora, waar serverloze werd onlangs geïntroduceerd als een optie voor toepassingen waar spikes zijn zeldzaam of moeilijk te voorspellen. Google Cloud Firestore is ook serverloze; over het afgelopen jaar, MongoDB introduceerde de Steek serverloze aanbieden voor de Atlas cloud service.

Serverloze is niet voor alle use cases; bijvoorbeeld, als je laadt voorspelbaar of stabiel is, zal het voordeliger zijn om reserve capaciteit. Toch, de vraag van ontwikkelaars maakt serverloze een optie voor alle cloud operationele databases in 2019.

Gedistribueerde databases: Schrijft voor respect

Een andere innovatie was haalbaar is met de cloud is de gedistribueerde database. Dit jaar zien we de gedistribueerde database maken schrijft eerste klas burgers op gelijke voet met de leest.

Laten we het uitleggen. Gedistribueerde databases niet beginnen met de cloud – vroege voorbeelden opgenomen Clustrix (onlangs overgenomen door MariaDB), Aerospike, en NuoDB op de relationele kant, en NoSQL getrouwen zoals MongoDB, Couchbase, en Apache Cassandra. Van deze spelers, MongoDB is de grote break-out, grotendeels op rekening van de ontwikkelaar vriendelijkheid die gemaakt zijn verspreid virale, hoewel Cassandra heeft gescoord aantal grote Internet-namen zoals Netflix.

Maar de cloud enkele oneerlijke voordelen voor gedistribueerde databases. Ten eerste, het elimineren van de noodzaak voor organisaties om hun eigen datacenters en wide area-backbones. Ten tweede, veel van deze gegevens, zoals logboeken, product catalogi, IoT gegevens, en dus op, al leefde in de cloud. Laatste maar niet de minste, de cloud toegevoegd oneerlijke architectonische voordelen: cloud providers kon native-ingenieur in de automatische replicatie, smart-opslag, en automatische schaling in hun platforms.

Dus, wat heeft dit allemaal te maken hebben met lezen en schrijven prestaties? De meeste gedistribueerde databases gewerkt hebben met master/slave-architecturen met gecentraliseerde master knooppunten voor het plegen schrijft of updates, omgeven door alleen-lezen replica ‘ s die kunnen worden geografisch verdeeld. Dat maakte leest, die kan worden uitgevoerd op een lokale replica, veel sneller dan schrijft.

We zien daar nu al de nieuwe aanpak, zoals een multi-master, waarmee lokale knooppunten worden verklaard schrijven masters voor specifieke transacties of consensus-algoritmen, die polls knooppunten aan te wijzen die het schrijven meester, om te overwinnen van het schrijven van knelpunten op de wereldwijd gedistribueerde databases. Amazon Aurora en DynamoDB, Google Cloud Sleutel; Microsoft Azure Kosmos DB; en Kakkerlak DB al ondersteuning voor deze mogelijkheden (of bieden ze in beta), maar met uitzondering van Cloud Sleutel en Kosmos DB, deze functies worden alleen ondersteund binnen een regio, tussen de regio ‘ s. In 2019, we verwachten dat in meerdere regio ‘ ondersteuning zal groeien vaker voor.

Een gerelateerde ontwikkeling, veroorzaakt door de data privacy reglement, zoals GDPR en lokale mandaten afgedwongen door veel landen waarvoor gegevens om te verblijven in het land van herkomst zal de rol van sharding de database zijn van de lokale of regionale masters. Deze praktijk zal steeds meer gemeengoed worden.

George Anadiotis wordt betuigd: De sterren eindelijk in lijn zijn voor grafische gegevensbestanden

OK, je hebt waarschijnlijk gehoord van meer dan uw vulling van mijn Grote op Gegevens bro George Anadiotis, die is uitgevoerd yeoman plicht het informeren van de markt op de grafiek databases. Heeft hij de diepe duik op kennis grafieken, stelden ons in staat om nieuwe grafiek database spelers, verlicht ons op de grafiek query talen, en waagde het krankzinnige idee dat de grafieken kan vertegenwoordigen op het web als database.

Als Anadiotis ongeveer 18 maanden geleden, “Graph-techniek is goed op de manier van een fringe domein te gaan mainstream.” Goed, terug in het begin 2017, die verklaring was een beetje voorbarig.

De zakelijke problemen die grafiek databases adres zijn vrij eenvoudig. De ontcijfering van de patronen van invloed zijn op de sociale netwerken, zodat toonaangevende merken kunt identificeren en te cultiveren opinieleiders; * in kaart brengen en optimaliseren van de fijne kneepjes van de supply chain-operaties; of het begrip van de verspreiding van cyberdreigingen, dat zijn slechts een paar voorbeelden van echte problemen van de wereld die allemaal één ding gemeen: ze worden gekenmerkt door veel-op-veel-relaties die niet gemakkelijk vertegenwoordigd door relationele databases. De uitdaging is dat, zoals databanken, grafieken onbekend zijn. Zij hadden het voordeel van tientallen jaren van kennis gebouw relationele schema, de eenvoud van sleutel-waarde structuren, of de bestaande kennis van JSON documenten die afkomstig zijn van de JavaScript-gemeenschap. En tot voor kort, grafiek ontbrak consensus normen tegen die een kritische massa vaardigheden kunnen ontwikkelen.

Wat is er veranderd in het afgelopen jaar is een groeiende acceptatie van de facto standaarden, zoals de Apache TinkerPop kader en de bijbehorende Gremlin query taal, die voorziet in een gemeenschappelijk doel voor ontwikkelaars. En we zien de concurrentie van Neo4J en TigerGraph dat zijn de introductie van hun eigen varianten die meer SQL-achtige. En we zien de cloud-giganten betreden het veld, met Amazon Neptune, terwijl Microsoft ‘ s Azure Kosmos DB bevat een grafiek van zijn familie ondersteunde data-modellen. Maar als noodzaak is de moeder van de uitvinding, in 2019, verwachten we dat de Klant 360, IoT toepassingen, en cybersecurity worden de stuurprogramma ‘ s van eisen voor grafische gegevensbestanden, die zijn nu toegankelijker dan ooit.

Verwante Onderwerpen:

Cloud

Digitale Transformatie

Robotica

Het Internet van Dingen

Innovatie

Enterprise Software

0