DANSK

Big Data 2019: Cloud omdefinerer database og Machine Learning kører det

104

Nul

I de forudsigelser spil, det er tid for os til at bat-clean-up en gang mere. Følgende Store på Data bro Andrew Brust ‘ s roundup af AI-relaterede forudsigelser fra et tværsnit af industriens ledere, nu er det vores tur. Vi vil fokusere mest på, hvad alt dette betyder, at den database, en teknologi, der efter Y2K var tænkt til at være på vej ind i sin færdige tilstand.

I 2019, har vi vist, AI og skyen som værende den store genfærd.

Lad os male det store billede først. På Ægget, vi har længe forventet, at senest i 2019, at halvdelen af alle nye Big Data arbejdsmængder ville køre i skyen. Ifølge vores seneste data, at scenariet er allerede lejet ud, med vores undersøgelser viser omkring 45% af de adspurgte rapportering kører mindst nogle Store Data workloads i skyen.

Sky ‘ s indvirkning på databaser er, at det er ved at omdefinere den grundlæggende arkitektoniske antagelser om, hvordan til at designe og administrere data. På stedet, det var alt om trådning af nålen i dimensionering lige kapacitet nok til at blive udnyttet fuldt ud, men ikke alt for meget kapacitet til at udløse software revisioner eller resultere i, at overskydende licens gebyrer. Og for Big Data, det var alle om at bringe beregne til data, fordi netværks-overhead på at flytte alle dem, der er terabytes blev ikke anset for særlig rationel.

Indtast cloud, råvare-infrastruktur, billiggørelse af skiudstyr, hurtigere netværk forbinder, og mest af alt, næsten ubegrænset omfang, og for database leverandører, var det tilbage til tegnebrættet, som adskiller opbevaring fra compute. Tilføje brændstof til ilden: vores overbevisning, at den bedste måde at realisere værdi fra cloud-database implementering er gennem lykkedes Database-as-a-Service (DBaaS), hvor patches, opgraderinger, backup, failovers, og provisionering og håndteres af cloud-udbyder, ikke DBA. Og som sætter os op til vores første forudsigelse, som ved den måde, sker for at være buzzword-kompatibel.

Selvkørende databaser ved hjælp af ML vil formere sig

Cloud-database udbydere vil anvende machine learning (ML), for at gøre deres DBaaS tilbud selvkørende. Lidt over et år siden, Oracle sparket døren er åben, først med Autonome Data Warehouse 18c, der blev fulgt på omkring seks måneder senere med Selvstændig Transaktion Database 18c. Prøv ikke dette derhjemme, Oracle tilbyder kun de autonome database i sin public cloud, hvor det ikke DBA, kontrol miljø.

Anvendelse af ML-database operation er en no-brainer for flere grunde. For det første, database operationer generere enorme mængder af log-data for at fodre modeller. For det andet, database drift (især i en managed cloud service) er et afgrænset problem, der modstår drift eller scope creep. Endelig benarbejde, at ML automatiserer, såsom hvordan man konfigurere en database for forskellige belastnings-mønstre, eller hvordan man kan optimere forespørgsler, er arbejde, der, for DBA, ikke tilføje værdi.

Ikke overraskende, fremkomsten af selvstændige databaser skabte stor frygt blandt DBAs som sikkerhed for deres job. Som vi har beskrevet i vores Oracle OpenWorld postmortem, den længste linje, som vi så for nogen breakout var den ene, for DBA vs. Selvstændig Database session. Som vi bemærkede i dette stykke, medmindre deres arbejdsgivere er dumme, de vil stadig have job – du er stadig nødt DBAs til at træffe strategiske beslutninger om, hvad database vil dække, design af skemaet, og set (og være ansvarlige for politikker, der er relateret til løb og sikring af databasen.

Vi forventer, at i 2019, at flere cloud-database udbydere vil følge Oracle ‘ s forspring. Anvender ML til at køre databasen vil blive en standard afkrydsningsfeltet emne til enhver DBaaS tilbyder vi også forvente et par database udbydere til at skelne fra Oracle og anvende nogle af disse koncepter til on-premise installationer.

Serverless bliver afkrydsningsfeltet mulighed

Vi forventer også, at serverless computing, som først blev indført med AWS Lambda for at forenkle anvendelsen udvikling ved at fjerne behovet for at tilvejebringelse servere med autoscaling vil blive mere og mere udbredt med cloud DBaaS tjenester. I dette scenario, DBAs angiv de øvre og nedre tærskler og så databasen autoscales. Som eksempler kan nævnes Amazon DynamoDB, hvor serverless er kernen i design, og Amazon Aurora, hvor serverless for nylig blev indført som en mulighed for applikationer, hvor piggene er sjældne eller svære at forudsige. Google Cloud Firestore er også serverless; i løbet af de seneste år, MongoDB introducerede sin Søm serverless offer for sin Atlas cloud-tjeneste.

Serverless er ikke for alle use cases, for eksempel, hvis din last er forudsigelig eller stabil, det vil være mere økonomisk at reservere kapacitet. Ikke desto mindre, er efterspørgslen fra udviklerne vil gøre serverless en mulighed for alle cloud operationelle databaser i 2019.

Distribuerede databaser: Skriver får respekt

En anden nyskabelse er gjort muligt med de cloud er distribueret database. Dette år, vil vi se den distribuerede database foretage skriver første-klasses borgere på lige fod med de læser.

Lad os forklare. Distribuerede databaser ikke starte med cloud – tidlige eksempler i prisen Clustrix (for nylig overtaget af MariaDB), Aerospike, og NuoDB på den relationelle side, og NoSQL solide gerne MongoDB, Couchbase, og Apache Cassandra. Af disse spillere, MongoDB er blevet big break-out, primært på grund af dets udvikler-venlighed, der gjorde sin sprede virale, selv om Cassandra har fået nogle store Internet-navne som Netflix.

Men sky givet nogle urimelige fordele for distribuerede databaser. For det første eliminerede behovet for IT-organisationer til at oprette deres egne datacentre, og wide area backbones. For det andet, at meget af det data, som træstammer, produktkataloger, IoT-data, og så videre, der allerede boede i skyen. Sidst, men ikke mindst, cloud tilføjet nogle urimelige arkitektoniske fordele: cloud-udbydere kunne indbygget ingeniør i automatiske replikation, smart opbevaring, og automatisk skalering til deres platforme.

Så, hvad betyder alt dette har at gøre med skrive-og læsehastighed? De fleste distribuerede databaser har opereret med master – /slave-arkitekturer med centraliseret master noder for at begå skriver eller opdateringer, der er omgivet af read-only ” kopi, der kunne være geografisk fordelt. Det gjorde læser, som kunne være udført på en lokal kopi, meget hurtigere end de skriver.

Vi ser allerede nu en række nye tiltag, såsom multi-master, som gør det muligt for lokale knudepunkter for at blive erklæret skrive mestre til bestemte transaktioner, eller konsensus algoritmer, at meningsmålinger noder til at udpege den eller skrive mester, til at overvinde skrive flaskehalse på globalt distribuerede databaser. Amazon Aurora og DynamoDB; Google Cloud Spanner; Microsoft Azure Kosmos DB; og Kakerlak DB allerede understøtter disse kapaciteter (eller tilbyde dem i beta), men med undtagelse af Cloud Skruenøgle og Kosmos DB, skal disse funktioner understøttes kun inden for en region, ikke på tværs af regionerne. I 2019, forventer vi, at multi-regionen vil vokse mere og mere almindelige.

En beslægtet udvikling, som er skabt af love om databeskyttelse som GDPR og lokale mandater håndhæves af mange nationer, der kræver data til ophold i oprindelseslandet vil være den rolle, sharding databasen for at få lokale eller regionale mestre. Denne praksis vil blive mere udbredt.

George Anadiotis bliver retfærdiggjort: stjernerne endelig align til graf databaser

OK, har du sikkert hørt mere end din fylde fra min Store på Data bro George Anadiotis, der har udført yeoman pligt til at uddanne markedet på grafen databaser. Han har gjort det dybe dyk på viden grafer, introducerede os til nye graf-database spillere, oplyst os om grafen query sprog, og kom med den vanvittige tanke, at grafer kunne repræsentere internettet som en database.

Som Anadiotis sætte omkring 18 måneder siden, “Graf teknologi er på vej fra en bræmme domæne til at gå mainstream.” Nå, tilbage i begyndelsen af 2017, at erklæringen var en smule for tidligt.

Den forretningsmæssige problemer, som grafen databaser adresse er ganske ligetil. Decifrere de mønstre, der har indflydelse på sociale netværk, så de førende mærker kan identificere og dyrke meningsdannere; kortlægning og optimering af de snørklede af supply chain aktiviteter; eller forståelse udbredelsen af cyberthreats, disse er blot et par eksempler på problemer fra den virkelige verden, som alle har én ting til fælles: de er præget af mange-til-mange-relationer, der ikke umiddelbart er repræsenteret af relationelle databaser. Udfordringen er, at der som databaser, grafer er ukendt. De manglede fordel af årtiers opbygning af viden relationel skematik, enkelhed af nøgle-værdi strukturer, eller den eksisterende knowledge base af JSON-dokumenter, der kom fra JavaScript fællesskabet. Og indtil for nylig, graf, der manglede konsensus standarder, ud fra hvilke en kritisk masse færdigheder kan udvikle sig.

Hvad er ændret i løbet af de seneste år er en stigende accept af de facto-standarder, såsom Apache TinkerPop rammer og de tilknyttede Gremlin query language, som er et fælles mål for udviklere. Og vi ser, konkurrence fra Neo4J og TigerGraph, der er ved at indføre deres egne varianter, der er mere SQL-lignende. Og vi ser cloud-giganter ind på området, med Amazon indføre Neptun, mens Microsofts Azure Kosmos DB indeholder en graf for sin familie over understøttede datamodel. Men som nødvendighed er mor til opfindelsen, i 2019, forventer vi Kunde 360, IoT-applikationer, og cybersecurity til at være førere af efterspørgslen efter graf databaser, som nu er mere tilgængeligt end nogensinde før.

Relaterede Emner:

Cloud

Digital Transformation

Robotteknologi

Tingenes Internet

Innovation

Virksomhedens Software