SVENSKA

Big Data 2019: Cloud omdefinierar databasen och maskininlärning går det

121

Noll

I de prognoser spel, det är dags för oss att bat rensa upp en gång till. Följande Stora på Data bro Andrew Brust är roundup av AI-relaterade förutsägelser från ett tvärsnitt av industrin befattningshavare, nu är det vår tur. Vi kommer att fokusera mest på vad allt detta innebär att databasen, en teknik som efter Y2K var tänkt att vara in i sitt färdiga skick.

I och med 2019, vi läser AI och moln som är den stora ämnen.

Låt oss måla den stora bilden först. På Ovum, har vi länge prognosen att år 2019, hälften av alla nya Stora Uppgifter arbetsbelastning skulle köra i molnet. Enligt våra senaste uppgifter, det scenariot är redan bär ut, med våra undersökningar visar att ungefär 45% av de svarande rapporterar att köra åtminstone några Big Data arbetsbelastning i molnet.

Molnet inverkan på databaser är att det håller på att omdefiniera grundläggande arkitektoniska antaganden om hur man kan designa dem och hantera data. På lokalerna, det var allt om trädning av nålen vid dimensionering bara tillräckligt med kapacitet för att utnyttjas fullt ut, men inte för mycket kapacitet för att utlösa software granskning eller resultat utöver licens avgifter. Och för Big Data, det handlade om att föra beräkna till data, eftersom belastningen på nätverket för att flytta alla dessa terabyte ansågs inte särskilt rationellt.

Ange moln -, råvaru-infrastruktur, billigare lagring, snabbare nätverksstandarden, och mest av allt, praktiskt taget obegränsad omfattning, och för databas-leverantörer, var det tillbaka till ritbordet, som skiljer lagring från beräkna. Lägg till lite bränsle på elden: vår övertygelse att det bästa sättet att inse värdet från moln databas spridning är genom managed Databas-as-a-Service (DBaaS) där fläckar, uppgraderingar, säkerhetskopiering, failovers, och proviantering och hanteras av cloud tillhandahåller, inte de DBA. Och som ställer oss upp för vårt första förutsägelse, som för övrigt råkar vara modeord-kompatibel.

Själv kör databaser med hjälp av ML kommer att föröka sig

Cloud database leverantörer kommer att gälla machine learning (ML) för att göra sina DBaaS erbjudanden självgående. För drygt ett år sedan, Oracle sparkade upp dörren, först med Autonoma Data Warehouse-18c, följt av ungefär sex månader senare med Självständig Transaktion Databas 18c. Prova inte detta hemma, Oracle erbjuder bara det autonoma databas i den offentliga moln, där det inte DBA, kontroller miljön.

Tillämpning av ML till databasen drift är en no-brainer för flera skäl. För det första, databas verksamheten genererar stora mängder data logg för att mata modeller. För det andra, databas operation (speciellt i ett ” managed cloud service) är ett väl avgränsat problem som motstår drift eller scope creep. Slutligen, rännande att ML automatiserar, till exempel hur att konfigurera en databas för olika belastning mönster, eller hur att optimera frågor, är ett arbete som, för DBA, inte tillföra värde.

Inte överraskande, tillkomsten av fristående databaser skapade betydande rädsla bland Dba som till säkerhet för sina jobb. Som vi noterade i vår Oracle OpenWorld obduktion, den längsta linje som vi såg för någon breakout var en för DBA jämfört med Autonoma Databas session. Som vi konstaterade i denna del, om inte deras arbetsgivare är dumma, de kommer fortfarande att ha jobb – du måste fortfarande Dba för att fatta strategiska beslut om vad databasen kommer att omfatta, design schemat, och ange (och stå till svars för) politik relaterade till drift och säkra databasen.

Vi förväntar oss 2019 att mer moln databas leverantörer kommer att följa Oracles leda. Att anställa ML att köra databasen kommer att bli en standard kryssrutan objekt för någon DBaaS erbjuder; vi förväntar oss också ett par databas leverantörer att skilja från Oracle och tillämpa några av dessa begrepp för att på plats distributioner.

Serverlösa blir kryssrutan alternativ

Vi förväntar oss också att serverlösa computing, som först introducerades med AWS Lambda för att förenkla tillämpningen utveckling genom att eliminera behovet av att tillhandahålla servrar med autoscaling, kommer att bli allt vanligare med moln DBaaS-tjänster. I det här fallet, Dba anger övre och undre gränsvärden och då databasen autoscales. Exempel är Amazon DynamoDB, där serverlösa är kärnan till design, och Amazon Aurora, där serverlösa nyligen introducerades som ett alternativ för applikationer där spikar är ovanliga eller svåra att förutse. Google Cloud Firestore är också serverlösa; under det senaste året, MongoDB, som infördes Sy serverlösa erbjuder för sina Atlas cloud service.

Serverlösa är inte för alla fall; till exempel, om dina laster är förutsägbar eller jämn, det kommer att vara mer ekonomiskt att reservera kapacitet. Icke desto mindre, efterfrågan från utvecklarna kommer att göra serverlösa ett alternativ för alla moln operativa databaser 2019.

Distribuerade databaser: Skriver få respekt

En annan innovation som gjorts möjligt med molnet är en distribuerad databas. Detta år kommer vi se den distribuerade databasen gör skriver första klassens medborgare i paritet med den som läser.

Låt oss förklara. Distribuerade databaser inte börja med moln – tidigt exempel ingår Clustrix (som nyligen förvärvades av MariaDB), Aerospike, och NuoDB på den relationella sidan, och NoSQL stalwarts som MongoDB, Couchbase, och Apache Cassandra. En av dessa spelare, MongoDB har varit den stora break-out, till stor del på grund av dess utvecklare vänlighet som gjorde sin viral spridning, även om Cassandra har fått några stora Internet-namn som Netflix.

Men molnet som vissa otillbörliga fördelar för distribuerade databaser. För det första, det eliminerade behovet av IT-organisationer att sätta upp sina egna datacenter och brett område stamnät. För det andra, mycket av denna data, såsom stockar, produktkataloger, sakernas internet, data, och så vidare, som redan bodde i molnet. Sist, men inte minst, molnet lagt till några otillbörliga arkitektoniska fördelar: molnleverantörer kan inbyggt ingenjör i automatiserade replikering, smart förvaring och automatisk skalning i sina plattformar.

Så, vad betyder allt detta har att göra med att skriva och läsa prestanda? Mest distribuerade databaser har genomförts med master/slave-arkitekturer med centraliserad master noder för att begå skriver eller uppdateringar, omgiven av bara läsa repliker som kan vara geografiskt spridda. Som gjort läsningar, som kan utföras på någon lokal kopia, mycket snabbare än skriver.

Vi ser redan hur den nya metoder, som till exempel multi-master, vilket gör det möjligt för lokala noder för att förklaras skriva masters för särskilda transaktioner, eller konsensus algoritmer, som omröstningar noder för att utse skriva herre, för att övervinna skriva flaskhalsar på globalt distribuerade databaser. Amazon Aurora och DynamoDB, Google Cloud Käppar, Microsoft Azure Kosmos DB, och Kackerlacka DB redan har stöd för dessa funktioner (eller erbjuda dem i beta), men med undantag av Moln Grus och Kosmos DB, dessa funktioner stöds endast inom en region, inte hela regioner. I och med 2019, vi förväntar oss att multi-regionen stöd kommer att växa mer vanligt.

En motsvarande utveckling, till följd av uppgifter sekretess bestämmelser som GDPR och lokala mandat verkställas av många nationer som kräver data för att ligga i ursprungslandet roll sharding databasen att ha lokala eller regionala masters. Denna praxis kommer att bli mer omfattande.

George Anadiotis får upprättelse: stjärnorna slutligen anpassa för grafdatabaser

OK, du har säkert hört mer än ditt lystmäte från min Stora på Data bro George Anadiotis, som har utfört yeoman plikt att utbilda marknaden om grafdatabaser. Han har gjort den djupa dyk på kunskap grafer, introducerade oss till nya grafdatabas spelare, upplyst oss på diagrammet för fråga språk, och vågade sig den vansinniga uppfattningen att diagrammen skulle kunna representera webben som en databas.

Som Anadiotis sätta ca 18 månader sedan, “Grafen-teknik är på väg från en frans domän för att gå mainstream.” Nåväl, tillbaka i början av 2017, att uttalandet var lite för tidigt.

De problem som grafdatabaser adress är ganska enkelt. Att uttyda mönster av påverkan på sociala nätverk så att ledande varumärken kan identifiera och odla opinionsbildare; kartläggning och optimera den invecklade försörjningskedjan, eller förståelse spridning av cyberthreats, dessa är bara några exempel på verkliga problem som alla har en sak gemensamt: de kännetecknas av många-till-många relationer som inte är lätt representeras av relationsdatabaser. Utmaningen är att, som databaser, grafer är obekant. De hade fördelen av årtionden av kunskap att bygga relationsschema, enkelheten av nyckel-värde strukturer, eller den befintliga kunskapsbasen för JSON dokument som kom från JavaScript gemenskapen. Och tills nyligen, diagram saknade samförstånd normer mot vilka en kritisk massa av kompetens kan utvecklas.

Vad har förändrats under det senaste året är växande acceptans av de facto-standarder, såsom Apache TinkerPop ram och tillhörande Gremlin query language, som utgör ett gemensamt mål för utvecklare. Och vi ser konkurrens från Neo4J och TigerGraph att införa sina egna varianter som är mer SQL-liknande. Och vi ser molnet jättar in på området, med Amazon införa Neptunus, medan Microsofts Azure Kosmos DB har en graf av sin familj som stöds data modeller. Men när nöden är uppfinningarnas moder, i och med 2019, vi förväntar oss att Kunden 360, IoT-tillämpningar och it-säkerhet att vara förare av efterfrågan för grafdatabaser, som nu är mer tillgänglig än någonsin.

Relaterade Ämnen:

Cloud

Digital Omvandling

Robotteknik

Sakernas Internet

Innovation

Affärssystem