Zen og kunsten af data strukturer: Fra selvjusterende til selv at designe data systemer

0
142

Nul

Hvad nu hvis den store design-plads til data-driven software kan effektivt kortlægges og undersøges for at have skræddersyede, optimerede løsninger? Forskere fra Harvard kombinere analytiske modeller, benchmarks, og machine learning til at gøre dette muligt.

Idreos’ arbejde er enormt ambitiøs, som den berører, hvad der er state of the art i dag, og lover at forbedre på dette. At trække på nogle konkrete eksempler, så tænk på systemer, såsom Oracle ‘ s self-tuning database eller lignende tilbud som dem fra ScyllaDB eller MemSQL.

Historisk set, noter Idreos, IBM og Microsoft var blandt pionererne i udforskningen af adaptive data systemer. Traditionelt har der været fokus på tuning indeksering. Nu er det ved at udvide til andre greb, og dette, Idreos spekulerer over, hvad Oracle også gør.

Idreos’ arbejde er anderledes, at det ikke bare nappe eksisterende data-strukturer, såsom indeks for eksempel, men det kan også konfigurere dem til at skabe nye dynamisk. Eller i det mindste, det er den vision.

For tiden, DASlab første gennemførelse kan fungere forskelligt fra Orakler i verden, men synes at have en lignende, omend forstørret, har effekt. DASlab har arbejdet med RocksDB, som Idreos siger, at de har formået at omkonfigurere til at opnå resultater, der kan være fra 1.000 til 10.000 gange bedre for de samme arbejdsopgaver.

Også: Big data-arkitektur: at Navigere i kompleksitet, TechRepublic

En anden lovende anvendelse kan være prioriteringsordning for cloud-udbydere. Efterhånden som flere og flere applikationer og data flytte til skyen, hvad du gik til at holde i hurtig adgang til medier og hvad de skal flytte til bånd bliver stadig mere vigtigt.

Prioriteringsordning er forsøget på at besvare spørgsmålet om, hvilken hardware der skal bruges til lagring af data, eller i en bestemt maskine, i hvilket område med hukommelse til at gemme data. Idreos siger, at Data Lommeregner kan indfange disse aspekter.

Det er en optimering problem: for en specifik arbejdsbyrde, og budget, finde den optimale system, hardware, og allokering af hukommelse.

DASlab ‘ s forskning vil blive anvendt til at bruge open source data formater i skyen for sådanne scenarier. Idreos siger, at de vil få brug for mindst et år af forskning for dette, og den hårde del er, hvordan man søger effektivt i en eksponentiel søge plads.

Fra selvjusterende til selv at designe data systemer

Imponerende som de RocksDB resultater kan være, faktum er, at de underliggende datastrukturer er ikke ændret: RocksDB fortsat en nøgle-værdi-butik.

DASlab gennemførelse fungerer som et add-on lag på toppen af RocksDB. Dette lag kontrollerer arbejdsmængder og-hardware konfiguration dynamisk på run-time, og bruger Data Lommeregner til at finde og anvende den optimale konfiguration.

Dette var et pragmatisk valg, der er truffet på grundlag af at begrænse søgningen rum, som begrænser sig til key-værdi, data strukturer, der gør tingene mere overskuelige. Den vision går langt ud over, dog.

selfdesigningdatasystems.jpg

Det lyder science fiction-agtigt, men kan være tættere end du tror: Harvard DASlab arbejder på selv at designe data systemer. Billede: DASlab / Harvard

Hvordan om at vælge den type af system, som er bedst egnet til at håndtere arbejdsbyrden på et pr-redskab? Og ikke kun blandt eksisterende systemer, også.

Fuldt udbygget, denne forskning kan føre til personlig system design, som er skræddersyet til specifikke applikationer. Og disse systemer vil også være i stand til selv at tilpasse sig på runtime, hvis arbejdsbelastningen ændre.

Det kan lyde som science fiction, og Idreos anslår, at det er mindst 10 år. Men det er godt på vej. Ud over at præsentere denne forskning på verdens mest prestigefyldte konferencer, Idreos arbejder også på at kommercialisere det, selv om vi er ikke frihed til at afsløre detaljer.

Machine Learning, og vide hvad du laver

Data-Regneren anvender en hybrid tilgang, — analytiske del, del benchmarking, del machine learning (ML). Idreos har været afhængige af analytiske tilgange for et stykke tid, og halvt i spøg bemærkninger om, at “ML er til, når du ikke virkelig ved, hvad du laver.”

Men seriøst, når vi diskuterer de Data, Lommeregner fremgangsmåde i forhold til Oracle, for eksempel, et oplagt spørgsmål er, hvilken type af datasæt Idreos’ team kan eventuelt bruge.

I modsætning til de Orakler i verden, DASlab ikke har adgang til tonsvis af real-life database implementering af operationelle data. Idreos bemærker dog, at der for en lang række af ting, de ved præcis, hvad de skal gøre og hvordan, og deres analytiske modeller er tilstrækkelig:

Når du benytter dig af ML udelukkende er, hvad du får, er en tilnærmet svar. Men der er nogle gode grunde til hvorfor vi bruger det.

For det første, som en forskningsmetode, der kan pege i retning af en god løsning. Så med vores analytiske model, det hele kommer ned til en ligning, der tager 1 micro-sekund til at køre, og vi har den optimale løsning.

I vores arbejde for Nøgle-værdi-butikker, design pladsen er enorm, men vi fatter det ganske godt. Vi har bygget analytiske modeller, der virker, så vi ikke virkelig har brug for ML. (Generaliseret) Data Lommeregner er forskellige.

Idreos forklarer, at de ikke kan bygge en analytisk model for alle mulige data-struktur-i det mindste ikke på dette tidspunkt. Design rum er dynamisk, det er voksende, og det er svært at pin ned. Hvad de gør, er at de indeholder domæne viden, såsom hvordan adgang metode primitiver opfører sig, og så syntetisere en analytisk model, der svarer.

For eksempel, de model adfærd random access, scan, eller binære træer. Så de bruger det til at syntetisere mere komplekse strukturer, som indekser.

Også: Hvad er machine learning? Alt, hvad du behøver at vide

De analytiske modeller, der vil være noget fra, men som de ikke repræsenterer verden med 100 procents nøjagtighed. I datastrukturer, siger Idreos, hvad du plejer at gå glip vil være nogle data eller hardware egenskaber.

DASlab bruger ML til at træne algoritmer baseret på en analytisk og benchmark resultater. De har en analytisk model og køre nogle benchmarks på specifikke data og konfigurationer, og resultaterne er så fed at ML algoritmer som træning data.

Dette gør dem i stand til at besvare spørgsmål som “jeg ønsker at køre en scanning på 5GB data med disse funktioner på denne hardware, hvor lang tid vil det tage?”, selv uden at have bygget en præcis analytisk model for dette.

Zen og kunsten af datastrukturer

Svarende til alle ML tilgange, at vælge de rigtige parametre for at indarbejde dem ML modeller er ekstremt vigtigt. I dette tilfælde, det kommer ned til at vælge de parametre, der har indflydelse på hardware og software konfiguration, selv når de ikke være sikker på, præcis hvordan.

For de næste faser af denne forskning, Idreos forestiller sig en lagdelt ML tilgang, der er baseret på styrkelse læring:

Hvad vi har opbygget, virker på denne måde: vi indtaster et design, og få en pris, som et output. Dette svarer til ML-mærkning, i form af mærkning indgange. Så vi kan bruge vores hybrid algoritme til at mærke uddannelse af data for en anden ML algoritme lag for at få mere omtrentlige svar.

Selvom de første frugter af denne forskning er allerede ved at blive kommercialiseret, kan det tage et stykke tid, før vi ser det udfolde sig fuldt ud.

Idreos, men nærmer sig denne med en Zen slags attitude, der gør en til at tro, at selv-at designe data systemer er mere eller mindre uundgåelig. Virker som et større område af kreativitet, der tidligere var forbeholdt mennesker er på vej til automatisering.

Relaterede Emner:

Big Data Analytics

CXO

Digital Transformation

Tech-Branchen

Intelligente Byer

Cloud

0