Nul
Wat als de enorme ruimte voor data-driven software kan efficiënt worden in kaart gebracht en onderzocht om te hebben op-maat-gemaakt, geoptimaliseerde oplossingen? Onderzoekers van de Harvard combineren met analytische modellen, benchmarks, en de machine learning om dit mogelijk te maken.
Idreos’ werk is enorm ambitieus, want het raakt wat is de stand van de techniek van vandaag, en belooft aanzienlijk te verbeteren. Te tekenen op een aantal concrete voorbeelden, denk aan systemen zoals Oracle ‘ s self-tuning van de database of gelijksoortige producten zoals die van ScyllaDB of MemSQL.
Historisch gezien, notities Idreos, IBM en Microsoft waren een van de pioniers in het verkennen van adaptieve systemen. Traditioneel ligt de nadruk op het afstemmen van de indexering. Nu is dit uit te breiden naar andere knoppen, en dit, Idreos speculeert, is wat Oracle ook doet.
Idreos’ werk is anders in dat het niet alleen tweaken van bestaande data structuren, zoals indexen bijvoorbeeld, maar het kan ook configureren voor het maken van nieuwe dynamisch. Of tenminste, dit is de visie.
Voor het moment, DASlab de eerste implementatie van anders werken dan verwacht uit de Woorden van de wereld, maar blijkt een soortgelijke, zij het vergroot het effect. DASlab hebben gewerkt met RocksDB, die Idreos zegt ze zijn erin geslaagd om opnieuw te bereiken prestaties die kunnen worden van 1.000 tot 10.000 keer beter voor dezelfde werkbelasting.
Ook: Big data architectuur: het Navigeren door de complexiteit TechRepublic
Een andere veelbelovende toepassing kan worden tiering voor cloud providers. Meer en meer toepassingen en gegevens te verplaatsen naar de cloud, het probleem van wat te houden in de snelle toegang tot de media en wat te verplaatsen naar tape wordt steeds belangrijker.
Tiering is het mogelijk antwoord te geven op de vraag wat de hardware te gebruiken voor het opslaan van gegevens, of in een specifieke machine, in die gebied van het geheugen om gegevens op te slaan. Idreos zegt dat de Gegevens van de Calculator kunt vastleggen dergelijke aspecten.
Het is een optimalisatie probleem: voor een specifieke workload, en de begroting, het vinden van een optimaal systeem, hardware, en de toewijzing van geheugen.
DASlab ‘s onderzoek wordt toegepast om het gebruik van open source data-formaten in de cloud voor dergelijke scenario’ s. Idreos zegt dat ze zal moeten een minimum van een jaar van onderzoek voor dit, en het harde deel is hoe efficiënt zoeken in een exponentiële zoeken de ruimte.
Van self-tuning zelf ontwerpen van data systemen
Indrukwekkend als de RocksDB resultaten kunnen worden, blijft het feit dat de onderliggende structuur van de gegevens niet zijn gewijzigd: RocksDB blijft een key-value-winkel.
DASlab de uitvoering werkt als een add-on laag op de top van RocksDB. Deze laag inspecteert werkbelasting en de hardware configuratie tijdens runtime dynamisch, en gebruikt de Gegevens van de Calculator te vinden en toepassen van de optimale configuratie.
Dit is een pragmatische keuze gemaakt op basis van het beperken van de zoek-ruimte, het beperken zich tot key-value data structuren maakt de dingen beter beheersbaar. De visie gaat veel verder dan dat maar.
Het klinkt science-fiction wil, maar het kan dichterbij dan u denkt: Harvard DASlab is het werken op zelf-het ontwerpen van een data systems. Afbeelding: DASlab / Harvard
Hoe zit het met het kiezen van het type systeem dat is best geschikt om workloads op een per-applicatie basis? En niet alleen bij bestaande systemen, ook.
Volwaardige, kan dit onderzoek leiden tot gepersonaliseerde ontwerp van het systeem, afgestemd op de behoeften van specifieke toepassingen. En die systemen zou ook in staat zijn om zelf aanpassen tijdens runtime, als de belasting wijzigen.
Dit klinkt misschien als science fiction, en Idreos schat dat het minstens 10 jaar weg. Maar het is goed op weg. Buiten de presentatie van dit onderzoek op de wereld ‘ s meest prestigieuze conferenties, Idreos is ook bezig met de commercialisering, maar we zijn niet vrij om persoonlijke gegevens te verstrekken.
Machine Learning, en te weten wat je doet
Gegevens van de Calculator maakt gebruik van een hybride aanpak-een deel van analytische, onderdeel van benchmarking, onderdeel van ‘ machine learning (ML). Idreos heeft zijn vertrouwen op analytische benaderingen voor een tijdje, en half gekscherend toelichting dat “ML is voor als je niet echt weet wat je aan het doen bent.”
Maar serieus, bij de bespreking van de Data Calculator benadering in vergelijking met Oracle, bijvoorbeeld een voor de hand liggende vraag is wat voor soort datasets Idreos’ team zou kunnen gebruiken.
In tegenstelling tot de Woorden van de wereld, DASlab geen toegang tot tonnen van real-life database implementatie van operationele gegevens. Idreos merkt echter op dat voor een aantal goede dingen, ze weten precies wat te doen en hoe, en hun analytische modellen zijn voldoende:
Wanneer u een beroep doen op ML uitsluitend, wat je krijgt is een benaderend antwoord. Maar er zijn een aantal goede redenen waarom we het gebruiken.
Eerste, als een manier van onderzoek die kunnen wijzen in de richting van een goede oplossing. Vervolgens met onze analytische model het komt allemaal neer op een vergelijking, die duurt 1 micro-seconde te lopen, en hebben we de optimale oplossing.
In ons werk voor de Key-value-winkels, de ruimte is enorm, maar we begrijpen het heel goed. We hebben gebouwd analytische modellen die werken, zodat we niet echt nodig ML. (Gegeneraliseerde) Gegevens Calculator is anders.
Idreos legt uit dat ze het niet kunnen bouwen van een analytisch model voor elke mogelijke data structuur — tenminste, niet op dit punt. De ruimte is dynamisch, groeit, en het is moeilijk vast te pinnen. Wat ze doen is ze te nemen domein kennis, zoals hoe de methode primitieven te gedragen, en dan synthetiseren van een analytisch model-equivalent.
Bijvoorbeeld, ze model het gedrag van random access -, scan-of binaire bomen. Vervolgens gebruiken ze deze te synthetiseren meer complexe structuren, zoals indexen.
Ook: Wat is machine learning? Alles wat je moet weten
Die analytische modellen enigszins af, maar als zij vertegenwoordigen niet de wereld met 100 procent nauwkeurigheid. In de structuur van de gegevens, zegt Idreos, wat je normaal mist zal worden sommige gegevens of hardware-eigenschappen.
DASlab gebruikt ML trainen algoritmen gebaseerd op analytische en benchmark resultaten. Ze hebben een analytische model en het uitvoeren van een aantal benchmarks op specifieke data en instellingen, en de resultaten worden vervolgens gevoed ML algoritmen als trainingsgegevens.
Dit stelt hen in staat om vragen te beantwoorden zoals “ik wil een scan uitvoeren op 5GB van gegevens met de functies op deze hardware, hoe lang zal het duren?”, zelfs zonder het bouwen van een nauwkeurige analytische model.
Zen en de kunst van de structuur van de gegevens
Vergelijkbaar met alle ML benaderingen, het kiezen van de juiste parameters op te nemen in deze ML-modellen is uiterst belangrijk. In dit geval komt het neer op het kiezen van de parameters die van invloed zijn hardware en software configuratie, zelfs wanneer u niet zeker precies hoe.
Voor de volgende fasen van dit onderzoek, Idreos voorziet in een gelaagde ML aanpak, gebaseerd op ‘ leren door bekrachtiging:
Wat we hebben opgebouwd en werkt als volgt: we input van een ontwerp, en een kosten-als een uitvoer. Dit is vergelijkbaar met de ML-labeling, in termen van het labelen van de ingangen. Zo kunnen we gebruik maken van onze hybride algoritme voor het label training van gegevens voor een ander ML algoritme laag om meer benaderende antwoorden.
Hoewel de eerste vruchten van dit onderzoek zijn al over om te worden gecommercialiseerd, het kan een tijdje duren, voordat wij het zien ontvouwen volledig.
Idreos, maar benadert dit met een Zen soort houding die maakt dat de zelf-ontwerpen van data systemen zijn min of meer onvermijdelijk. Lijkt een meer op gebied van creativiteit eerder gereserveerd voor de mens is op weg naar automatisering.
Verwante Onderwerpen:
Big Data Analytics
CXO
Digitale Transformatie
Tech Industrie
Smart Cities
Cloud
0