Zero
Che cosa succede se l’enorme spazio per il data-driven software potrebbe essere mappati in modo efficiente ed esplorato in modo da avere su misura, soluzioni ottimizzate? Ricercatori dell’università di Harvard combinare i modelli di analisi, benchmark, e di machine learning per rendere questo possibile.
Idreos’ di lavoro è estremamente ambizioso, in quanto esso tocca qual è lo stato dell’arte oggi, e promette di migliorare notevolmente su questo. Per disegnare su alcuni esempi concreti, pensare a sistemi come Oracle self-tuning di database, o offerte simili come quelli di ScyllaDB o MemSQL.
Storicamente, le note Idreos, IBM e Microsoft, sono stati tra i pionieri nell’esplorazione adattativo di sistemi di dati. Tradizionalmente, l’attenzione si è concentrata sulla messa a punto di indicizzazione. Ora, questo è in espansione in altre manopole, e questo, Idreos specula, è ciò che Oracle non troppo.
Idreos’ di lavoro è diverso, nel senso che non basta modificare i dati esistenti strutture come gli indici per esempio, ma è anche possibile riconfigurare per crearne di nuovi in modo dinamico. O almeno, questa è la visione.
Per il momento, DASlab prima implementazione potrebbe funzionare in modo diverso da Oracoli del mondo, ma sembra avere una simile, anche se ingrandita, effetto. DASlab hanno lavorato con RocksDB, che Idreos dice che sono riuscito a riconfigurare per ottenere prestazioni che possono essere da 1.000 a 10.000 volte meglio per le stesse carichi di lavoro.
Anche: i Big data architettura: Governare la complessità TechRepublic
Un altro promettente applicazione potrebbe essere il tiering per i fornitori di cloud. Come più e più applicazioni e dati a passare al cloud, il problema di cosa tenere in rapido accesso dei media e per spostare il nastro diventa sempre più importante.
Il Tiering è il tentativo di rispondere alla domanda di che tipo di hardware da utilizzare per la memorizzazione di dati o un computer specifico, in che zona di memoria per memorizzare i dati. Idreos dice che i Dati Calcolatrice è in grado di acquisire tali aspetti.
E ‘ un problema di ottimizzazione: per un determinato carico di lavoro, e al budget, trovare l’ottimale del sistema, hardware, e di allocazione di memoria.
DASlab di ricerca sarà applicato all’utilizzo dell’open source formati di dati nel cloud per tali scenari. Idreos dice che avrà bisogno di un minimo di un anno di ricerca per questo, e la parte difficile è come cercare in modo efficiente in modo esponenziale spazio di ricerca.
Dal self-tuning per auto-progettazione di sistemi di dati
Impressionante come il RocksDB risultati può essere, resta il fatto che le strutture di dati sottostanti non sono alterati: RocksDB rimane un key-value store.
DASlab di attuazione funziona come un add-on di livello superiore a RocksDB. Questo strato controlla i carichi di lavoro e la configurazione hardware in modo dinamico in fase di esecuzione, e l’utilizzo di Dati del Calcolatore per trovare e applicare la configurazione ottimale.
Questo era un pragmatico scelta fatta sulla base di restringere lo spazio di ricerca, di limitare se stessi per valore-chiave, strutture di dati che rende le cose più gestibile. La visione che va ben al di là che tuttavia.
Sembra fantascienza come, ma potrebbe essere più vicino di quanto si pensi: Harvard DASlab sta lavorando su di sé la progettazione di sistemi di dati. Immagine: DASlab / Harvard
Come circa la scelta del tipo di sistema che è più adatto per gestire carichi di lavoro in base all’applicazione? E non solo tra i sistemi esistenti, troppo.
A pieno titolo, questa ricerca potrebbe portare a sistema personalizzato di design, su misura per le esigenze di applicazioni specifiche. E questi sistemi sarebbe anche in grado di auto-adattarsi in fase di esecuzione, se i carichi di lavoro di cambiamento.
Questo potrebbe sembrare fantascienza, e Idreos stima è di almeno 10 anni di distanza. Ma è ben al di sotto. Al di là di presentazione di questa ricerca, tra le più prestigiose conferenze, Idreos sta lavorando anche sulla commercializzazione, anche se non siamo liberi di rivelare i dettagli.
Macchina di Apprendimento, e sapere cosa si sta facendo
Dati Calcolatrice utilizza un approccio ibrido-parte analitica, parte di benchmarking, parte di machine learning (ML). Idreos è stato basandosi su approcci analitici per un po’, e il serio e il faceto sottolinea che “ML è per quando non sai davvero cosa stai facendo.”
Ma sul serio, quando si parla di Dati del Calcolatore di approccio rispetto a Oracle, per esempio, una domanda ovvia è che tipo di set di dati Idreos’ squadra potrebbe usare.
In contrapposizione agli Oracoli del mondo, DASlab non hanno accesso alle tonnellate di vita reale distribuzione del database dei dati operativi. Idreos rileva, tuttavia, che per un buon numero di cose, sanno esattamente cosa fare e come, e i loro modelli analitici sono sufficienti:
Quando si basano su ML esclusivamente, quello che si ottiene è una risposta approssimativa. Ma ci sono alcune buone ragioni per cui le usiamo.
In primo luogo, come un metodo di ricerca che possono indirizzare verso una buona soluzione. Quindi con il nostro modello analitico che si tratta di un’equazione che prende 1 micro secondo per l’esecuzione, e noi abbiamo la soluzione ottimale.
Nel nostro lavoro per Key-value store, lo spazio è enorme, ma comprendiamo molto bene. Abbiamo costruito modelli analitici di lavoro, in modo che davvero non hanno bisogno di ML. (Generalizzata) Dati del Calcolatore, è diverso.
Idreos spiega che si può costruire un modello analitico per ogni struttura di dati, almeno non a questo punto. Il disegno dello spazio è dinamico, è in crescita, ed è difficile da definire. Cosa fanno, incorporare la conoscenza di dominio, come il metodo di accesso primitive di comportarsi, e quindi di sintetizzare un modello analitico equivalente.
Per esempio, si modella il comportamento di accesso casuale, scansione, o alberi binari. Quindi utilizzare questo per sintetizzare le strutture più complesse come gli indici.
Anche: che Cos’è la macchina di apprendimento? Tutto quello che devi sapere
Tali modelli analitici sarà un po ‘ off, tuttavia, non rappresentano il mondo con una precisione del 100%. In strutture di dati, dice Idreos, ciò che di solito le miss saranno alcuni dati o di proprietà dell’hardware.
DASlab utilizza ML di treno algoritmi basati sulle analisi e i risultati dei benchmark. Hanno un modello analitico ed eseguire alcuni benchmark su specifici dati e configurazioni, e i risultati vengono poi inviati a ML algoritmi di dati di training.
Questo permette loro di rispondere a domande come “voglio eseguire una scansione sui 5GB di dati con quelle caratteristiche su questo hardware, quanto tempo ci vorrà?”, anche senza aver costruito un preciso modello analitico per questo.
Lo Zen e l’arte di strutture di dati
Simile a tutte le ML approcci, la scelta dei parametri di incorporare in quelle ML di modelli è estremamente importante. In questo caso, si tratta di scegliere i parametri che influenzano la configurazione hardware e software, anche se non è certo esattamente come.
Per le prossime tappe di questa ricerca, Idreos prevede uno strato di ML approccio, basato sul rinforzo dell’apprendimento:
Ciò che abbiamo costruito funziona in questo modo: abbiamo l’input di un disegno, e ottenere un costo di uscita. Questo è simile a ML etichettatura, in termini di etichettatura ingressi. Quindi, possiamo usare il nostro algoritmo ibrido per l’etichetta di dati di training per un’altra ML algoritmo di livello per ottenere più risposte approssimative.
Anche se i primi frutti di questa ricerca sono già in procinto di essere commercializzato, si può prendere un po ‘ prima vediamo dispiegarsi appieno.
Idreos, tuttavia, si avvicina a questo con un Zen sorta di atteggiamento che fa credere che auto-progettazione di sistemi di dati sono più o meno inevitabile. Sembra che uno in più di spazio di creatività precedentemente riservato per gli esseri umani è in rotta verso l’automazione.
Argomenti Correlati:
Big Data Analytics
CXO
La Trasformazione Digitale
Settore Tech
Smart Cities
Cloud
0