AutoML è di democratizzazione e di miglioramento AI

0
124

C’è un’ironia di tutto l’Intelligenza Artificiale (AI) il lavoro: si tratta di un sacco di manuali, di prova e di errore sforzo per la costruzione di modelli predittivi con la massima precisione. Apparentemente continuo emergere di machine learning e apprendimento profondo quadri, e gli aggiornamenti di loro, così come i cambiamenti di utensileria piattaforme, non c’è da meravigliarsi che così tanto AI lavoro è ad hoc. Ma ancora, perché una tecnologia di automazione coinvolgere così tanto su misura sforzo?

Il problema con tutto il lavoro manuale è duplice: in primo luogo, rende quasi impossibile per le persone senza formazione in data science di fare AI lavori; in secondo luogo, la gente con i dati della scienza sfondi confrontati in un modo molto inefficiente flusso di lavoro.

AutoML, rescue me!

Che logjam sta iniziando a chiaro ora, però, con l’emergere di un processo automatico di machine learning (AutoML). Alcune aziende, come DataRobot, specializzarsi in esso. AI startup, come Dataiku, H20, e RapidMiner, e stabilito enterprise software aziende come Tibco, dispongono di un ampio AI piattaforme che presentano AutoML funzionalità di troppo. In modo da fare il grande pubblico per le piattaforme cloud, tra cui Microsoft Azure, Amazon Web Services e Google Cloud Platform. Ci sono open source AutoML quadri, come l’Auto-sklearn, Auto-Keras e Uber di recente open-source Ludwig piattaforma.

AutoML sembra essere molto più di una moda passeggera. In realtà, poche persone ho parlato con l’IA di mercato penso AutoML potrebbe essere il futuro di AI in generale. Finché si dispone di una copia di set di dati e la colonna all’interno di esso è l ‘ “etichetta”.k.un obiettivo), io.e il cui valore si vorrebbe prevedere con nuovi dati, AutoML costruire un modello con una riduzione di sforzo. E, a volte, otterrete il vostro modello con e senza ulteriori sforzi.

Con questo in mente, ho pensato a qualcosa di un primer potrebbe essere in ordine, e questo post è il mio tentativo di fornire uno. Disclaimer: anche se sono stato un seguace di AI fin dagli anni ‘ 80, e un appassionato di data mining sistemi dalla fine degli anni 90, io non sono un data scientist. Come tale, il mio vocabolario e le spiegazioni non sono pedagogicamente autorevole — in alcuni casi possono essere ingenuo. Ma quello che ho qui dovrebbe aiutare a comprendere AutoML le funzionalità della piattaforma, che spero vi aiuterà a giudicare i prodotti e i quadri sul mercato.

Graduale

Per cominciare, considerare che la comprensione AutoML coinvolge sempre familiarità con i compiti principali della macchina di apprendimento del flusso di lavoro. Il resto di questo post vi fornirà un inventario di tali compiti e spiegare quelle che sono comunemente — o meno comunemente — affrontato da AutoML soluzioni.

Caratteristica: Se si dispone di un set di dati e di sapere la vostra etichetta/colonna di destinazione, che è grande. Ma per capire in quali colonne del set di dati rilevanti per predire il etichetta del valore, e ad avere la forma corretta per l’apprendimento automatico di modelli di processo, è il requisito successivo. Dopo aver scelto le colonne, si potrebbe anche bisogno di convertire i valori di testo a numeri, imputare i valori mancanti e in caso contrario, pulire (ad esempio, de-duplicati, rimuovere i valori null e gli spazi da loro, o rimuovere i caratteri estranei da loro).

Certo, se sai che i tuoi dati, un sacco di questo può essere fatto manualmente, anche senza formale dati di scienze della formazione. Indipendentemente da ciò, i dati di scienziati farà un lavoro migliore. Ecco perché, mentre alcuni AutoML piattaforme richiedono di specificare le vostre caratteristiche, molti di analizzare un insieme di dati e suggeriscono che le colonne di a servire bene, consentendo di accettare tali selezioni, oppure modificarli.

L’algoritmo di selezione: si tratta di determinare il tipo di algoritmo, il libreria/framework da usare e specifico algoritmo di tipo appropriato, all’interno della libreria. Ci sono delle regole di pollice per scegliere il tipo, in base alla previsione che si sta cercando di fare e la struttura dei dati. Da lì, la scelta di un appropriato algoritmo può essere fatto, anche se in modo impreciso, dal lavoro di congettura.

Ma l’algoritmo di selezione è dove molti AutoML sistemi di brillare, anche al punto di automazione di una competizione tra i diversi algoritmi, come dettagliato in un paio di paragrafi di seguito.

Hyperparameter tuning: ogni algoritmo ha parametri che possono essere impostati — e un intervallo di valori che vengono accettati per ciascuno di essi — per controllare la configurazione dell’algoritmo e come viene applicato ai dati. Mentre in alcuni casi si può andare con i valori di default, copiare i valori da codice che si trovano online (anche se quel codice è per un diverso tipo di problema) o semplicemente indovinare, impostazione hyperparameter valori è un lavoro importante che non è in alcun modo semplice.

Ecco perché praticamente tutti AutoML quadri includono automatizzato hyperparameter tuning…anche se da un certo metodo forza bruta. Combinare questa capacità con l’algoritmo di selezione e di selezione delle funzionalità che molti AutoML sistemi anche fare per voi, e improvvisamente l’IA diventa accessibile a una gamma molto più ampia di tecnologi.

Concorso di bellezza

Modello di concorrenza: Mentre la funzione di lavoro, l’algoritmo di selezione e hyperparameter di ottimizzazione può essere fatto in modo algoritmico, generando esattamente una combinazione di entrambi, certo AutoML sistemi di raccogliere una serie di candidati per ogni, quindi costruire modelli basati su varie combinazioni di questi candidati. Da lì, i tuoi modelli sono addestrati e testati per determinare quale è il più preciso. E con alcuni AutoML sistemi, la metrica utilizzata per determinare la precisione è configurabile.

Mentre i modelli generati sono addestrati, AutoML in genere, i sistemi di visualizzazione di una “classifica” dei modelli più accurati. Quando tutta la formazione è completa, il modello al top della classifica è, per definizione, il modello più accurato e più AutoML gli utenti potranno selezionare.

Si potrebbe fare concorrenza da soli? Forse, ma la maggior parte delle persone-tra cui i dati di scienziati-non si vuole scrivere e debuggare il codice necessario per farlo. Molti AutoML sistemi di farlo, però, che permettono di fornire assistenza ai dati scienziati e non scienziati dati. Tale lavoro consente di assicurare otterrete il miglior modello possibile.

Edificio formazioni: la creazione di un set di modelli, quindi packaging il loro aspetto e si comportano come un unico modello, è un compito che alcuni AutoML sistemi assumerà per voi. Internamente, quello che succede è che i dati inviati per il punteggio (l’esecuzione di stime) è eseguito attraverso tutti i modelli e quindi la previsione da ciascuno è tabulati e, secondo una formula o un altro, un consenso di stima del valore restituito.

Ensemble sono in genere più accurate rispetto ai singoli modelli, ma il punteggio dura più a lungo, dal momento che deve essere fatto più volte e quindi un consenso predetto valore deve essere calcolato. Molto di questo lavoro possono essere eseguite in parallelo, anche se l’extra infrastrutture necessarie per eseguire le cose in parallelo non è libero.

La spedizione

La generazione di un modello attraverso AutoML può essere impressionante, ma se il modello non è mai effettivamente utilizzato, chi si prenderà cura? Che molto preoccupazione è il motivo per cui alcuni AutoML sistemi di distribuire anche il modello di produzione, monitorare e gestire, per mantenere la precisione e l’efficacia. Concludiamo osservando queste attività.

Modello di distribuzione: Questo comporta la creazione di una funzione di servizio Web (quasi certamente basato su REST) per il calcolo del punteggio di nuovi dati contro il tuo modello, quindi la distribuzione di un certo ambiente di hosting e dando indietro un endpoint (cioè un URL), dove può essere chiamato. Il servizio sarà costruito in modo tale che i parametri di input il servizio corrispondono ai valori di funzionalità e il valore di ritorno corrisponde al predetto valore dell’etichetta.

Modello di monitoraggio: Questo comporta un occhio sul modello, mediante l’esecuzione di nuovi dati contro di esso e vedere se la precisione non è il mantenimento di se stesso, o se è in diminuzione. Modello di “deriva”, il fenomeno per cui le proprietà statistiche dell’etichetta/target cambiamento, può essere monitorato. Si noti che, come per il modello di concorrenza, la metrica utilizzata per la precisione può variare ed è configurabile.

Modello di riqualificazione: Alcuni sistemi sono in grado di ricalibrare i modelli su base automatica, in risposta a precisione cadere al di sotto di una certa soglia, o solo come una questione di politica, a un certo determinata frequenza. Questo è particolarmente rilevante per i modelli basati su dati di flusso. AutoML sistemi di gestire questo per voi sono davvero gestire l’intero processo end-to-end. Questo è il taglio del bordo di roba che sta portando il concetto di continuo la distribuzione AI.

Che cosa è il Prossimo?

Come si può vedere dal numero e la complessità di ognuno di questi passaggi, AI lavori di per sé non è banale, e la possibilità di automatizzare molte delle confuso o noioso parti di esso ha un sacco di valore. AutoML, quindi, potrebbe essere la killer app che rende AI mainstream in azienda.

Auto ML potrebbe anche contribuire a spingere la busta ai dati, permette agli scienziati di passare a compiti più complessi che si basano su dei passaggi sopra automatizzato. AutoML attuale capacità sono in realtà solo una parte di una mossa di apertura e AutoML può aiutare AI suoi gioco, in generale.

Questo è un momento emozionante, in cui l’usabilità e l’adozione di AI si potrebbe iniziare ad accelerare drasticamente. Quindi rimanete sintonizzati. Alcune delle aziende citate all’inizio di questo post sono di duro lavoro una rapida AutoML innovazione.

Argomenti Correlati:

Cloud

La Trasformazione Digitale

CXO

Internet delle Cose

L’innovazione

Enterprise Software