Google Snorkel DryBell il futuro della gestione dei dati aziendali?

0
33

C’è sempre stato un mercato ricco di strumenti software in grado di ripulire i dati aziendali e integrare a renderlo più utile. Con il mantra che “i dati sono il nuovo petrolio” non c’è più che mai un ottimo passo di vendite per essere fatti da produttori grandi e piccoli, da Oracle a Talend.

Ma cosa succede se nulla bisogno di essere ripulito, di per sé? Che cosa succede se, invece, le parti più pregiate dei dati potrebbero essere trasferiti, in un certo senso, in macchina modelli di apprendimento, senza alterare i dati?

Tale concetto è implicita da una nuova tecnologia introdotta giovedì da Google AI team, in collaborazione con la Brown University e la Stanford University.

Il codice, che va da un po ‘ sgraziato nome “Snorkel DryBell,” si basa su una esistente, fare Snorkeling software open-source proiettata sviluppato a Stanford. Snorkel permette di assegnare automaticamente le etichette per i dati, una sorta di tassonomia di dati, dalla repository di contenuti in tempo reale i segnali in ingresso nel data center.

Anche: Google distributed computing for dummies treni ResNet-50 in meno di mezz’ora

snorkel-drybell-schematic.png

Il lavoro sottolinea che c’è un sacco di dati che non possono essere utilizzati al di fuori del firewall, ma che tuttavia può essere utilizzato per il treno apprendimento profondo. Questo è noto come il “non-serveable” dati”, come mensile di statistiche aggregate” o “costosi modelli interni”, secondo Google. Tutto ciò che dovrebbe essere in grado di essere utilizzati per rendere la macchina di apprendimento migliore, sostengono.

La questione sollevata, in modo implicito, è se i dati ha bisogno di essere ripulito. Invece, si può semplicemente far parte della pipeline di costruzione di machine learning senza modifiche. Tutto ciò che serve è quello di industrializzare che di base Snorkel funzione, in modo che possa gestire più diverse sorgenti di dati, e in una scala più grande che si adatta impresa impostazioni.

Un post sul blog di Alex Ratner, uno studente di Dottorato presso il dipartimento di computer science presso l’Università di Stanford, e Cassandra Xia, con Google AI, spiega il lavoro. C’è anche una carta che accompagna, “Snorkel DryBell: Un Caso di Studio nella Distribuzione di scarsa Supervisione su Scala Industriale”, di cui Stephen Bach è il principale autore, pubblicato su arXiv pre-server di stampa.

Il Boccaglio approccio è abbastanza facile da capire. Nella tradizionale formazione supervisionato in machine learning, data alimentati a una macchina di apprendimento del sistema deve essere etichettato da esperti del settore. Umana-predisposto etichette sono come la macchina impara a classificare i dati. Che in termini di tempo per l’uomo.

Anche: MIT consente AI “sintetizzare” i programmi per computer per gli aiuti dati scienziati

Snorkel, invece, consente un team di esperti in materia di funzioni di scrittura che assegnare etichette ai dati automaticamente. Generative di rete neurale confronta, quindi, quali sono i marchi più funzioni per generare i dati stessi, una sorta di voto, di spoglio dei voti che si traduce in probabilità di essere assegnato come per le etichette che potrebbe essere vero. Che i dati e i suoi probabilistica etichette vengono poi utilizzati per formare un modello di regressione logistica, invece di usare la mano con l’etichetta dati. L’approccio è noto come “scarsa supervisione” a differenza dei tradizionali supervisione di machine learning.

Google-Stanford-Marrone team di effettuare le regolazioni per lo Snorkeling ed elaborare i dati a scala più grande. In altre parole, fare Snorkeling DryBell è l’industrializzazione del Boccaglio.

Per uno, hanno cambiato la funzione di ottimizzazione utilizzato in generativo di rete neurale di DryBell da quello utilizzato per fare Snorkeling. Il risultato è una velocità di calcolo di etichette che è il doppio della velocità dei quali Snorkeling convenzionalmente offre, scrivono.

Mentre il Boccaglio è pensato per essere eseguito su un singolo nodo di calcolo, il team integrato DryBell con il MapReduce file system distribuito. Che permette DryBell essere eseguiti su numerosi computer in un “loosely coupled” di moda.

Inoltre: Può IBM possibilmente domare AI per le imprese?

Con l’industrializzazione, il team è in grado di fornire molto di più debolmente con l’etichetta dati per il profondo sistema di apprendimento, e i risultati, scrivono, hanno mostrato la scarsa supervisione battere convenzionale di apprendimento supervisionato uso artigianale etichette — fino a un certo punto.

Per esempio, in una attività di test, argomento di “classificazione”, dove il computer deve “individuare un argomento di interesse” enterprise content, sono “poco sorvegliati” il modello di regressione logistica sulla “684,000 senza etichetta di punti di dati.”

“Troviamo,” scrivono, “che ci vogliono circa 80,000 a mano etichettato esempi per abbinare l’accuratezza predittiva del debolmente supervisione di classificazione.”

Fondamentale in tutto questo è la non-serveable dati, disordinato, rumoroso roba che, tuttavia, è di grande valore all’interno di un’organizzazione. Quando hanno fatto un “ablazione” studio, dove hanno rimosso i pezzi di formazione dei dati che non sono serveable, i risultati non erano buoni.

Il risultato è una sorta di “trasferire l’apprendimento,” una comune macchina di apprendimento in cui la macchina è addestrato su una serie di dati ed è quindi in grado di generalizzare la sua discriminazione di dati simili.

“Questo approccio può essere considerato come un nuovo tipo di trasferimento di apprendimento, dove al posto di trasferimento di un modello tra i diversi set di dati, siamo il trasferimento del dominio di conoscenza tra i diversi set di funzionalità,” scrivono.

Questo è un modo per ottenere i dati che è intrappolato nell’impresa di avere ritrovato utilità, ed è “uno dei principali vantaggi pratici di una scarsa supervisione di un approccio come quello implementato in Snorkel DryBell.”

Deve leggere

‘IA è molto, molto stupido”, dice Google AI leader (CNET)Come ottenere tutti Google Assistente nuove voci di adesso (CNET)Unificata di Google IA divisione di un chiaro segnale di AI del futuro (TechRepublic)Top 5: le Cose da sapere riguardo AI (TechRepublic)

Immaginate, quindi, la nuova gestione dei dati aziendali compito: scrivere alcune etichettatura funzioni in C++, basato su una ipotesi migliore da esperti del settore, e utilizzare l’uscita per addestrare una rete neurale, e andare avanti. Non spendere di più eoni pulizia o regolarizzare dati.

“Troviamo che la funzione di etichettatura astrazione è user friendly, nel senso che gli sviluppatori nell’organizzazione in grado di scrivere la nuova etichettatura funzioni di acquisizione di conoscenze di dominio,” scrivono. z

Inoltre, il modello generativo che collima fino etichette diventa una sorta di arbitro della qualità dei dati di impresa, nel processo, qualcosa che descrivono come “critico”.

“Determinanti per la qualità o l’utilità di ciascuna fonte, e l’ottimizzazione delle loro combinazioni di conseguenza, sarebbe di per sé un oneroso compito di engineering,” osservano.

“Utilizzando il Boccaglio DryBell, questi deboli segnali di supervisione potrebbe semplicemente essere integrate come etichettatura funzioni, e la conseguente stima di precisione sono stati trovati per essere indipendente, utile per identificare precedentemente sconosciuti le sorgenti di bassa qualità (che sono stati successivamente confermati, e fissa (o rimosso).”

L’unica cosa che mancava la corrente di lavoro è la prova si può lavorare con un profondo apprendimento di modelli di reti neurali. Debolmente supervisione di un semplice modello di regressione logistica è una cosa. Formazione molto profondo convolutional o reti ricorrenti sarebbe un interessante prossima sfida per un sistema del genere.

Precedente e relativa copertura:

Che cosa è l’IA? Tutto quello che devi sapere

Un esecutivo a guida di intelligenza artificiale, machine learning e generale AI alle reti neurali.

Cos’è il deep learning? Tutto quello che devi sapere

Il lowdown su deep learning: da come si relaziona con il più ampio campo di machine learning a come iniziare con esso.

Che cosa è macchina di apprendimento? Tutto quello che devi sapere

Questa guida spiega in cosa consiste la macchina di apprendimento, di come esso è legato all’intelligenza artificiale, come funziona e perché è importante.

Che cos’è il cloud computing? Tutto quello che devi sapere su

Un’introduzione al cloud computing destra, dalle nozioni di base fino a IaaS e PaaS, ibrido, public e private cloud.

Storie correlate:

Google AI naviga in “gamescape” per conquistare la teoria dei giochi
Questo è ciò che l’IA sembra (come disegnato dall’IA)
Google DeepMind team leader 3D game dev piattaforma
DeepMind AI punti i primi segni della malattia dell’occhio

Argomenti Correlati:

Big Data Analytics

La Trasformazione Digitale

CXO

Internet delle Cose

L’innovazione

Enterprise Software