I Big data bias: Fare le metriche più scienza e meno alchimia
Tonya Sala colloqui di Dave Gangatirkar, vice presidente di ingegneria per il cercatore di lavoro prodotti Indeed.com circa il potenziale e la necessità di creare una metrica per essere utilizzato tra tutti.
Ogni volta che la macchina di apprendimento è applicato ad un campo di settore, definendo l’obiettivo è una delle più importanti domande. Proprio quello che stai cercando di scoprire?
In scienze biologiche, che può essere una domanda molto complessa, come sei-anno-vecchio di avvio di Ricorsione Pharmaceuticals ha imparato dall’esperienza. La quantità di dati che si espande rapidamente e sapendo come cornice di un obiettivo che fornisce spunti dai dati è qualcosa di un’arte.
“E’ ancora un grande problema di dati”, dice Mason Vincitori, chief technologist di Ricorsione, con sede a Salt Lake City, Utah. “Abbiamo scelto uno molto grande fetta di biologia su cui sviluppare la nostra piattaforma nel corso di molti anni,” ha detto in un’intervista a ZDNet. E che porta con sé nuove sfide.
L’azienda raccoglie 65 terabyte di dati a settimana, che memorizza in Google cloud computing facility. La ricorsione ha accumulato circa 2,5 petabyte di informazioni in poco più di quattro anni.
La ricorsione è cercando di fare due cose sono complementari, ma anche molto ambizioso. Dimensioni nominali, la Ricorsione missione è quella di trovare cure per le malattie, in un modo che riduce la costosa pipeline di sviluppo.

Un’immagine di un uomo di cellule renali tinto con più coloranti fluorescenti. Nella cella pittura approccio adottato dalla Ricorsione, l’obiettivo è quello di identificare non solo una manciata, ma centinaia o migliaia di caratteristiche di cellule che una macchina di apprendimento del programma può quindi analizzare.
Ricorsione Prodotti Farmaceutici
Il grander, “due anni” visione della società, come co-fondatore e chief executive Chris Gibson ha spiegato in un’intervista a ZDNet, è quello di essere in grado di “predire come qualsiasi molecola, grande o piccolo, influenzerà qualsiasi stato” della cella. È quello che lui e i Vincitori consultare una mappa di tutta l’umana biologia cellulare, quante più informazioni possibili circa la “morfologia” delle cellule, la loro forma e struttura.
La ricorsione ha ottenuto alcuni finanziamenti ingenti per molto grandi di dati di progetto di scienze. Di recente ha segnato $121 milioni di dollari in venture soldi in Serie C il led tondo da British fondo di investimento Baillie Gifford, per un totale di 200 milioni di dollari di investimento per data.
La ricerca di trattamenti, mentre anche la gestione dell’ambizioso progetto di creazione di una mappa di tutte le cellule umane, è un atto di equilibrio, in cui la funzione obiettivo può essere semplice, ma la gestione dei dati può essere estremamente complicato.
Inoltre: AI pioneer Sejnowski dice che è tutto merito del gradiente
Si comincia con una procedura chiamata “cella di pittura” che copre le cellule come molti fluorescente muore possibile, di far emergere gli aspetti della struttura della cella. Cella di pittura è stato sviluppato da Anne Falegname, del Broad Institute del MIT e di Harvard a Cambridge, Mass., chi gestisce il Falegname Laboratorio sono. Il software ha creato, “CellProfiler,” è disponibile per il download gratuito.
Dipingere il cell va oltre il tipico “screening” delle cellule, che ha lo scopo di raccogliere una manciata di caratteristiche. Invece, il processo di creazione di un “profilo” di una cella quantifica centinaia o migliaia di caratteristiche sulla struttura di una cella che può quindi essere introdotto come input per una macchina modello di apprendimento di trovare le caratteristiche di interesse, che cambiano con le perturbazioni. Le perturbazioni potrebbero includere qualcosa come modificare una cella di RNA per vedere come cambia la struttura della cellula.
Gibson scoperto Falegname approccio quando stava svolgendo un Dottorato di ricerca presso l’Università di Utah. “E’ un modo carino per prendere le immagini di cellule,” dice Gibson, ma è stato anche una sorta di rivelazione per lui, al momento. Egli ricorda mediante Western blot tecnica per esplorare una condizione chiamata “malformazione cavernosa cerebrale” o CCM, in cui i vasi sanguigni nel cervello, si deformano, che può portare a l’equivalente di un piccolo ictus. Il Western blot approccio è stato noioso, l’esame di una proteina alla volta.
Ricorsione chief executive Chris Gibson ha avuto un epifania di sorta quando lui stava inseguendo il suo Dottorato di ricerca e ha incontrato Anne Falegname tecnica per la colorazione di cellule per creare enormi profili. Ha fondato la società sul presupposto notevolmente più informazioni su morfologia cellulare è possibile ottenere nuovi indizi per la malattia.
Ricorsione Prodotti Farmaceutici
“Abbiamo avuto familiarizzare con il Falegname approccio, in cui lei era in grado di sfamare le cose in una macchina di classificazione,” ricorda, e automatizzare l’esame di molte molecole tutto in una volta. Gibson e il suo mentore, il Preside Li, poi professore di medicina e di biologia presso l’università, ha provato l’approccio. Cella dipinto è stato in grado di confermare alcune intuizioni per Gibson tracce di CCM, ma anche, “è stato vedere qualcosa che non ho visto,” ha detto durante l’applicazione di machine learning per l’ricco di informazioni, immagini. Gibson ha aderito con Li per trovare la Ricorsione sulla premessa che le immagini ricche di cellule potrebbe dare spunti originali e di che lo screening regolare potevo. Sono stati raggiunti da un terzo co-fondatore, bioinformatician Blake Borgeson.
Falegname serve scientifico, tecnico e consulente per l’azienda. Altri consulenti che comprendono famoso apprendimento profondo ricercatore Yoshua Bengio, testa di Montreal prestigioso MILA istituto per l’apprendimento automatico, e uno dei tre destinatari di quest’anno ACM Turing award for lifetime informatica realizzazione, insieme con Yann LeCun di Facebook e Geoffrey Hinton dell’Università di Toronto.
Dalla cella dipinti, machine learning è applicata per mettere in evidenza alcune relazioni di base che può essere significativo. “Ciò che conta è ciò che è il compito di addestrare la rete, come si fa a trovare le cose che ti interessano di più,” dice CTO Vincitori, che ha conseguito un master in matematica presso la Brigham Young University, e che ha servito come un data scientist al precedente start-up.
Anche: Instagram prevede l’influenza. Chi lo sapeva? AI sapevo, ecco chi
Una semplice domanda può essere, Fare queste cellule lo stesso aspetto? “Si alimenta di triplette di esempi di cellule a una rete, e due di loro dovrebbe essere simile, e un terzo dovrebbe essere diverso”, spiega. Le terzine sono il risultato di codifica cella pittura caratteristiche di “immersioni”, ovvero di quello Vincitori chiamate di metterli in “latente rappresentazione dello spazio.” Alcuni molto semplici approcci statistici possono essere utilizzati, come misurare la “distanza angolare” tra le caratteristiche delle diverse cellule.
“Abbiamo trovato un sacco di trazione nella modellazione cose geometricamente”, dice. “Distanza angolare è davvero una metrica utile in contrapposizione a distanza Euclidea.”
Ma solo di misura caratteristiche non è sufficiente, che è il motivo per cui l’azienda mantiene un “wet-lab”, dove le perturbazioni che può essere provato in vitro di vedere come una data molecola risponde a un composto. La danza di prendere in giro il significato di gigante dati è un cosa grande, che imposta la società oltre che da una serie di start-up l’IA della biologia e della medicina, dice Vincitori.
“Altri gruppi nella scoperta della droga sono ammanettati esistenti set di dati statici hanno alcun controllo”, osserva Vincitori, mentre la Ricorsione è la generazione di nuovi dati in continuo. A causa di ciò, egli insiste, l’azienda può non solo in treno ma anche confermare apprendimento automatico di modelli con maggiore cura.
“Si tratta per la capacità di generare i dati a un incredibilmente vasta scala e anche generare strette in un ciclo di feedback”, dice. “Spesso implica un molto stretta collaborazione tra i ricercatori, il machine learning esperti, e le scienze della vita, esperti, per capire come in realtà abbiamo modello la biologia stessa, e l’impatto che sta per essere sulle analisi adottare.”
“Da un punto di vista economico, permette di scorrere rapidamente potenziali candidati farmaci in modo efficace”, dice Vincitori. “Siamo in grado di eseguire un esperimento per generare i dati per vedere se pensiamo che questo composto è potenzialmente efficace, e poi se vogliamo fare è andare per uno studio più approfondito con dosi crescenti, e più si replica, per verificare che in altri la malattia di reagenti per vedere se vediamo efficacia simile c’.”
“Non dobbiamo esternalizzare tutti”, ha note di test in vitro e di screening”, e così siamo in grado di eliminare i più lunghi tempi di attesa e il costo sarebbe portare.”
Ricorsione chief technologist Mason Vincitori è a carico non solo a prendere in giro il significato da 65 terabyte di dati raccolti in una settimana, ma anche la gestione del magazzino di 2,5 petabyte di dati biologici che si sta accumulando.
Ricorsione Prodotti Farmaceutici
Non è solo avere un laboratorio bagnato, dice Vincitori, ma anche “tutte le infrastrutture di ingegneria che deve essere costruita per gestire la quantità di dati in streaming,” la sfida dei big data, in altre parole. “Si tratta di come si elaborano i dati, trasferimento, fino al cloud, archivio, non esiste, si tratta di avere scalabile sistemi distribuiti, e quindi di restituire i dati in un formato adatto per la one-off o ad-hoc analisi — tutti che è anche una grande sfida per l’ambito generale e l’ambizione di ciò che stiamo cercando di realizzare”.
Avere il controllo sui dati che è importante perché l’azienda può essere consapevoli di come i dati di distribuzione delle variazioni nel tempo. “Come abbiamo affinare i nostri strumenti biologici usiamo, per essere più specifico e selettivo, questo può portare a una diversa distribuzione che in passato”, osserva Vincitori. Conoscere il “vintage” di dati, se si vuole, l’azienda può regolare la sua analisi per rendersi conto di come ciò deriva possono influenzare l’apprendimento automatico. Perché molto di AI è interessato da piccole variazioni statistiche dei dati, essere consapevoli di cose come la distribuzione dei turni può giocare un ruolo nell’ottenere utili analisi di fuori del modello.
Un risultato di dati di grandi sforzi, è un nuovo, pubblicamente disponibili set di dati che la Ricorsione uscito a Maggio, chiamato RxRx1. Si compone di 300 gigabyte di oltre 100.000 immagini “che rappresentano diversi contesti biologici.” Ricorsione spera che il set di dati sperone al di fuori dei ricercatori per sviluppare nuove tecniche di apprendimento automatico. È stato annunciato in occasione della Conferenza Internazionale sull’Apprendimento delle Rappresentazioni che di mese in mese.
La maggior parte di ciò che la Ricorsione deve fare in macchina di apprendimento oggi, come la distanza angolare di triplette, non richiede profonda forme di apprendimento di AI, Invece, può essere fatto con strumenti di base. “La profonda approccio di apprendimento non è la maggior parte del lavoro che facciamo qui”, dice Vincitori. “Troviamo complementari segnale c’è, ma gli approcci standard di ottenere il 90% di strada.”
Ci sono problemi con l’apprendimento profondo, egli osserva. Un “variational auto-encoder”, una forma popolare di supervisionato l’apprendimento profondo, può essere problematico, perché non sufficientemente selettivo.
“Ogni volta che si genera dati biologici, si hanno effetti batch,” note Vincitori. “Questi sono i fattori di disturbo che sono solo per la sperimentazione del processo stesso-per esempio, la temperatura era diverso questa volta, l’umidità era diverso, o le cellule sono state trattate con più rispetto alla prima volta.”
Un variazionali auto-encoder “sarebbe anche imparare a rappresentare quei batch effetti della rappresentazione, che non vogliamo”, ha note.
Il processo di perturbante di una data molecola e vedere cosa succede suona un po ‘ come quello che è conosciuto come “il rafforzamento dell’apprendimento” in macchina di apprendimento. Come Vincitori descrive, c’è uno “stato-azione” modello”, lo stesso concetto come il rafforzamento dell’apprendimento. “Dobbiamo utilizzare le nostre immagini per rappresentare un’istantanea di stato cellulare, e quindi siamo in grado di agire su questi cellulari membri di introdurre perturbazioni, e imparare il significato delle azioni.”
Ma, si affretta ad aggiungere, è “molto diverso dall’apprendimento di rinforzo in molti modi, è più che imparare la stato-azione rapporto, dobbiamo assicurarci che i dati in tali funzioni è abbinato in modo appropriato.”
Argomenti Correlati:
Big Data Analytics
La Trasformazione Digitale
CXO
Internet delle Cose
L’innovazione
Enterprise Software