Den subtile kunst af virkelig store data: Rekursion Pharma kort kroppen

0
98

Big data bias: at Lave målinger mere videnskab og mindre alkymi
Tonya Hall taler til Ketan Gangatirkar, vice president of engineering til jobsøgende produkter på Indeed.com om potentialet og behovet for at oprette en variabel til at være almindeligt brugt blandt alle.

Når machine learning anvendes på et givet område af industrien, der definerer målet er en af de mest påtrængende spørgsmål. Hvad er du forsøger at finde ud af?

I de biologiske videnskaber, der kan være et meget vanskeligt spørgsmål, som seks-årig, start Rekursion Pharmaceuticals har lært af erfaring. Mængden af data, der udvider hurtigt og vide, hvordan at ramme et mål, der giver indsigt fra de data, der er noget af en kunst.

“Det er stadig en stor data problem,” siger Mason Sejrherrer, chief technologist for Rekursion, som er baseret i Salt Lake City, Utah. “Vi har valgt et meget stort skår af biologi, som at udvikle vores platform over mange år,” sagde han i et interview med ZDNet. Og det bringer udfordringer.

Virksomheden samler 65 terabytes af data per uge, som den gemmer i Googles cloud computing-facilitet. Løkke har tjent omkring 2,5 petabytes af oplysninger i lidt over fire år.

Rekursion er at forsøge at gøre to ting, der er supplerende, men også enormt ambitiøs. Nominelt, Rekursion ‘ s mission er at finde en kur for sygdomme, på en måde, der skærer ned på de dyre pipeline af udvikling.

cell-painting-image-recursion-2019.png

Et billede af en menneskelig nyre celle, der er farvet med flere fluorescerende farvestoffer. I cellen maleri tilgang ved Rekursion, målet er at identificere ikke blot en håndfuld, men hundredvis eller tusindvis af funktioner i celler, der en machine learning program kan derefter analysere.

Rekursion Lægemidler

Grander, “to-ti år,” vision for virksomheden, som medstifter og administrerende direktør Chris Gibson forklaret i et interview med ZDNet, er at være i stand til at forudsige, hvordan ethvert molekyle, stor eller lille, vil påvirke enhver stat” af cellen. Det er, hvad han og Victors henvise til som et kort over alle menneskelige cellebiologi, så mange detaljer som muligt om den “morfologi” af celler, deres form og struktur.

Løkke har fået nogle betydelige økonomiske midler til, at meget store data science-projektet. Den har for nyligt fået $121 millioner i venture-penge i en Serie C runde ledet af engelske investeringsfond Baillie Gifford, til en samlet værdi af $200 millioner i investering til dato.

Søger efter behandlinger, mens også forvaltningen af det ambitiøse projekt om at skabe et kort over alle menneskelige celler, er en balancegang, hvor den objektive funktion kan være enkle, men data management kan være yderst kompliceret.

Også: AI pioneer Sejnowski siger, at det handler om gradienten

Det begynder med en procedure kaldet “cellen maleri”, der dækker de celler, som mange fluorescerende dør som muligt, for at bringe aspekter af strukturen af cellen. Celle maleri blev udviklet af Anne Tømrer af de Overordnede Institut for MIT og Harvard i Cambridge, Mass., der kører Tømrer værksted. Den software, som hun har skabt, “CellProfiler,” er tilgængelig for gratis download.

Maleri cellen går ud over de typiske “screening” af celler, som har til formål at udvælge en håndfuld af funktioner. I stedet, processen med at skabe en “profil” af en celle, der kvantificerer hundredvis eller tusindvis af karakteristika om strukturen af en celle, der kan blive indført som input til en machine learning model til gengæld finde funktioner af interesse, at ændre, med ændringer. De forstyrrelser kan indeholde noget som at ændre en celles RNA for at se, hvordan det ændrer strukturen af cellen.

Gibson først opdaget Carpenter ‘ s tilgang, når han stræbte efter en Ph.d. ved University of Utah. “Det er en fancy måde at tage billeder af celler,” siger Gibson, men det var også noget af en åbenbaring for ham på det tidspunkt. Han minder om, at bruge Western blot teknik til at udforske en tilstand, der kaldes “hjerne-bundløs misdannelser” eller CCM, hvor blodkarrene i hjernen bliver deforme, hvilket kan føre til, at den svarer til en miniature slagtilfælde. Western blot tilgang var kedelig, gennemgang af protein på en gang.

recursion-ceo-chris-gibson-2019.jpg

Rekursion administrerende direktør Chris Gibson havde en åbenbaring af mulige, når han forfølger sin Ph.d., og stødte på Anne Tømrer teknik til farvning af celler til at skabe massive profiler. Han grundlagde virksomheden på den forudsætning, at langt flere oplysninger om morfologi (celle kan give nye spor til sygdom.

Rekursion Lægemidler

“Vi var blevet bekendt med Carpenter’ s tilgang, hvor hun var i stand til at brødføde ting i en maskine klassificeringen,” han minder om, og automatisere behandlingen af mange molekyler, der alle på én gang. Gibson og hans mentor, Dean Li, derefter professor i medicin og biologi på universitetet, har prøvet den tilgang. Celle maleri var i stand til at bekræfte nogle fornemmelser for Gibson i spor af KONVENTIONEN, men også, “det var at se noget, var jeg ikke se,” sagde han, da anvendelse af machine learning til de oplysninger, rige billeder. Gibson sammen med Li at fundet Rekursion på den forudsætning, at de rige billeder af celler kunne give originale indsigter, der regelmæssig screening kunne ikke. De fik selskab af en tredje medstifter, bioinformatician Blake Borgeson.

Tømrer fungerer som en videnskabelig og teknisk rådgiver for virksomheden. Andre rådgivere omfatter berømte dyb læring forsker navn som egentlig betyder yoshua Bengio, leder af Montreal ‘s prestigefyldte MILA institut for machine learning, og en af de tre modtagere af dette års ACM’ s Turing award for livstid datalogi bedrift, sammen med Yann LeCun af Facebook og Geoffrey Hinton fra University of Toronto.

Fra den celle, malerier, machine learning er anvendt til at drille nogle af de grundlæggende forhold, der kan være betydelig. “Det afgørende er, hvad der er den opgave, du tog nettet på hvordan kan du finde de ting, du holder af,” siger CTO Sejrherrer, der har en master i matematik fra Brigham Young University, og som har tjent som en data forsker ved tidligere nystartede.

Også: Instagram forudsiger influenza. Hvem vidste? AI vidste, at der

Et ligetil spørgsmål kan være, om disse celler ser det samme? “Du fodrer trillinger af eksempler af celler til et netværk, og to af dem skal være den samme, og en tredje bør være anderledes,” forklarer han. Trillingernes er resultatet af kodning cellen maleri funktioner som “embeddings,” eller hvad Victors opkald, placere dem i “latent repræsentation plads.” Nogle meget enkle metoder i statistik kan bruges, såsom måling “vinkel, afstand” mellem funktionerne i de forskellige celler.

“Vi har fundet en masse af trækkraft i modellering ting geometrisk,” siger han. “Vinkel, afstand er virkelig en nyttig variabel som modsætning til den Euklidiske afstand.”

Men bare måle funktioner er ikke nok, hvilket er grunden til, at virksomheden fastholder en “wet-lab”, hvor forstyrrelser kan være afprøvet in vitro til at se, hvordan et givet molekyle reagerer på et stof. Dans af drilleri mening ud af giant data er en stor ting, der sætter virksomheden ud fra en række startups i AI for biologi og medicin, siger Sejrherrer.

“Andre grupper i drug discovery er håndjern til eksisterende statisk datasæt de ikke har nogen kontrol over,” bemærker Sejrherrer, der henviser til, at Rekursion er at generere ny data konstant. På grund af, at han insisterer på, kan virksomheden ikke kun tog, men også validere machine learning modeller med større omhu.

“Det kommer ned til evnen til at generere data på en utrolig stor skala, og også generere det i en stram feedback loop,” siger han. “Det indebærer ofte et meget tæt samarbejde mellem de data, forskere, machine learning eksperter, og life science-eksperter, for at finde ud af, hvordan vi rent faktisk model biologi sig selv, og hvilken effekt der vil være på de analyser, vi vedtager.”

“Fra et business synspunkt, det giver os mulighed for hurtigt at gå efter potentielle lægemiddelkandidater i en virkelig effektiv måde,” siger Sejrherrer. “Vi kan køre et eksperiment for at generere data for at se, om vi tror, at dette stof er potentielt effektive, og så hvis vi gør det, gå for en dybere undersøgelse med stigende doser, og flere gentagelser, for at kontrollere, at på tværs af andre sygdomme reagenser for at se, hvis vi ser lignende virkning, der er der.”

“Vi behøver ikke at outsource alt det,” konstaterer han, af in-vitro test og screening, “og så kan vi fjerne den længere vente tid og de omkostninger, der ville bringe.”

recursion-cto-mason-victors-2019.jpg

Rekursion chief technologist Mason Sejrherrer er anklaget for ikke blot at drille ud af mening fra 65 terabytes af data, der er indsamlet en uge, men også håndtering af lager af 2.5 petabytes af biologiske data, der hober sig op.

Rekursion Lægemidler

Det er ikke bare at have en våd lab, siger Sejrherrer, men også “alle de tekniske infrastruktur, der skal være bygget til at håndtere den mængde af streaming-data,” the big data udfordring, med andre ord. “Det handler om, hvordan du behandler disse data, overføre det op til skyen, gemme det der, det handler om at have skalerbar distribuerede systemer, og derefter returnere data i et passende format til one-off eller ad-hoc-analyser-alle, der er også en stor udfordring på grund af den samlede omfang og ambition, at det vi prøver at opnå.”

At have kontrol over de data, der er vigtig, fordi den kan virksomheden være opmærksom på, hvordan de data, distribution ændrer sig over tid. “Som vi indsnævre vores biologiske værktøjer, vi bruger, til at være mere specifikt og selektivt, kan dette føre til en anden fordeling end i fortiden,” bemærker Sejrherrer. At kende “vintage” af data, hvis du vil, kan virksomheden tilpasse sin analyse til at tage højde for, at drift kan påvirke machine learning. Fordi meget af AI er påvirket af små statistiske variationer i data, at være vidende om ting, såsom distribution skift kan spille en rolle i at få nyttige analyse ud af modellen.

Et resultat af big data indsats er et nyt, offentligt tilgængelige data sæt, der Rekursion udgivet i Maj, kaldet RxRx1. Det består af 300 gigabytes af over 100.000 billeder “, der repræsenterer forskellige biologiske sammenhænge.” Løkke håber de data, der vil anspore eksterne forskere til at udvikle nye machine learning teknikker. Det blev annonceret på den Internationale Konference om Læring Repræsentationer, som måned.

Det meste af, hvad Rekursion skal gøre i machine learning i dag, sådan som den vinkel, afstand af trillinger, ikke kræver dyb læring former for AI i Stedet, det kan gøres med meget basale værktøjer. “Den dybe tilgang til læring er ikke størstedelen af det arbejde, vi gør her,” siger Sejrherrer. “Vi finder supplerende signal der, men den standard tilgange får du 90% af vejen.”

Der er problemer med dyb læring, bemærker han. En “variationsregning auto-encoder,” en populær form af ukontrollerede dyb læring, kan være problematisk, fordi det ikke er tilstrækkeligt selektive.

“Hver gang du generere biologiske data, du har batch-effekter,” bemærker Sejrherrer. “Disse er de gener, der er lidt på grund af den eksperimentelle proces i sig selv — siger, temperaturen var anderledes denne gang, luftfugtigheden var anderledes, eller de celler, der blev behandlet længere end den forudgående tid.”

En variationsregning auto-encoder “vil også være at lære at repræsentere dem, batch-effekter i den repræsentation, som du ikke ønsker,” bemærker han.

Processen af forstyrrende et givet molekyle og se, hvad der sker, lyder lidt som, hvad der er kendt som “reinforcement learning” i machine learning feltet. Som Sejrherrer beskriver det, der er en “state-action” model, samme koncept som i styrkelse læring. “Vi bruger vores billeder til at repræsentere et øjebliksbillede af cellulære stat, og så kan vi handle på de cellulære stater ved at indføre ændringer, og lære betydningen af handlinger.”

Men han skynder sig at tilføje, at det er “helt forskellig fra forstærkning læring på mange måder-det er mere end at lære den statslige indsats forhold, vi har at gøre sikker på, at de data, der går ind i disse funktioner er parret korrekt.”

Relaterede Emner:

Big Data Analytics

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software