Big data partiskhet: att Göra statistiken mer vetenskap och mindre alchemy
Tonya Hall berättar att Ketan Gangatirkar, vice president of engineering för arbetssökande produkter på Indeed.com om den möjliga och den behöver för att skapa ett mått för att vara vanligaste bland alla.
När maskinen lärande tillämpas på en viss bransch, att definiera målet är en av de mest framträdande frågor. Precis vad är det du försöker att ta reda på?
I de biologiska vetenskaperna, som kan vara en mycket knepig fråga, som sex-åring start Rekursion Läkemedel har lärt mig av erfarenhet. Mängden data som expanderar snabbt och veta hur till ruta ett mål som ger insikter från de uppgifter som är något av en konst.
“Det är fortfarande ett big data problem, säger Mason Segrarna, chief technologist av Rekursion, som är baserat i Salt Lake City, Utah. “Vi har valt ett mycket stort stråk av biologi på att utveckla vår plattform under många år,” sade han i en intervju med ZDNet. Och som ger utmaningar.
Företaget samlar 65 terabyte data per vecka, som man lagrar på Googles cloud computing-anläggning. Rekursion har samlat ungefär 2,5 petabyte av information i lite över fyra år.
Rekursion är att försöka göra två saker som kompletterar varandra, men också väldigt ambitiöst. Nominellt, Rekursion: s uppdrag är att hitta botemedel mot sjukdomar, på ett sätt som skär ner på dyra pipeline av utveckling.

En bild av en människa njure cellen färgas med flera fluorescerande färgämnen. I cellen målning-strategi som antogs av Rekursion, målet är att identifiera inte bara en handfull men hundratals eller tusentals funktioner i celler som en maskin lärande program som kan analysera.
Rekursion Läkemedel
Den större, “två decennium” vision för företaget, som medgrundare och vd Chris Gibson förklarade i en intervju med ZDNet, är att kunna “förutsäga hur vilken molekyl som helst, stort eller litet, kommer att påverka en stat” av cellen. Det är vad han och Segrarna se som en karta över alla mänskliga cellbiologi, så många detaljer som möjligt om “morfologi” av celler, deras form och struktur.
Rekursion har fått några betydande finansiering för att mycket stora data vetenskapligt projekt. Det har nyligen fått $121 miljoner i venture pengar i en Serie C-rundan leddes av Brittiska investeringsfonden Baillie Gifford, för en summa av $200 miljoner i investering hittills.
Söker efter behandlingar och samtidigt klara av det ambitiösa projektet att skapa en karta över alla mänskliga celler är en balansgång, där den objektiva funktionen kan vara enkla, men för hantering av data kan vara mycket komplicerat.
Också: AI pionjär Sejnowski säger att det handlar om gradient
Det börjar med ett förfarande som kallas “cell målning” som täcker cellerna i så många lysrör dör som möjligt, att få fram aspekter av den struktur i cellen. Cell måleri utvecklades av Anne Snickare för Broad Institute of MIT and Harvard i Cambridge, Mass., som driver Snickare Lab där. Programmet skapade hon, “CellProfiler,” är tillgänglig för nedladdning gratis.
Målning cellen går utanför den typiska “screening” av celler, som syftar till att välja ut en handfull funktioner. I stället processen för att skapa en “profil” av en cell som kvantifierar hundratals eller tusentals egenskaper om struktur i en cell som sedan kan införas som en ingång till en lärande modell för att i sin tur hitta funktioner av intresse att förändras i och med störningar. De störningar kan innehålla något som förändrar en cell RNA att se hur det ändrar struktur i cellen.
Gibson upptäckte först Carpenter ‘ s strategi när han var att driva en Doktorsexamen vid University of Utah. “Det är ett finare sätt att ta bilder av celler, säger Gibson, men det var också något av en uppenbarelse för honom på den tiden. Han påminner om att med hjälp av Western blot-teknik för att utforska ett tillstånd som kallas “cerebral ihålig missbildning,” eller CCM, där blodkärlen i hjärnan blivit deformerad, vilket kan leda till motsvarande en miniatyr stroke. Western blot strategi var tråkiga, handläggningen av ett protein vid en tidpunkt.
Rekursion vd Chris Gibson hade en uppenbarelse av slag när han var att hans PhD och stött Anne Carpenter ‘ s teknik för färgning celler för att skapa massiva profiler. Han grundade företaget på förutsättningen vida mer information om cell morfologi kan ge nya ledtrådar för sjukdom.
Rekursion Läkemedel
“Vi hade blivit bekant med Carpenter’ s synsätt, där hon kunde för att mata in saker i en maskin klassificerare”, minns han, och automatisera behandlingen av många molekyler alla på en gång. Gibson och hans mentor, Rektor Li, då professor i medicin och biologi vid universitetet, provat metoden. Cell målning kunde bekräfta vissa föraningar för Gibson i spåren av KONVENTIONEN, men också, “det var att se något jag inte ser,” sade han vid tillämpning av maskininlärning till information-rika bilder. Gibson gick med Li som finns Rekursion på förutsättningen att rika bilder av celler som skulle kunna ge originella insikter som regelbunden screening kunde inte. De fick sällskap av en tredje grundare, bioinformatician Blake Borgeson.
Snickare fungerar som en vetenskaplig och teknisk rådgivare till bolaget. Andra rådgivare inkluderar berömda djupt lärande forskare Yoshua Bengio, chef för Montreal prestigefyllda MILA-institutet för maskininlärning, och en av de tre mottagarna av årets ACM Turing award for lifetime datavetenskap prestation, tillsammans med Yann LeCun av Facebook och Geoffrey Hinton från University of Toronto.
Från cell målningar, machine learning tillämpas för att reda ut en del grundläggande relationer som kan vara betydande. “Det viktiga är vad som är den uppgift som du skall träna nätverket på, hur gör du för att hitta saker du bryr dig om”, säger CTO Segrarna, som har en magisterexamen i matematik från Brigham Young-Universitetet, och som har fungerat som en data scientist vid tidigare startups.
Också: Instagram förutspår influensa. Vem visste? AI visste, som är vem
En enkel fråga kan vara, Göra dessa celler ser likadana ut? “Du föda trillingar exempel på celler till ett nätverk, och två av dem ska vara liknande, och en tredje skulle vara annorlunda”, förklarar han. Trillingarna är resultatet av kodningen cellen målning funktioner som “embeddings”, eller vad Segrarna samtal placera dem i “latent representation utrymme.” Några mycket enkla metoder inom statistik kan användas, såsom mätning av vinkelfel avstånd” mellan funktionerna i de olika cellerna.
“Vi har hittat en hel del dragkraft i modellering saker geometriskt, säger han. “Vinkelavståndet är verkligen ett användbart mått i motsats till den Euklidiska avståndet.”
Men bara att mäta egenskaper inte är tillräckligt, vilket är anledningen till att företaget har ett “vått lab”, där störningar kan prövas för in vitro-att se hur en viss molekyl som svarar för att en förening. Dansen bråkade mening jätte data är en stor sak som sätter företaget bortsett från en rad olika startups i AI av biologi och medicin, säger Segrarna.
“Andra grupper i drug discovery är handbojor på att befintlig statisk data anger att de inte har någon kontroll över, säger Segrarna, medan Rekursion är att generera nya data hela tiden. På grund av detta, menar han, kan företaget inte bara träna utan också validera modeller med större omsorg.
“Det handlar om förmågan att generera data på en otroligt stor skala och också generera den i en tät feedback loop”, säger han. “Det innebär ofta ett mycket tätt samarbete mellan de uppgifter som forskare, maskininlärning experter, och life science-experter, för att räkna ut hur vi faktiskt modell biologi sig, och vilka effekter som kommer att vara på de analyser vi anta.”
“Från en affärs-synpunkt, det låter oss snabbt gå efter potentiella läkemedelskandidater på ett riktigt effektivt sätt”, säger Segraren. “Vi kan köra ett experiment för att generera data för att se om vi tror att denna förening är potentiellt effektiv, och sedan om vi gör det, gå för en djupare studie med ökande doser, och fler replikat, för att kontrollera att hela andra sjukdomar reagens för att se om vi kan se samma effekt där.”
“Vi behöver inte lägga ut alla, konstaterar han av in-vitro-testning och screening, “och så kan vi eliminera längre väntetider och kostnader det skulle medföra.”
Rekursion chief technologist, Mason Segrarna är laddat med inte bara bråkade ut en mening från 65 terabyte data samlades en vecka, men också att hantera lager på 2,5 petabyte av biologiska data som hopar sig.
Rekursion Läkemedel
Det är inte bara att ha en våt lab, säger Segrarna, men också “all teknisk infrastruktur som måste byggas upp för att hantera mängden av strömmande data,” big data utmaning med andra ord. “Det handlar om hur du bearbetar data, överföring upp till molnet, lagra det, det handlar om att ha skalbara distribuerade system, och sedan återvänder data i ett lämpligt format för engångs-eller ad-hoc-analyser, allt det är också en stor utmaning på grund av den totala omfattningen och ambitionsnivån för vad vi försöker åstadkomma.”
Att ha kontroll över information är viktig eftersom företaget kan vara uppmärksam på hur data fördelningen förändras över tid. “Som vi förfina vår biologiska verktyg vi använder, för att vara mer specifika och selektiva, detta kan leda till att en annan fördelning än tidigare, konstaterar Segrarna. Att veta “vintage” av data, om du vill, kan företaget anpassa sin analys ta hänsyn till hur som krypning kan påverka maskinen lärande. Eftersom mycket av AI påverkas av små statistiska variationer i data, att vara medveten om sådana saker som distribution förändringar kan spela en roll för att få en användbar analys av modellen.
Ett resultat av big data insatser är en ny, offentligt tillgängliga data, som Rekursion som släpptes i Maj, som kallas RxRx1. Det består av 300 gigabyte över 100 000 bilder “som representerar olika biologiska sammanhang.” Rekursion hoppas de uppgifter som kommer att sporra till externa forskare för att utveckla nya maskinen lärande tekniker. Det tillkännagavs vid den Internationella Konferensen om Lärande representation månad.
Det mesta av vad Rekursion behöver göra i maskininlärning idag, såsom vinkelavståndet trillingar, kräver inte djupt lärande former av AI i Stället, det kan göras med mycket grundläggande verktyg. “Det djupa lärandet är inte majoriteten av det arbete vi gör här”, säger Segraren. “Vi kompletterar signal om det, men det vanliga metoder får du 90% på vägen dit.”
Det finns problem med djupt lärande, konstaterar han. En “variational auto-kodare,” en populär form av oövervakad djupt lärande, kan vara problematiskt eftersom det inte är tillräckligt selektiva.
“Varje gång du genererar biologiska data, har du batch-effekter”, konstaterar Segrarna. “Dessa störande faktorer som är bara på grund av den experimentella processen i sig — säg, temperaturen var annorlunda den här gången, luftfuktigheten var olika, eller de celler behandlades längre än den tidigare tiden.”
En variational auto-kodare “skulle också vara att lära sig hur man kan representera dem som parti effekter i representationen, som du inte vill ha, konstaterar han.
Processen för störande en viss molekyl och se vad som händer låter lite som att vad som kallas “inlärning” i maskinen lärande. Som Segrare beskriver det, det är en “state-action” – modell, samma koncept som i reinforcement learning. “Vi använder våra bilder för att representera en ögonblicksbild av cellulära staten, och då kan vi agera på de cellulära stater genom att införa störningar, och lära sig innebörden av åtgärder.”
Men han skyndar sig att tillägga, det är “helt annorlunda från inlärning på många sätt-det är mer än att lära sig staten-action relation, vi måste se till att uppgifterna kommer in i dessa funktioner är ihopkopplade på rätt sätt.”
Relaterade Ämnen:
Big Data Analytics
Digital Omvandling
CXO
Sakernas Internet
Innovation
Affärssystem