Big data bias: het Maken van statistieken meer wetenschap en minder alchemie
Tonya Hal praat met Ketan Gangatirkar, vice-president van engineering voor werkzoekende producten Indeed.com over de mogelijkheden en de noodzaak tot het maken van een statistiek worden vaak gebruikt bij iedereen.
Wanneer de machine learning wordt toegepast op een bepaald gebied van de industrie, het definiëren van de doelstelling is een van de meest in het oog springende vragen. Precies wat je probeert uit te vinden?
In de biologische wetenschappen, dat kan een zeer lastige vraag, als zes-jaar-oude opstarten Recursie Pharmaceuticals heeft geleerd uit ervaring. De hoeveelheid gegevens breidt snel en weten hoe je frame een objectief die leidt tot inzichten uit de gegevens is iets van een art.
“Het is nog steeds een big data-probleem,” zegt Mason Overwinnaars, chief technologist van Recursie, die is gevestigd in Salt Lake City, Utah. “We hebben gekozen voor een zeer grote strook van de biologie op om de ontwikkeling van ons platform in de loop van vele jaren,” zei hij in een interview met ZDNet. En dat brengt uitdagingen.
Het bedrijf verzamelt 65 terabyte aan data per week, die wordt opgeslagen in Google ‘ s cloud computing facility. Recursie heeft vergaard ongeveer 2,5 petabytes aan informatie over iets meer dan vier jaar.
Recursie is het proberen twee dingen te doen die complementair zijn maar ook enorm ambitieus. Nominaal, Recursie ‘ s missie is het vinden van behandelingen voor ziekten, op een manier die bezuinigingen op de duur pijplijn van ontwikkeling.

Een afbeelding van een menselijke nier cel gekleurd met meerdere fluorescerende kleurstoffen. In de cel schilderij aanpak van Recursie, het doel is om te identificeren, niet slechts een paar, maar honderden of duizenden van de kenmerken van de cellen die een machine learning programma kan vervolgens analyseren.
Recursie Pharmaceuticals
De grander, “twee jaar” visie voor het bedrijf, als mede-oprichter en chief executive Chris Gibson toegelicht in een interview met ZDNet, is in staat “om te voorspellen hoe een molecuul, groot of klein, zullen van invloed zijn op staat” van de cel. Het is wat hij en de Winnaars verwijzen naar een kaart van alle menselijke celbiologie, zo veel mogelijk details over de “morfologie” van cellen, hun vorm en structuur.
Recursie heeft gekregen wat een aanzienlijk bedrag voor die zeer grote data science project. Het onlangs scoorde $121 miljoen in venture geld in een C-Serie rond geleid door de Britse investeringsfonds Baillie Gifford, voor een totaal van $200 miljoen aan investeringen-to-date.
Zoeken naar behandelingen, terwijl ook het beheer van het ambitieuze project van het maken van een kaart van alle menselijke cellen is een evenwichtsoefening, waarbij het doel van de functie kan eenvoudig zijn, maar de data-management kan zeer ingewikkeld.
Ook: AI-pionier Sejnowski, zegt alles over het verloop
Het begint met een procedure genaamd “cel schilderij” dat betrekking heeft op de cellen in de zoveel tl sterft mogelijk uit te brengen van aspecten van de structuur van de cel. Cel schilderij werd ontwikkeld door Anne Timmerman van de Brede Instituut van MIT en Harvard in Cambridge, Mass., die loopt van de Timmerman Lab-er. De software die zij gemaakt, “CellProfiler,” is beschikbaar voor gratis download.
Het schilderen van de cel gaat verder dan de typische “screening” van cellen, die tot doel heeft om te kiezen uit een handvol kenmerken. In plaats daarvan, het proces van het creëren van een “profiel” van een cel telt honderden of duizenden van de kenmerken over de structuur van een cel die kan dan ingevoerd worden als input voor een machine learning model om ook kenmerken van belang dat veranderen met verstoringen. De verstoringen kunnen zijn zoiets als het wijzigen van een cel RNA om te zien hoe het verandert de structuur van de cel.
Gibson voor het eerst ontdekt Timmerman aanpak toen hij het nastreven van een PhD aan de Universiteit van Utah. “Het is een mooie manier van het nemen van foto’ s van cellen,” zegt Gibson, maar het was ook iets van een openbaring voor hem op het moment. Hij herinnert zich dat hij met de Western blot techniek voor het verkennen van een aandoening, de zogenaamde “cerebrale caverneuze misvorming,” of CCM, waar de bloedvaten in de hersenen vervormd raken, wat kan leiden tot het equivalent van een miniatuur van een beroerte. De Western blot aanpak was vervelend, het onderzoeken van een eiwit in een tijd.
Recursie chief executive Chris Gibson had een openbaring van soorten als hij was bezig met zijn PhD en ondervonden Anne Timmerman techniek voor het kleuren van cellen te maken massieve profielen. Hij richtte het bedrijf op de veronderstelling veel meer informatie over de morfologie kan opleveren van nieuwe aanwijzingen voor de ziekte.
Recursie Pharmaceuticals
“We hadden vertrouwd te raken met de Carpenter’ s aanpak, waar zij zich kunnen voeden dingen in een machine classifier”,” herinnert hij zich, en het automatiseren van het onderzoek van vele moleculen in een keer. Gibson en zijn mentor, Decaan Li, daarna professor in de geneeskunde en de biologie aan de universiteit, probeerde de aanpak. Cel schilderij was in staat om te bevestigen wat voorgevoelens voor Gibson in de sporen van CCM, maar ook, “was het zien van iets wat ik niet zien,” zei hij bij de toepassing van machine learning aan de informatie-rijke beelden. Gibson samen met Li gevonden Recursie op de stelling dat rijke foto ‘ s van cellen zou kunnen opleveren originele inzichten die regelmatige screening kon het niet. Ze werden vergezeld door een derde mede-oprichter, bioinformatician Blake Borgeson.
Timmerman dient als een wetenschappelijk en technisch adviseur voor het bedrijf. Andere adviseurs zijn beroemde diep leren onderzoeker Yoshua Bengio, hoofd van Montreal prestigieuze MILA instituut voor machine learning, en één van de drie ontvangers van dit jaar is de ACM Turing award for lifetime computer science prestatie, samen met Yann LeCun van Facebook en Geoffrey Hinton van de Universiteit van Toronto.
Uit de cel schilderijen, machine learning wordt toegepast om te plagen uit een aantal fundamentele relaties die van belang kunnen zijn. “Wat belangrijk is, is wat is de taak je te trainen in het netwerk op, hoe vind je de dingen die je zorg over,” zegt de CTO van Overwinnaars, die in het bezit van een master in de wiskunde aan de Brigham Young University, en die heeft gediend als een data-scientist bij vorige startups.
Ook: Instagram voorspelt de griep. Wie had dat gedacht? AI wist, dat die
Een eenvoudige vraag kan worden, Doen deze cellen er hetzelfde uit? “Je feed drieling van voorbeelden van cellen op een netwerk, en twee van hen moeten vergelijkbaar zijn, en een derde moet anders”, legt hij uit. De drieling zijn het resultaat van het coderen van de cel schilderij functies als “embeddings”, of wat Overwinnaars roept ze te plaatsen in de “latente vertegenwoordiging ruimte.” Enkele zeer eenvoudige benaderingen in de statistieken kan worden gebruikt, zoals het meten van de “hoekafstand tussen de kenmerken van de verschillende cellen.
“We hebben heel veel tractie in de modellering dingen geometrisch,” zegt hij. “Hoekafstand is echt een handig gegeven, in tegenstelling tot de Euclidische afstand.”
Maar het meten van functies is niet genoeg, dat is de reden waarom het bedrijf onderhoudt een “nat lab’, waar verstoringen kunnen worden uitgeprobeerd in vitro om te zien hoe een bepaald molecuul reageert op een compound. De dans van de plagen van betekenis van giant data is een groot ding dat stelt het bedrijf, afgezien van een reeks start-ups in de AI van de biologie en de geneeskunde, aldus de Winnaars.
“Andere groepen in drug discovery zijn handboeien aan bestaande statische datasets ze hebben er geen controle over,” merkt Overwinnaars, terwijl Recursie is het genereren van nieuwe gegevens voortdurend in de gaten. Vanwege dat, zegt hij, kan het bedrijf niet alleen trainen, maar ook het valideren van machine learning modellen met een grotere zorg.
“Het komt neer op de mogelijkheid om gegevens te genereren in een ongelooflijk grote schaal en ook het genereren van in een strakke feedback loop”, zegt hij. “Het gaat vaak om een zeer nauwe samenwerking tussen de gegevens wetenschappers, de machine learning experts en de life science-experts, om erachter te komen hoe we eigenlijk model van de biologie zelf, en wat de impact gaat zijn op de analyses die we aannemen.”
“Vanuit een zakelijk oogpunt, het laat ons snel even na potentiële kandidaat-geneesmiddelen in een echt effectieve manier,” zegt het Meisje. “Kunnen We een experiment uitvoeren om gegevens te genereren om te zien of we denken dat deze verbinding is het mogelijk effectief is, en dan als we dat doen, gaan voor een diepere studie met toenemende doses, en meer herhaald, om te controleren of over andere ziekte reagentia om te zien of we zien een vergelijkbare effectiviteit zijn er.”
“Wij hebben niet uit te besteden is dat,” merkt hij op van de in-vitro testen en screenen, “en zo kunnen we elimineren de langere wachttijden en de kosten zouden brengen.”
Recursie chief technologist Mason Overwinnaars is belast met niet alleen het pesten uit de betekenis van 65 terabytes aan gegevens verzameld van een week, maar ook het beheren van de voorraad van 2,5 petabytes van biologische gegevens stapelen zich op.
Recursie Pharmaceuticals
Het is niet alleen het hebben van een nat lab, zegt het Meisje, “maar ook de technische infrastructuur die gebouwd moet worden voor het verwerken van de hoeveelheid streaming data,’ the big data challenge, met andere woorden. “Het gaat over hoe verwerkt u de gegevens overbrengen naar de cloud, ze daar op te slaan, het is over het hebben van schaalbare gedistribueerde systemen, en vervolgens de gegevens retourneren in een geschikt formaat voor eenmalige of ad-hoc analyses — dat is ook een grote uitdaging, omdat de totale omvang en ambitie van wat we proberen te bereiken.”
Het hebben van controle over de gegevens is van belang omdat de vennootschap kan worden zich bewust van hoe de gegevens verdeling in de tijd verandert. “Als we verfijnen onze biologische hulpmiddelen die we gebruiken, om meer specifieke en selectieve, dit kan leiden tot een andere verdeling dan in het verleden,” aldus de Winnaars. Het kennen van de “vintage” van gegevens, als u wil, kan het bedrijf aanpassen van de analyse rekening te houden met hoe die drift kan van invloed zijn op machine learning. Omdat veel van de AI wordt beïnvloed door kleine statistische variaties in de data, wordt bewust van de dingen, zoals de verdeling verschuivingen kunnen een rol spelen in het krijgen van nuttige analyse van het model.
Een van de resultaten van het big data-inspanningen is een nieuwe, publiekelijk beschikbare gegevens stellen dat Recursie uitgebracht in Mei, de zogenaamde RxRx1. Het bestaat uit 300 gigabytes van meer dan 100.000 afbeeldingen die de verschillende biologische context.” Recursie hoopt dat de data set zal spur buiten onderzoekers ontwikkelen nieuwe machine learning technieken. Het werd aangekondigd op de Internationale Conferentie op het Leren van Verklaringen die maand.
Het meeste van wat Recursie moet doen in machine learning van vandaag, zoals de hoekafstand van een drieling, er hoeft niet diep leren vormen van AI in Plaats daarvan, het kan worden gedaan met een zeer basic tools. “De deep learning aanpak is niet de meerderheid van het werk dat we hier doen,” zegt het Meisje. “We vinden complementaire signaal, maar de standaard benaderingen krijgt u 90% van de weg.”
Er zijn problemen met diep leren, merkt hij op. Een “afwijkende auto-encoder, een populaire vorm van toezicht diep leren, kan problematisch zijn, want het is niet selectief genoeg.
“Elke keer als je het genereren van biologische gegevens, heb je batch-effecten”, aldus de Winnaars. “Dit zijn de overlast factoren die zijn gewoon te wijten aan het experimentele proces van zelf-zeggen, de temperatuur was dit keer anders, de luchtvochtigheid was anders, of de cellen werden behandeld langer dan de voorafgaande tijd.”
Een afwijkende auto-encoder “zou ook moeten leren hoe om die batch-effecten in de voorstelling, die je niet wilt,” merkt hij op.
Het proces van indringend een bepaald molecuul en zien wat er gebeurt klinkt een beetje als wat bekend staat als “reinforcement learning” in de machine learning gebied. Als Overwinnaars wordt beschreven, is er een “state-actie” model, hetzelfde concept als in reinforcement learning. “We gebruiken onze foto’ s die een momentopname van cellulaire staat, en dan kunnen we handelen op die mobiele staten door de invoering van verstoringen, en leren de betekenis van de acties.”
Maar hij dringt aan toevoegen, het is “heel verschillend van reinforcement learning in veel opzichten — het is meer dan het leren van de toestand-actie-relatie, hebben wij ervoor zorgen dat de gegevens die in deze functies is afgestemd op de juiste wijze.”
Verwante Onderwerpen:
Big Data Analytics
Digitale Transformatie
CXO
Het Internet van Dingen
Innovatie
Enterprise Software