Skriven av Tiernan Ray, bidragande författare
Tiernan Ray Bidragande skribent
Bidragande skribent
Fullständig bio den 7 januari 2022 | Ämne: Artificiell intelligens
Genombrottet för CRISPR-teknologin under de senaste två decennierna har gjort det möjligt för biologer att förfina manipulationen av DNA, att skära och tärna det för att skapa organismer som är skräddarsydda för särskilda ändamål. Den där frihjulsredigeringen av gener skapar dock ett nytt problem: hur man organiserar all komplexitet hos de olika redigerade bitarna av DNA.
Det är särskilt viktigt för den månghundra miljarder dollar delen av läkemedelsmarknaden som kallas biologiska läkemedel, i grunden konstruerade proteiner som kan uppnå ett visst syfte. Om du ska konstruera nya proteiner genom CRISPR måste du göra det på ett systemiskt sätt, vilket är ett ganska krävande kombinatoriskt problem.
Därför vänder sig vissa smarta unga biotekniker till former för djupinlärning av artificiell intelligens, eftersom djupinlärning är en teknik som älskar kombinatoriska problem.
Bioteknikföretaget Absci, som offentliggjordes förra året, grundades för ett decennium sedan av VD Sean McClain, som kom på ett nytt sätt att konstruera E. coli-celler som fabriker för att producera anpassade proteiner som en läkemedelstillverkare skulle vilja ha, såsom monoklonala antikroppar som kan bekämpa virus. Man kan säga att McClain är proteintillverkningens Elon Musk.
Större tillverkningsförmåga skapade ett nytt problem: Vad man ska göra, exakt.
Strax innan han offentliggjordes köpte Absci en ny startup, Denovium, ett tre år gammalt företag som banar väg för djupinlärning för att analysera alla de många kombinationer av proteiner som McClains celler kan ta bort.
“Vi har byggt ett mycket stort bibliotek av dessa genetiska delar, och vi kan knäppa ihop dem kombinatoriskt”, säger Abscis chefsteknolog Matthew Weinstock. “Och vilken sekvens av DNA som är bäst för att producera detta protein är problemet med kodonoptimering, och det är en mycket stor utmaning.”
Absci Inc.
“Vi har byggt ett mycket stort bibliotek av dessa genetiska delar, och vi kan knäppa ihop dem kombinatoriskt”, förklarade Abscis chefteknolog Matthew Weinstock i ett möte med ZDNet via Zoom . “Och vilken sekvens av DNA som är bäst för att producera detta protein är problemet med kodonoptimering, och det är en mycket stor utmaning.”
“Om vi har en miljon till en miljard olika cellinjer behöver vi en screeningskapacitet som gör att vi kan gå igenom dem för att fiska ut nålarna från höstacken, för att hitta dessa genetiska design är de rätta.”
< p>Inte bara är tillverkningen av proteiner en kombinatorisk utmaning, utan det är också bestämningen av vilket protein som kommer att fungera som biologiskt ämne för en given sjukdom, den grundläggande frågan om läkemedelsupptäckt.
“Vi kan randomisera själva proteinsekvensen och fråga vilken proteinsekvens som är bäst för att binda till just detta mål”, sa Weinstock.
Weinstock, som har en doktorsexamen i biokemi från University of Utah, hade tidigare drivit utvecklingen av nästa generations terapi vid startupen Synthetic Genomics, Inc. Där träffade han Gregory J. Hannum, en doktor i bioteknik från UC San Diego . Hannum skulle fortsätta med att grunda Denovium för att bygga verktyg för djupinlärning.
Efter förvärvet för ett år sedan blev Hannum medledare för AI-forskning på Absci, tillsammans med sin Denovium-grundare, Ariel Schwartz.
“Biologi är ett av de mest komplexa problemen som planeten har”, sa Hannum i samma intervju med ZDNet.
“Det är i grunden ett självstövlat system, miljarder år på väg att, om vi bara kunde förstå vad alla olika bokstäver är och vad deras kombinationer var, skulle vi ha en enorm kraft att konstruera nya droger och hjälpa mänskligheten på nya sätt.”
Biologiområdet har byggt upp “vackra databaser” genom observation i våtlabb, konstaterar Hannum, som UniProt-databasen eller Universal Protein Resource, som underhålls av ett konsortium av forskningscentra runt om i världen, och som finansieras av en grupp regeringskontor, inklusive USA:s National Institutes of Health och National Science Foundation.
Trots dessa vackra databaser, och trots grundläggande analys med tekniker som Hidden Markov Models, förblir en tredjedel av alla proteiner ett mysterium när det gäller deras funktion.
För att försöka lösa mysteriet byggde Denovium en jättemodell för att hantera alla proteiner på en gång.
“Istället för att ha hundratusentals små modeller byggde vi en modell för djupinlärning som kan gå direkt från sekvens till funktion.”
Den gigantiska modellen har vad som kallas en “inbäddning”, en representation av proteiner som är “mycket generaliserbar”, sa Hannum. Se det som att komprimera det som är känt om proteinet till en uppsättning punkter som skulle återskapa det som är känt om vilket protein som helst.
Se även: Google DeepMinds insats mot COVID-19 coronavirus vilar på jättarnas axlar.
“Detta ger oss massor av fördelar”, sa Hannum. “Vi kan kommentera proteiner”, vilket betyder att tilldela hypoteser om deras funktioner, “av vilka många aldrig hade förstått.”
Dessutom kan den hitta nya proteiner vars aminosyrasekvens fortfarande är okänd genom att hitta funktionella homologer som har liknande egenskaper som de kända.
Modellen kan också göra förutsägelser om vad förändrade aminosyrasekvenser kan göra. “Du vet att det här har DNA-bindande egenskaper; tänk om jag ändrar den här basen”, vilket betyder aminosyrabas, sa Hannum.
“Det tog decennier för forskare att bygga Uniprot”, konstaterade han. Med Denovium-modellen kan Absci köra om sina förutsägelser mot Uniprot-databasen under en helg. “Vi kan generera enorm ny information.”
Denovium studerade inte bara proteiner; det byggde också ett program som heter Gateway för att koppla ihop DNA och proteiner. Gateway länkar DNA- och proteinrepresentationer i en modell för att låta en forskare “dra och släppa ett helt genom och hitta varje protein och kommentera deras funktioner, allt i en enda modell, som fortfarande är toppmodern”, säger Hannum.< /p>
Väl inne i Absci gick utmaningen för Hannum och Schwartz från att bara kommentera DNA och proteiner till att lösa det tillverkningsproblem som Weinstock hade att göra med.
Ett exempel är att hitta nya “chaperones”, proteiner som styr veckningen av proteiner. “Vi kan ta de vi kände till och hitta många, många fler” genom att känna likheter mellan kända och okända, sa Hannum. “Istället för att bara hitta en lista över dem kan vi faktiskt karakterisera dem i funktionella grupper, säga att de är lika, och bygga en hel karta över alla proteiner som är relaterade till hur de hjälper andra proteiner att vikas.”
Den funktionen är “verkligen unik”, sa Weinstock. Det har ökat Abscis produktion av proteiner mer än tvåfaldigt.
Rätt chaperonprotein, i det här fallet, är inte något som någon skulle ha trott skulle fungera när det betraktas med traditionella bioinformatiska verktyg. “Det var ett protein med okänd funktion, från en obskyr rotbakterie”, sa Weinstock. “Men modellen sa faktiskt till oss att det här förmodligen är en följeslagare, och det fick oss att prova.”
För att bygga den gigantiska modellen på Denovium började Hannum och Schwartz med vad han kallade “ganska primitivt” ” närmar sig, med hjälp av konvolutionella neurala nätverk, eller CNN: er, bildigenkänningens arbetshäst.
Sedan dessa tidiga ansträngningar har teamet anammat Transformers, de stora uppmärksamhetsbaserade modellerna som utvecklats av Google och “mycket av arkitekturerna runt omkring.” Det finns många sätt, sa han, som naturlig språkbehandling av den sort som Transformers gör kan komplettera bildigenkänning.
Det har ekon för DeepMinds proteinveckningsprogram AlphaFold, som i sin andra version, i somras, gick från att använda veck till att använda uppmärksamhetsbaserade modeller.
Digital transformation | CXO | Internet of Things | Innovation | Företagsprogramvara | Smarta städer