Skrevet av Tiernan Ray, Bidragende Writer
Tiernan Ray Bidragsforfatter
Bidragende skribent
Full bio 7. januar 2022 | Emne: Kunstig intelligens
Gjennombruddet til CRISPR-teknologien de siste to tiårene har gjort det mulig for biologer å foredle manipulasjonen av DNA, kutte og kutte det for å skape organismer som er skreddersydd for spesielle formål. Den frihjulsredigeringen av gener skaper imidlertid et nytt problem: hvordan organisere all kompleksiteten til de forskjellige redigerte delene av DNA.
Dette er spesielt viktig for den multi-hundre-milliarder-dollar delen av medikamentmarkedet kalt biologics, i utgangspunktet konstruerte proteiner som kan oppnå et bestemt formål. Hvis du skal konstruere nye proteiner gjennom CRISPR, må du gjøre det på en systemisk måte, som er et ganske krevende kombinatorisk problem.
Derfor tyr noen smarte unge biotekere til dyplæringsformer for kunstig intelligens, ettersom dyp læring er en teknologi som elsker kombinatoriske problemer.
Bioteknologifirmaet Absci, som ble offentlig i fjor, ble grunnlagt for et tiår siden av administrerende direktør Sean McClain, som kom opp med en ny måte å konstruere E. coli-celler som fabrikker for å produsere tilpassede proteiner som en legemiddelprodusent vil ha, for eksempel monoklonale antistoffer som kan bekjempe virus. Du kan si at McClain er Elon Musk innen proteinproduksjon.
Større produksjonsevne skapte et nytt problem: Hva skal man lage, nøyaktig.
Kort før den ble børsnotert kjøpte Absci en annen oppstart, Denovium, et tre år gammelt firma som er banebrytende i dyp læring for å analysere alle de mange kombinasjonene av proteiner som McClains celler kan churne ut.
“Vi har bygget et veldig stort bibliotek av disse genetiske delene, og vi kan knipse dem sammen kombinatorisk,” sier Absci-sjefteknolog Matthew Weinstock. “Og hvilken sekvens av DNA som er best for å produsere dette proteinet er problemet med kodonoptimalisering, og det er en veldig stor utfordring.”
Absci Inc.
“Vi har bygget et veldig stort bibliotek av disse genetiske delene, og vi kan koble dem sammen kombinatorisk,” forklarte Absci-sjefteknolog Matthew Weinstock i et møte med ZDNet via Zoom . “Og hvilken sekvens av DNA som er best for å produsere dette proteinet er problemet med kodonoptimalisering, og det er en veldig stor utfordring.”
“Hvis vi har en million til en milliard forskjellige cellelinjer, trenger vi en screeningsevne som lar oss gå gjennom dem for å fiske ut nålene fra høystakken, for å finne at disse genetiske designene er de riktige.”
< p>Ikke bare er produksjonen av proteiner en kombinatorisk utfordring, men det er også bestemmelsen av hvilket protein som vil fungere som et biologisk middel for en gitt sykdom, det grunnleggende spørsmålet om medikamentoppdagelse.
“Vi kan randomisere selve proteinsekvensen og spørre hvilken proteinsekvens som er best for binding til dette bestemte målet,” sa Weinstock.
Weinstock, som har en doktorgrad i biokjemi fra University of Utah, hadde tidligere drevet utviklingen av neste generasjons terapi ved oppstarten Synthetic Genomics, Inc. Der møtte han Gregory J. Hannum, en PhD i bioingeniør fra UC San Diego . Hannum ville fortsette med å grunnlegge Denovium for å bygge dype læringsverktøy.
Etter oppkjøpet for et år siden ble Hannum medleder for AI-forskning ved Absci, sammen med sin Denovium-medgründer, Ariel Schwartz.
“Biologi er et av de mest komplekse problemene som planeten har,” sa Hannum i det samme intervjuet med ZDNet.
“Det er i hovedsak et selvstøvlet system, milliarder av år underveis. Hvis vi bare kunne forstå hva alle de forskjellige bokstavene er, og hvilke kombinasjoner deres var, ville vi ha en enorm kraft til å konstruere nye stoffer og hjelpe menneskeheten på nye måter.”
Biologifeltet har bygget “vakre databaser” ved våtlabobservasjon, bemerker Hannum, for eksempel UniProt-databasen eller Universal Protein Resource, som vedlikeholdes av et konsortium av forskningssentre rundt om i verden, og som er finansiert av en gruppe av offentlige kontorer, inkludert USAs National Institutes of Health og National Science Foundation.
Til tross for de vakre databasene, og til tross for grunnleggende analyser med teknikker som Hidden Markov Models, forblir en tredjedel av alle proteiner et mysterium når det gjelder funksjon.
For å prøve å løse mysteriet bygde Denovium én gigantisk modell for å takle alle proteiner samtidig.
“I stedet for å ha hundretusenvis av små modeller, bygde vi en dyp læringsmodell som kan gå rett fra sekvens til funksjon.”
Den gigantiske modellen har det som kalles en “embedding”, en representasjon av proteiner som er “veldig generaliserbar,” sa Hannum. Tenk på det som å komprimere det som er kjent om proteinet ned til et sett med punkter som vil reprodusere det som er kjent om et hvilket som helst protein.
Se også: Google DeepMinds innsats mot COVID-19-koronaviruset hviler på skuldrene til gigantene.
“Dette gir oss massevis av fordeler,” sa Hannum. “Vi kan kommentere proteiner,” som betyr, tilordne hypoteser om funksjonene deres, “hvorav mange aldri hadde blitt forstått.”
I tillegg kan den finne nye proteiner hvis aminosyresekvens fortsatt er ukjent ved å finne funksjonelle homologer som har lignende egenskaper som de kjente.
Modellen kan også gi spådommer om hva endrede aminosyresekvenser kan gjøre. “Du vet at dette har DNA-bindende egenskaper; hva om jeg endrer denne basen,” som betyr aminosyre-base, sa Hannum.
“Forskere tok tiår å bygge Uniprot,” observerte han. Med Denovium-modellen kan Absci kjøre sine spådommer på nytt mot Uniprot-databasen i løpet av en helg. “Vi kan generere enorm ny informasjon.”
Denovium studerte ikke bare proteiner; det bygde også et program kalt Gateway for å koble DNA og proteiner. Gateway kobler DNA- og proteinrepresentasjoner i én modell for å la en forsker “dra og slippe et helt genom, og finne hvert protein, og kommentere funksjonene deres, alt i en enkelt modell, som fortsatt er toppmoderne,” sa Hannum.< /p>
Vær inne i Absci flyttet utfordringen for Hannum og Schwartz fra bare å kommentere DNA og proteiner til å løse produksjonsproblemet som Weinstock hadde å gjøre med.
Et eksempel er å finne nye “chaperones”, proteiner som styrer foldingen av proteiner. «Vi kan ta de vi visste om, og finne mange, mange flere» ved å sanse likheter mellom kjent og ukjent, sa Hannum. “I stedet for å bare finne en liste over dem, kan vi faktisk karakterisere dem i funksjonelle grupper, si at disse er like, og bygge et helt kart over alle proteinene relatert til hvordan de hjelper andre proteiner å folde seg.”
Den funksjonen er “virkelig unik,” sa Weinstock. Det har økt Abscis produksjon av proteiner mer enn to ganger.
Det riktige chaperoneproteinet, i dette tilfellet, er ikke noe noen ville ha trodd ville fungere når det ble sett på med tradisjonelle bioinformatikkverktøy. “Det var et protein med ukjent funksjon, fra en obskur rotbakterie,” sa Weinstock. “Men modellen fortalte oss faktisk at dette sannsynligvis er en chaperone, og det førte til at vi prøvde det.”
For å bygge den gigantiske modellen på Denovium, begynte Hannum og Schwartz med det han kalte “ganske primitivt “-tilnærminger, ved å bruke konvolusjonelle nevrale nettverk, eller CNN-er, arbeidshesten til bildegjenkjenning.
Siden den tidlige innsatsen har teamet omfavnet Transformers, de store oppmerksomhetsbaserte modellene utviklet hos Google, og «mange av arkitekturene rundt der». Det er mange måter, sa han, at naturlig språkbehandling av typen Transformers kan utfylle bildegjenkjenning.
Dette har ekko til DeepMinds proteinfoldingsprogram AlphaFold, som i sin andre versjon, sist sommer, gikk fra å bruke konvolusjoner til å bruke oppmerksomhetsbaserte modeller.
Digital transformasjon | CXO | Internet of Things | Innovasjon | Enterprise Software | Smarte byer