Absci og deep learnings søgen efter det perfekte protein

0
149

Tiernan RaySkrevet af Tiernan Ray, bidragende forfatter Tiernan Ray Tiernan Ray bidragende skribent

Bidragende skribent

Fuld biografi den 7. januar 2022 | Emne: Kunstig intelligens

CRISPR-teknologiens gennembrud i de sidste to årtier har gjort det muligt for biologer at forfine manipulationen af ​​DNA, at skære og skære det i terninger for at skabe organismer, der er skræddersyet til bestemte formål. Den friløbende redigering af gener frembringer dog et nyt problem: hvordan man organiserer al kompleksiteten af ​​de forskellige redigerede DNA-stykker.

Det er især vigtigt for den mange hundrede milliarder dollar del af lægemiddelmarkedet kaldet biologics, dybest set konstruerede proteiner, der kan opnå et bestemt formål. Hvis du skal konstruere nye proteiner gennem CRISPR, skal du gøre det på en systemisk måde, hvilket er et ret krævende kombinatorisk problem.

Derfor vender nogle smarte unge bioteker til deep learning former for kunstig intelligens, da deep learning er en teknologi, der elsker kombinatoriske problemer.

Biotekfirmaet Absci, som blev offentliggjort sidste år, blev grundlagt for ti år siden af ​​administrerende direktør Sean McClain, som fandt på en ny måde at konstruere E. coli-celler som fabrikker til at producere tilpassede proteiner, som en lægemiddelproducent ville have, såsom monoklonale antistoffer der kan bekæmpe vira. Man kan sige, at McClain er Elon Musk inden for proteinfremstilling.

Større produktionskapacitet affødte et nyt problem: Hvad man skal lave, præcist.

Kort før den blev offentlig, købte Absci en anden startup, Denovium, et tre år gammelt firma, der er banebrydende i dyb læring til at analysere alle de mange kombinationer af proteiner, som McClains celler kan udskille.

“Vi har bygget et meget stort bibliotek af disse genetiske dele, og vi kan knipse dem sammen kombinatorisk,” siger Absci chefteknolog Matthew Weinstock. “Og hvilken DNA-sekvens der er bedst til at producere dette protein, er problemet med kodonoptimering, og det er en meget stor udfordring.”

Absci Inc.

“Vi har bygget et meget stort bibliotek af disse genetiske dele, og vi kan knipse dem sammen kombinatorisk,” forklarede Absci chefteknolog Matthew Weinstock i et møde med ZDNet via Zoom . “Og hvilken DNA-sekvens der er bedst til at producere dette protein, er problemet med kodonoptimering, og det er en meget stor udfordring.”

“Hvis vi har en million til en milliard forskellige cellelinjer, har vi brug for en screeningskapacitet, der gør det muligt for os at gå igennem dem for at fiske nålene ud fra høstakken, for at finde ud af, at disse genetiske design er de rigtige.”

< p>Ikke kun er fremstillingen af ​​proteiner en kombinatorisk udfordring, men det er også bestemmelsen af, hvilket protein der vil fungere som biologisk middel for en given sygdom, det grundlæggende spørgsmål om lægemiddelopdagelse.

“Vi kan randomisere selve proteinsekvensen og spørge, hvilken proteinsekvens der er bedst til at binde til netop dette mål,” sagde Weinstock.

Weinstock, som har en ph.d. i biokemi fra University of Utah, havde tidligere drevet udviklingen af ​​next-gen terapi hos startup Synthetic Genomics, Inc. Der mødte han Gregory J. Hannum, en ph.d. i bioingeniør fra UC San Diego . Hannum ville fortsætte med at stifte Denovium for at bygge dybe læringsværktøjer.

Efter opkøbet for et år siden blev Hannum medleder af AI-forskning hos Absci sammen med sin Denovium-medstifter, Ariel Schwartz.

“Biologi er et af de mest komplekse problemer, som planeten har,” sagde Hannum i samme interview med ZDNet.

“Det er i bund og grund et selvstøvlet system, milliarder af år undervejs, at hvis vi bare kunne forstå, hvad alle de forskellige bogstaver er, og hvad deres kombinationer var, ville vi have en enorm kraft til at konstruere nye stoffer og hjælpe menneskeheden på nye måder.”

Biologiområdet har bygget “smukke databaser” ved vådlabobservation, bemærker Hannum, såsom UniProt-databasen eller Universal Protein Resource, som vedligeholdes af et konsortium af forskningscentre rundt om i verden, og som er finansieret af en flok af regeringskontorer, herunder USA's National Institutes of Health og National Science Foundation.

På trods af disse smukke databaser, og på trods af grundlæggende analyser med teknikker som Hidden Markov Models, forbliver en tredjedel af alle proteiner et mysterium med hensyn til deres funktion.

For at prøve at løse mysteriet byggede Denovium en gigantisk model til at tackle alle proteiner på én gang.

“I stedet for at have hundredtusindvis af små modeller, byggede vi en dyb læringsmodel, der kan gå direkte fra sekvens til funktion.”

Den gigantiske model har det, der kaldes en “indlejring”, en repræsentation af proteiner, der er “meget generaliserbar,” sagde Hannum. Tænk på det som at komprimere, hvad der er kendt om proteinet, ned til et sæt punkter, der ville reproducere, hvad der er kendt om ethvert protein.

Se også: Google DeepMinds indsats mod COVID-19 coronavirus hviler på giganternes skuldre.

“Dette giver os et væld af fordele,” sagde Hannum. “Vi kan annotere proteiner,” hvilket betyder, at tildele hypoteser om deres funktioner, “hvoraf mange aldrig var blevet forstået.”

Derudover kan den finde nye proteiner, hvis aminosyresekvens stadig er ukendt ved at finde funktionelle homologer, der har lignende egenskaber som de kendte.

Modellen kan også komme med forudsigelser om, hvad ændrede aminosyresekvenser kan gøre. “Du ved, at dette har DNA-bindende egenskaber; hvad nu hvis jeg ændrer denne base,” hvilket betyder aminosyre-base, sagde Hannum.

“Forskere tog årtier at bygge Uniprot,” bemærkede han. Med Denovium-modellen kan Absci køre sine forudsigelser igen mod Uniprot-databasen i løbet af en weekend. “Vi kan generere enorm ny information.”

Denovium studerede ikke kun proteiner; det byggede også et program kaldet Gateway til at forbinde DNA og proteiner. Gateway forbinder DNA- og proteinrepræsentationer i én model for at lade en videnskabsmand “drage og slippe et helt genom og finde hvert protein og kommentere deres funktioner, alt sammen i en enkelt model, som stadig er state of the art,” sagde Hannum.< /p>

Vær inde i Absci, flyttede udfordringen for Hannum og Schwartz sig fra blot at kommentere DNA og proteiner til at løse det produktionsproblem, som Weinstock havde at gøre med.

Et eksempel er at finde nye “chaperones”, proteiner, der styrer foldningen af ​​proteiner. “Vi kan tage dem, vi kendte til, og finde mange, mange flere” ved at fornemme ligheder mellem kendt og ukendt, sagde Hannum. “I stedet for blot at finde en liste over dem, kan vi faktisk karakterisere dem i funktionelle grupper, sige, at disse ligner hinanden, og bygge et helt kort over alle proteinerne relateret til, hvordan de hjælper andre proteiner med at folde.”

Den funktion er “virkelig unik,” sagde Weinstock. Det har øget Abscis produktion af proteiner mere end det dobbelte.

Det rigtige chaperoneprotein, i dette tilfælde, er ikke noget, nogen ville have troet ville fungere, når det blev betragtet med traditionelle bioinformatiske værktøjer. “Det var et protein med ukendt funktion, fra en obskur rodbakterie,” sagde Weinstock. “Men modellen fortalte os faktisk, at dette sandsynligvis er en chaperone, og det fik os til at prøve det.”

For at bygge den gigantiske model hos Denovium begyndte Hannum og Schwartz med det, han kaldte “temmelig primitivt” “-tilgange, ved hjælp af konvolutionelle neurale netværk eller CNN'er, billedgenkendelsens arbejdshest.

Siden disse tidlige anstrengelser omfavnede teamet Transformers, de store opmærksomhedsbaserede modeller udviklet hos Google og “mange af arkitekturerne der omkring.” Der er mange måder, sagde han, at naturlig sprogbehandling af den slags udført af Transformers kan supplere billedgenkendelse.

Det har genklang til DeepMinds proteinfoldningsprogram AlphaFold, som i sin anden version, sidste sommer, gik fra at bruge foldninger til at bruge opmærksomhedsbaserede modeller.

Digital transformation | CXO | Internet of Things | Innovation | Enterprise Software | Smarte byer