Nytt filformat som hjälper forskare att minska DNA-analystiden

0
192

Aimee Chanthadavong Skrivet av Aimee Chanthadavong, seniorjournalist Aimee Chanthadavong Aimee Chanthadavong Senior Journalist

Sedan hon avslutade en examen i journalistik har Aimee haft sin beskärda del av att täcka olika ämnen, inklusive affärer, detaljhandel, tillverkning och resor. Hon fortsätter att utöka sin repertoar som teknisk journalist med ZDNet.

Fullständig bio den 2 februari 2022 | Ämne: Big Data

University of New South Wales och Garvan Institute of Medical Research har utvecklat ett nytt datorfilformat för att påskynda analys av nanoporesekvenser och förbättra specialiserade behandlingar för patienter med cancer och andra sjukdomar.

Publicerad i Nature Biotechnology, forskningen sa att det nyutvecklade SLOW5-formatet kan bearbeta komplex DNA-nanoporesekvensering “mer än 30 gånger snabbare” än det tidigare filformatet som kallas – ironiskt nog – FAST5.

Nanopore-sekvensering används för att identifiera en rad sjukdomar och hjälpa medicinsk personal att analysera DNA-prover i detalj så att de kan tillhandahålla skräddarsydda behandlingar för cancerpatienter.

Data som producerades från denna process registrerades rutinmässigt i FAST5-filformat, vilket producerade stora filer på cirka 1,3 terabyte, vilket motsvarar ungefär 650 timmars högupplöst video. På grund av dess stora storlek skulle det ta två veckor för datorer att bearbeta FAST5-filerna, sa forskarna.

Men huvudförfattaren och Garvan Institutes genomics datasystemingenjör Hasindu Gamaarachchi sa att bearbetningsdata för mänskligt genom med SLOW5 reduceras till en halv dag.

Han förklarar att till skillnad från FAST5 möjliggör SLOW5-formatet parallell beräkning där flera processorer samtidigt kan utföra flera, mindre analyser uppdelade från större, komplexa och kompletta datauppsättningar.

“Du kan tänka på det här som att försöka gräva ett väldigt stort hål med 10 personer, men det finns bara en spade de måste dela runt. Så var det förr med FAST5,” sa han.

“Men med SLOW5 får alla sin egen spade, och de kan alla gräva samtidigt och göra jobbet mycket snabbare.

“FAST5-formatet är långsamt eftersom data inte kan nås parallellt. Det är baserat på det hierarkiska dataformatet som designades på 1990-talet för att fungera på maskiner som vid den tiden bara hade en processor, snarare än de moderna som inkluderar flera processorer.

“Det hierachiska dataformatet är också generiskt, medan SLOW5 är specialbyggt. Så när det gäller grävanalogin är det som att vi också tillhandahåller en spade som är speciellt utformad för den typ av jord. Och eftersom den nya SLOW5 kan nås parallellt av flera processorer samtidigt, har behandlingstiden minskat med en faktor 30.”

Relaterad täckning

Forskare utvecklar AI-system för att förbättra ögat sjukdomsdetektering UNSW-forskare tar tre qubit i kiselsystem till över 90 % noggrannhetRMIT-universitetets forskare tränar AI för att upptäcka prostatacancer i tidigt skedeAussieforskare utnyttjar beräkningskraften för att analysera genomisk data och matcha givare Australien | Digital transformation | Robotik | Internet of Things | Innovation | Företagsprogramvara