CSIRO med serverlösa beräkna att analysera det mänskliga genomet

0
123

Noll

Fram till 2025, det uppskattas att 50 procent av världens befolkning kommer att ha haft sin sekvenserat genomet, som enligt Commonwealth Scientific and Industrial Research Organisation (CSIRO) transformerande bioinformatik team leader Dr Denis Bauer innebär att genetiska data kommer att vara större än de uppgifter som innehas av Twitter, YouTube och astronomi i kombination.

Genomik är studiet av information som är kodad i en individs DNA, gör det möjligt för forskarna att studera hur gener påverkar hälsa och sjukdom.

Genomet har en plan för varje cell i en människas kropp och med så mycket information som är kodad i genomet det kommer inte som någon överraskning Australien ‘ s peak research organisation investerar kraftigt i att utforska dess möjligheter.

Tal vid AWS Offentliga Sektorn Toppmötet i Canberra på onsdag, Bauer i detalj hur CSIRO är med hjälp av Amazon Web Services infrastruktur för att bygga ett genetiskt program som bara för ett par år sedan skulle ha framstått som omöjligt.

Hon sade genomik ger en svindlande 20 exabyte data per år, och noterar också hur sådana stora mängder data ger tre huvudsakliga problem.

“Ett tekniskt problem är att stora mängder data är inte trivialt att få tag på, speciellt när vi pratar om 40 gigabyte per genomet, per individ,” förklarade hon.

“Vi upplever också burstable arbetsbelastning där läkare kan få tillgång till denna resurs på samma tid som 10 000 andra kliniker, men i nästa minut kan det sjunka till ingenting, så därför vill vi inte betala för en arbetsbelastning som kan kritan som mycket data och sedan på nästa gång det är ingenting, det är bara att sitta runt på tomgång.

“Tredje problemet är att konsolidera data från silos.”

Med gällande sekretessbestämmelser mellan olika jurisdiktioner, Bauer sa att det är osannolikt att det kommer att bli en konsolidering av världens genetiska data i en enda enhet. Hon sade därför att göra med distribuerade system kommer att vara något de inblandade får användas till.

Den transformerande bioinformatik team som Bauer leder har stadgan att utveckla nya bioinformatik lösningar för industri och forskning med hjälp av det senaste inom moln och BigData-infrastruktur.

Det som särskilt fokuserar på befolkningen skala analys av genomik, trankriptomik, och methylomics, liksom genomet tekniska tillämpningar.

Arbetar för e-hälsa forskningsprogrammet inom CSIRO, som är den största digitala hälsa byrån i Australien, Bauer sade de team som är fokuserade på att förbättra sjukvården genom att använda digital teknik och tjänster.

Den CSIRO släppt sin Framtida Hälsa [PDF] rapportera denna vecka, som redogjorde för de organisationer som 15-års vision av hälso-och sjukvård i Australien.

Som titeln på rapporten förklarar den huvudsakliga idén med CSIRO är Skiftande Australien fokus från sjukdom behandling till hälsa och välbefinnande förvaltning.

“En av de största meddelanden från detta var att vi måste sluta vara reaktiv, behandla sjukdomar, att vara förebyggande och fånga sjukdomar innan de faktiskt blir symptomatisk och en av de centrala teman i det digitala hälsa, Bauer läggas till.

Ett annat tema i rapporten precision medicin, och för att leva upp till denna vision Bauer sade CSIRO har utvecklat VariantSpark, som är en Hadoop/Gnista maskininlärning bibliotek för genomisk analys av data.

“Det är byggt på Apache kärna och vad du kan göra är att du kan snurra upp en Apache gnista klustret för att analysera dina data direkt på AWS,” förklarade hon.

“Få den information som vi har hittat i arvsmassan i den faktiska kliniska praktiken och fatta beslut om det inte är trivialt och för att vi utvecklat GenPhen-Insight, som är ett verktyg som kombinerar medicinska data med genetiska data för att förbättra i realtid, behandling, diagnostik och behandling resultat eller rekommendationer.

“Speciellt utformad för skalning för att det växande behovet av genetiska data i framtiden.”

VariantSpark använder AWS Lambda, en on-demand-serverlösa computing service och CSIRO: s genomisk filer ligger alla i en datalake på S3.

Se även: AWS Lambda: smart person ‘ s guide (TechRepublic)

“Vi började med en infrastruktur och sedan fixade den för att få bättre prestanda och göra den analys som vi ville göra, säger Bauer sade. “Jag tror starkt på att när du går serverlösa du aldrig gå tillbaka.

“Hastigheten på innovation är otrolig, du kan stå upp en minimal gångbar produkt i ett par sekunder och med en minimal kostnad och du behöver inte tänka på den underliggande infrastrukturen.”

RELATERADE TÄCKNING

Medicinsk bildbehandling vid “speed of light”: Nvidia ‘ s Clara supercomputerThe STORBRITANNIENS 100,000 Genome Project når halvvägs stageDubai att DNA-sekvens hela populationGarvan Institutet får ny superdator för genomisk researchHow AI och nästa generations dna-sekvensering är att hjälpa patienter med cancer (TechRepublic)

Relaterade Ämnen:

Amazon

CXO

Digital Omvandling

Tech-Industrin

Smarta Städer

Cloud

0