Innehållsförteckning:
Klinisk genomik är ett fascinerande ämne där människor arbetar med den senaste tekniken för att bearbeta snabba och exakta resultat. Det finns många genomsekvenser tillgängliga på marknaden, och de producerar petabytes med sekvensdata, och tillväxten i sekvensering kommer att producera exabyter med data inom en snar framtid. Här är Hadoop den perfekta plattformen för att bearbeta komplext genomiskt arbetsflöde. Hadoop kan lagra och sortera enorma mängder information och kan också göra en meningsfull analys. (För att få en uppfattning om hur mycket data det här verkligen innebär, läs Förstå bitar, bitar och deras multiplar.)
Genomics nutid och framtid
Idag har genomkartläggningen nått sin topp för utveckling. Många personer som är associerade med genomikindustrin spricker av nyfikenhet, och när nya möjligheter presenterar sig är bättre teknik timmens behov. Genomsekvensering är en mycket repetitiv och resurskrävande uppgift. Enbart under 2013 producerades cirka 15 petabyt data och endast av 2 000 sequencers. Denna käkeuttagande mängd inkluderade 300 KB sekvensbestämda mänskliga genomdata. Med denna hastighet av dataproduktion kan det uppskattas att år 2018 kommer cirka en exabyte av data att produceras. Detta beror på tillväxten av sequencers, som kommer att producera mer och mer data per körning. En annan anledning är tillkomsten av extremt kraftfulla och billiga genomföljningsmaskiner. Sedan 2008 har priset på dessa maskiner sjunkit stadigt. Detta beror på kraftfulla nästa generations maskiner som har kommit in på marknaden.
Genom kartläggningsindustrins behov
Komplexa algoritmer används för att bearbeta data som samlas in från det mänskliga genomet. Därefter måste denna information lagras. Det kan granskas i framtiden för jämförelse med originaldata. Uppgiften att bearbeta och lagra 100 GB data är inte så svårt, speciellt när du gör det med de kraftfulla maskinerna som används vid sequencingcentra. Studier visar att denna mängd data kan behandlas på ungefär 1 000 CPU-timmar, så det är mycket enkelt. Med den tekniska utvecklingen är det uppenbart att genomindustrin snart kommer att behandla tusentals gigabyte på bara några sekunder.