$1000基因组测序,数据分析难道是免费的吗?
你听到那么多关于$1000基因组测序的大肆宣扬,如果现在告诉你,这只是耗材和技术人员的劳动费用,随后的分析可能比测序还要贵!你会感觉受到欺骗了吗?那为什么生物信息学分析不是免费的呢?
下一代测序技术的发展已促成了多个大型科学项目的开展,例如癌症基因组图谱计划(TCGA)和千人基因组计划。当前,测序仪的工作能力使许多人兴奋不已。
由于目前基因组测序快速而便宜,许多研究人员和机构开始将其用于研究中。然而,需要提醒各位研究者的是,$1000基因组测序的价格只包括了耗材和技术人员的劳动费用。这个价钱,你只能得到FASTQ格式的原始测序数据。大规模测序中心会输出与人类参考基因组比对后的BAM 格式,但也只是这样而已。要进行深入的变异位点检测、下游质量控制和注释等,都需要进行数据分析,但目前这些都不是免费的。
当拿到基因组测序的原始结果后,对于这些结果的储存、计算及分析需要消耗大量的资源和人力,这些费用在未来有可能是免费的,但目前来说,还没有达到。
长期数据储存
一个30x的全基因组FASTQ文件需要的磁盘空间大约为100G。因此,在一项有500个样本的中等规模研究中,仅仅FASTQ文件就需要50T的磁盘空间。目前的一些数据压缩格式(如CRAM)尚不能解决数据存储的问题。当你的测序系统每年可以测18,000个基因组时,磁盘空间的需求自然变得很庞大。
计算资源
处理原始测序数据的第一阶段时,需要比对到参考基因组序列、标记重复,生成BAM文件,这一步需要强大的计算能力。由于每个测序基因组含900亿个碱基对(30x覆盖率),对其变异位点检测、碱基再校准和大规模基因组数据集的注释都对计算能力有很高的要求。云计算的每个周期成本是非常昂贵的,维护能够承受这种负担的计算集群也是如此。
分析周期
分析本身必须由具有生物信息学专业知识的人来进行。即使配备了强大的、高度自动化的平台,仍然需要分析员收集数据、设置正确的分析模式、监测进展情况和编译结果。分析员也要领薪水,一个项目可能会耗费他们几周或几个月的时间。
当前基因组测序面临的问题是:大多数人不想为分析买单。你听到那么多关于$1000基因组测序的大肆宣扬,现在告诉你,分析可能比测序还要贵!
那么如果不分析,我们有其他选择吗?
“不,我们不需要分析”
如果你选择了这个的话,你应该会得到BAM文件。如果你自己就是这方面的专家,那很好。但对于其他人来说,这意味着需要花钱找人来做分析。
对于美国国家卫生研究所资助的测序研究来说,研究者必须把数据提交到公共资源库。研究者在数据分析上每耽误一天,就给了竞争对手更多的机会。
“测序与分析分开进行”
一些机构在大规模项目中采用这种模式:他们选择一家机构来生成测序数据,然后让另一个团队进行分析。这种数据生成和分析的分离没有任何好处。理论上来说,负责生成测序数据的研究人员应该是最有资质进行分析的。他们理解其中的细微差别,也不必去dbGaP数据库获得许可。
另外,这种安排延迟了项目组进入结果/解释阶段的时间。测序中心没有资金对它的测序数据进行分析,而分析中心直到测序完全结束才能开始分析,导致这种模式的效率很低。
“没关系,我们买了分析软件”
现在有一些商业软件,可以帮助研究人员和小型实验室分析大量的NGS数据集。但这些软件有两个主要问题:首先,开发者投入了大量的时间,设计了一个漂亮、易于使用的界面...但是一般情况下,这类打包软件的算法是老旧的,且更新能力较差。另外,这些软件的价格不菲。
“让研究生或者博士后去分析”
作为研究机构的老板,可以让研究生和博士生这些相对“免费”的劳动力去做分析。然而,他们大多数可能还不具备所需的专业知识,得先花两个月的时间来学习如何操作BWA软件,可能还需要向专业人士请教。如此看来,还是把那些时间省下来申请资金和写论文吧,把分析这种事留给那些专业的人来做。
研究人员在做测序项目预算的时候,为数据分析预留资金是有很多好处的。一方面,可以最终得到高质量的结果。另外,可以选择最佳的分析策略,并且由这方面的专家来完成。
俗话说:“基因测序,重在分析”,通过与专业分析人员深度合作,可以使一个测序项目的成功率变大。测序专家、分析专家以及疾病/表型专家各尽其才,通力合作,才是做科学研究的最好方式!
文章来源:测序中国