生物信息学包括很多应用技术,应用的确越来越广泛,能够解决的问题也越来越多,但它还需要结合其他的生物技术。换言之,它的发展离不开生物学的发展,二者是相辅相成的。生物信息学如今最大的变化是效率的提升。以前做生物研究以实验为主,过程很漫长、花费很高,积累的数据量很有限。
今年5月,国际顶级学术刊物《自然》在线发表了中国科学院遗传与发育生物学研究所(简称“中科院遗传所”)植物细胞与染色体工程国家重点实验室、遗传发育所基因组分析平台、中国科学院种子创新研究院等合作完成的一项研究论文。该项研究完成了小麦A基因组的测序和染色体序列精细图谱的绘制,对深入研究麦类植物的基因组结构与功能具有重要理论意义和实用价值。
作为底层计算支撑平台,联想公司为中科院遗传所建立的HPC(高性能计算)平台扮演着重要的支撑角色,以高性能计算助力科研攻关。那么,在庞大的生物数据计算和分析中,生物信息学需要什么样的计算?对此,《中国科学报》专访了中科院遗传所基因组分析平台首席技术专家、上述论文的通讯作者梁承志。
处理三代测序数据有提升
《中国科学报》:5月份在《自然》中发表的对小麦A基因组的研究工作中,有部分测序工作除采用了第二代的高通量测序技术外,还采用了第三代的单分子测序技术。在你看来,第三代测序技术对于计算平台提出哪些新的要求?
梁承志:我们开始做小麦基因组测序的时候是2014年,从得出数据到最后发表文章,实际上已经过去两三年的时间,当时我们对小麦基因组测序时仍以二代测序为基础,只利用了一部分单分子测序数据。
三代测序本身错误率比较高,但系统误差小,在测序倍数比较高的时候能够达到比二代还精确的结果,但数据量更大,对计算存储需求就会相应增加。此外,目前技术上对三代测序数据的处理速度都还比较慢,软件功能方面也相对不成熟。
在完成小麦A基因组项目的过程中,我们又开发了一些新的生物信息分析技术,利用这些新的软件、新的方法我们就可以用纯三代测序技术来完成小麦基因组的工作了。
目前第三代单分子测序的价格已经降到了我们当时使用的1/10,因此现在做这样一个基因组花费更低,质量比以前高,速度比以前快。这可以看出技术的发展是非常快的,我们在软件分析能力上也有了巨大的提高,但总体来讲还不够,需要更多的提升。
生物信息学将承担更大使命
《中国科学报》:早在几年前就曾有业内人士形容生物信息学像是“在一望无垠的大草原上开车”一样,有很多可做的方向和很大的发展潜力。随着计算力的提升,生物信息学是否迎来了更加黄金的时代?
梁承志:严格来讲,生物信息学是一个技术学科,它涉及到的很多计算理论和方法都是从计算机技术、统计分析这边过来的,以后也会用到人工智能的方法。
生物信息学包括很多应用技术,应用的确越来越广泛,能够解决的问题也越来越多,但它还需要结合其他的生物技术。换言之,它的发展离不开生物学的发展,二者是相辅相成的。
生物信息学如今最大的变化是效率的提升。以前做生物研究以实验为主,过程很漫长、花费很高,积累的数据量很有限。随着实验能力的提高,10年前要花费一年的实验现在一个月甚至一周、一两天就能做完,这种效率的提升所产生的数据需要生物信息学分析,把有用的信息和知识挖掘出来。从这个角度讲,未来生物信息学有可能起到主导作用。
《中国科学报》:是否大数据的爆发让生物信息学有了得天独厚的发展机遇?
梁承志:生物信息学的爆发是可以预见的。在大数据时代,生物信息学能够解决的问题也越来越多。首先就是精准医学,涉及到我刚才提到的个人基因组。如果可以测一千万、一亿人的基因组,以及各种组学数据,包括转录组、蛋白组、代谢组、表观组、表型组,再加上食物营养、疾病信息、药物信息等,这种信息或者数据积累的越来越多,生物信息分析起到的作用就越来越大。
第二个重要应用就是分子设计育种。中科院遗传所在这个领域已结出了丰硕的成果,培育出来多个高产优质的水稻新品种。结合生物信息大数据分析,我们可以在未来的分子设计育种中提高目标范围及设计深度,对多个性状进行设计,进一步提高育种的效率。
“计算”生物信息仍存瓶颈
《中国科学报》:高性能计算集群在生物信息分析中扮演什么角色?
梁承志:生物大数据除了数据量特别大之外,还有“三高”:高复杂性、高不确定性、高维度。数据维度高就导致了计算量的复杂,这就需要高性能集群。如果没有高性能集群支撑的话,我们对数据的分析是无法实现的,因为数据量太大,对存储和计算都有很高的要求。
《中国科学报》:在做生物信息分析的时候,计算上还存在哪些瓶颈?
梁承志:在计算上的瓶颈有很多。生物系统本身特别复杂,是分层次的。一个生命体从个体水平上有各类数据,从组织、器官、细胞水平上也有各类数据,在代谢水平、生化水平上乃至遗传、进化方面都有不同的数据,复杂性特别高。因此,如果计算系统存储硬件不够的话,计算效率就会大大降低。在做分析时既要考虑计算又考虑存储,所以复杂性一下就高多了,这是一个基本的需求。
此外,生物数据复杂性的特点使得对软件的需求也越来越高,目前市场上用于生物信息分析的软件比十年前好太多,但总体来讲,仍不够用。
还有很重要的一点是分析能力还不够,这是未来5~10年急需改变的状况。随着数据越来越多,还需要大量的投入,用以开发新的软件和新的分析方法。其中很重要的一点,随着生物数据的增加,对人工智能技术的需求也会越来越高,在其他领域里已经做得很好的人工智能分析的方法,也可以借过来用。
数据的增加和分析能力的增加有一定的时间差,相对来讲也相辅相成,二者是一个共同发展的过程。
《中国科学报》:既然生物信息分析计算既要考虑存储又要考虑计算,那么有没有可能通过高性能集群的云化来解决问题?
梁承志:生物信息领域很多,有些分析是云计算能解决的,但是很大一部分分析利用云计算就有点困难。因为要把数据传输到云上,本身就是一件比较困难的事情。
用于生物信息分析的高性能集群,有着非常强的“专用性”。生物数据分析有一定的特殊性,如果用以其他学科的数据分析设计的高性能集群,我们很难做生物数据分析。