诺奖得主来上海工作,用AI算法摘取生物学“皇冠上的明珠”

近日,诺贝尔化学奖得主、复旦大学复杂体系多尺度研究院荣誉院长迈克尔·莱维特来到上海,将在这座他热爱的城市工作大半年,指导复旦团队研究计算生物学,利用人工智能算法预测蛋白质折叠的三维结构。“我20岁就开始研究蛋白质折叠问题。”73岁的莱维特告诉解放日报·上观新闻记者。与实验生物学家不同,他的主要研究工具是计算机。

去年,谷歌开发的“阿尔法折叠2”(AlphaFold2)人工智能系统,预测蛋白质三维结构的准确率基本达到了实验测定水平。复旦大学复杂体系多尺度研究院院长马剑鹏认为,这个领域的科技革命已经爆发,将带来生物医药产业的巨大变革。上海可集全球之智,向“人工智能+生物医药”制高点发起冲击。

新药研发有望大幅提速

马剑鹏介绍,蛋白质由一系列氨基酸折叠而成。氨基酸线性排列成一条长链,把它放到水里,整条链会在微秒至毫秒内折叠成一个稳定的三维结构。氨基酸长链如何自发地折叠成三维结构,是一个长期困扰科学家的问题。因其重要性和高难度,蛋白质折叠被称作现代分子生物学“皇冠上的明珠”。对科学家来说,测定氨基酸序列相对容易,但解析蛋白质结构的难度很大,因为蛋白质结构取决于几千个氨基酸各个原子间的相互作用力。根据已知氨基酸序列,用计算机预测蛋白质结构的运算量,连世界上最快的超级计算机也很难承受。

那么,“阿尔法折叠2”为何能根据氨基酸序列,准确预测蛋白质结构呢?莱维特说:“有三根柱子支撑着它的成功。”第一根柱子,是实验生物学家用X光晶体衍射、冷冻电镜等设备测定了一大批蛋白质的结构,给人工智能系统提供了机器学习的大数据。第二根柱子,是氨基酸序列测定等测序技术的成熟。第三根柱子,就是莱维特等计算生物学家的理论计算成果,他们开发了很多算法,用来预测蛋白质结构。此外,谷歌的强大算力和大规模研发团队,也是“阿尔法折叠2”实现科技革命的原因。

“阿尔法折叠2”预测(蓝色)和实验测定(绿色)的蛋白质结构几乎完全吻合。来源:DeepMind

这一科技革命将引发什么产业变革?马剑鹏表示,人工智能系统有望大幅提高新药研发的速度。“小分子化学药的作用靶点大部分在蛋白质上,这类药物的研发离不开蛋白质结构解析。过去,生物学家用X光晶体衍射、冷冻电镜等设备测定蛋白质结构,耗时长、难度大。如果人工智能系统今后成为主角,解析结构的时间会明显缩短。”

人工智能系统还能帮助科学家设计自然界不存在的蛋白质,研制出各种新蛋白材料,用于化工、能源、环保等行业,一定程度上不再受大自然的束缚。

诺奖得主夫妇与上海有缘

面对如此广阔的应用前景,上海正在加快基础研究步伐。2018年10月,复旦大学复杂体系多尺度研究院揭牌成立,它的一个重要研究方向,就是用计算生物学方法预测蛋白质结构。如今,研究院的实验室已经建成,莱维特、马剑鹏领衔的科研团队开始了前沿探索。

复旦大学科研人员在操作冷冻电镜

受疫情影响,莱维特去年在沪时间较短。作为世界顶尖科学家协会副主席,他出席了2020第三届世界顶尖科学家论坛。今年3月,他再次来沪,计划在上海工作7个月以上。

“我和上海很有缘分,不仅在复旦担任荣誉院长,还与太太在上海举行了婚礼。”莱维特笑道。他和太太苏珊都是犹太人,苏珊曾是北京大学老师,非常热爱中国文化。2019年,两人在上海的一座犹太教堂结婚。“你知道,很多犹太人曾落户上海,我在这里有一种家的感觉。”

这座城市的开放,也给莱维特留下了深刻印象。“去年的世界顶尖科学家论坛上,上海市领导说,要以更加开放的姿态融入全球科技创新网络。这句话很有道理,我们正在为复旦大学复杂体系多尺度研究院物色、引进国内外科学家。上海很适合外国人居住,有了智能手机软件,即使不懂中文,我们也能无障碍生活。”

加强计算生物学人才培养

在第二故乡开展蛋白质折叠研究,这位诺奖得主对未来充满期待。他深有感触地告诉记者:“新冠疫情让我们意识到了健康有多么重要,提高全民健康水平,是减少疫情威胁的一个重要途径。在这方面,机器学习等人工智能技术将发挥越来越重要的作用。”

在上海市政府的支持下,复旦大学复杂体系多尺度研究院配置了国际一流的冷冻电镜集群,开发了一系列名为“作品折叠”(OPUS-Fold)的蛋白质结构预测软件。在我国结构生物学领域,复旦团队的强项是侧重算法开发,通过计算生物学与实验生物学的有机结合,提高蛋白质结构的精度,从而促进创新药物开发、蛋白质设计等研究。

莱维特希望上海市政府继续支持复旦团队,通过科研项目资助他们优化算法,使“作品折叠”预测蛋白质结构的准确率早日逼近乃至超越“阿尔法折叠”。

迈克尔·莱维特接受解放日报·上观新闻记者采访

除了经费投入,这个领域还需要一大批计算生物学人才。马剑鹏指出,无论是上海还是全国,计算生物学人才都十分紧缺,国内一些高校可调整学科布局,加快培养这个学科交叉领域的青年科研人员。“计算生物学涉及数学、物理、化学、生物、计算机等多个学科,需要复合型人才,也需要多学科人才跨单位组建团队,开展联合攻关。”

本科教育是人才培养的基础,高校可进一步将计算机科学、人工智能算法纳入生物学本科教学体系,为计算生物学培养更多的后备人才。“这个领域的优秀人才需要10年以上的知识和经验沉淀,要有‘板凳甘坐十年冷’的精神。”马剑鹏说。另一方面,这个领域的产业化“风口”已经到来,人工智能新药开发企业正在全球涌现,给科学家的成果转化和创业带来了机遇。

莱维特和马剑鹏建议,“十四五”时期,上海应进一步加强计算生物学基础研究和人才培养,加速科技成果转化,力争抢占“人工智能+生物医药”这个科技制高点。