蛋白质三维结构由主链和侧链共同搭建而成,人工智能系统预测蛋白质结构的通常步骤,是先为蛋白质主链建模,再根据主链的构象为侧链建模。自然界中的蛋白质含有20种氨基酸,它们的主链几乎完全相同,而侧链差异很大。由于药物分子与人体蛋白质结合的位点绝大多数在氨基酸侧链上,人工智能系统对侧链的精准预测对新药研发具有重要价值。这种精准预测能力还可用于解释基因点突变、基因小片段突变的机制,为遗传性疾病研究和治疗提供宝贵思路。针对这一问题,研究院团队提出了OPUS-Rota5蛋白质侧链建模算法,其利用3D卷积神经网络提取每个残基的局部微环境信息,并利用所开发的RotaFormer进行特征整合,使得OPUS-Rota5的精度远超其他侧链建模算法(图1)。此外,针对蛋白质结构预测算法所预测的结构,OPUS-Rota5也可以进行进一步高精度侧链优化(图2)。
图1. 蛋白质侧链建模算法预测结果。其中真实的实验测定结构用金色表示。来自RosettaPacker、DLPacker、AttnPacker和OPUS-Rota5的预测结构分别用橙色、绿色、紫色和蓝色表示。
图2.利用不同侧链建模算法对CASP15蛋白质结构预测比赛中前几名算法预测结构进行侧链重构的准确率。其中“ori”是CASP15蛋白质结构预测比赛中的算法预测结构的原始准确率。
在对与小分子结合的G蛋白偶联受体(GPCRs)进行研究时,研究人员发现AlphaFold2的预测模型与实验结构相比,尽管主链的预测准确度很高,但侧链的预测精度略低,小分子与预测模型的对接模式与大多数情况下在实验结构中观察到的情况都具有显著差异。该研究表明,AlphaFold2本身较难为基于结构的药物设计提供足够的信息,精准的侧链在药物设计中至关重要。针对这一问题,在OPUS-Rota5的开发过程中,引入了配体(包括蛋白配体和小分子配体)信息,提升了算法在配体存在的对接情况下的预测准确率。结果显示,经过OPUS-Rota5侧链修正后的AlphaFold2预测构象具有更高的分子对接成功率(图3),本项工作将为小分子药物的研发工作提供强力支撑。
图3. 使用AlphaFold2预测结构(AF2)和OPUS-Rota5预测结构(AF2+Rota5)的小分子对接结果。图右侧为AF2+Rota5(粉色结构,上)和AF2(绿色结构,下)的前3个对接姿态。括号外的数字表示RMSD(越小越好),括号内的数字是来自Dock6.10的对接分数(越小越好)。