AI 添补蛋白质规划一大空白,或揭秘癌症、痴呆症发病机制,促进新药发现和生物资料研制

08-30 695阅读 1评论

文|学术头条

中风、痴呆症等神经体系疾病是致病、致残的主要原因之一,据世界卫生组织(WHO)报导,全球有逾越三分之一的人口遭受这类疾病的影响。其间,神经退行性疾病是一类缓慢高发疾病,更是严重威胁人类的健康和日子质量。

深化了解蛋白质的结构和运作办法,将为咱们处理这些疾病供给重要依据。早在上世纪 50 时代,关于蛋白质折叠问题的探究就现已开端了。而 AlphaFold 的呈现,彻底改动了科学家们研讨蛋白质折叠的范式。

现在,AI for protein sciences 又有了新的打破——

近来,来自哥本哈根大学、圣裘德儿童研讨医院和伊利诺伊理工学院的研讨团队,推出了一种规划具有特定结构性质的蛋白质变体的通用算法,将蛋白质的研讨拓宽到了固有无序蛋白(IDPs)范畴。

IDPs 是一种无法折叠成安稳或有序三维结构的蛋白质,被以为在健康体系和各种疾病的病理生理学中都具有重要的生物学含义。与折叠的蛋白质不同,IDPs 的特点是高度无序、部分移动性和高动态性,对现有猜测东西而言特别具有应战性。

这项研讨不只在理论上提出了新的规划办法,还经过试验验证了规划的 IDPs 变体,并运用机器学习模型来猜测 IDPs 的调集特点,为核算蛋白质规划供给了新的东西,或将协助咱们了解多种神经退行性疾病(如阿尔茨海默病、帕金森病、肌萎缩侧索硬化症)和多种类型癌症的发病机制,以及促进新药的发现和生物资料的开发。

相关研讨论文以“Design of intrinsically disordered protein variants with diverse structural properties”为题,已宣布在威望期刊 Science Advances 上。

 AI 添补蛋白质规划一大空白,或揭秘癌症、痴呆症发病机制,促进新药发现和生物资料研制

咱们为什么需求重视 IDPs?

一张折纸在以特定办法被折叠之前,只不过是限制的木浆;一旦被折叠,它就变成了新的东西。几回准确的折叠和翻转后,它就变成了一种能够猜测你未来的纸制品——走运签。相同的一张纸,改动几个折叠进程,就变成了一只展翅欲飞的鹤,标志着好运的来临。

类似地,一长串氨基酸分子在自发折叠成其特定形状之前没有任何功用。细胞经过将氨基酸的小分子串成长长的多肽链来制作蛋白质。挑选哪种氨基酸取决于 DNA 供给的指令集。在生成后的瞬间,多肽链准确地曲折、折叠成蛋白质的终究 3D 形状。

假如蛋白质不能极点高效地完结这一折叠进程,一系列灾祸就会在人体内发生进。折叠过错或解开的蛋白质或许会发生毒性和导致细胞逝世。许多疾病和妨碍,如镰状细胞性贫血,都是由折叠过错的蛋白质引起的。折叠过错的蛋白质还能够调集成团块,这是阿尔茨海默病和帕金森病等神经退行性疾病的标志。

因而,猜测出蛋白质分子的 3D 形状关于咱们了解或许是医治神经退行性疾病是非常重要的。

但是,结构生物学范畴向来专心于研讨折叠成安稳 3D 结构的蛋白质和核酸,现在对蛋白质在细胞中怎么发挥功用的了解大多根据“序列-结构-功用”联系这一概念。

而真核生物中约有 30% 的蛋白质并不折叠成安稳的 3D 结构,这些动态变形的蛋白质便是 IDPs,或许当它们坐落其他结构化蛋白质域的布景下时,被称为“固有无序区域”(IDRs)。IDPs 和 IDRs 在分子和细胞功用中扮演着各种重要人物,应战着序列-结构-功用范式。

IDPs 的细胞功用失调与几种神经退行性疾病(阿尔茨海默病、帕金森病、肌萎缩侧索硬化症)和许多癌症有关,它具有自我结合构成生物分子凝集物并在细胞环境中生成多种无膜细胞器的才能,这一特性在细胞生物学和疾病中越来越被以为是非常重要的。

为了更全面地了解生物学和人类疾病,达特茅斯学院助理教授 Paul Robustelli 在一个相关的专题中着重:“结构生物学有必要逾越对具有安稳 3D 结构的蛋白质的研讨,并开展规矩来解说 IDRs 的序列怎么决议它们在溶液中选用的形状散布,以及这种散布怎么决议它们在细胞中的功用和在疾病中的功用失调。”

将核算蛋白质规划扩展到 IDPs

IDPs 具有极点但一般非随机的结构异质性,不能构成安稳的折叠结构,因而与折叠蛋白质比较,IDPs 的结构猜测更具应战性,其核算规划依然受限。

为此,Francesco Pesce 和搭档们现已处理了这个应战。在之前发布的名为 CALVADOS 的核算模型的基础上,他们规划了一个通用算法来生成具有预界说大局特点的 IDPs,并运用它来出产四种具有不同特性的 IDPs。他们还专心于一种名为 A1-LCD 的 IDPs,并经过试验验证了该模型对 A1-LCD 几种变体的序列-调集联系的推导。

他们规划了具有特定结构性质的蛋白质变体的通用算法。该算法运用粗粒度模仿和自由能核算,结合蒙特卡洛采样办法,在序列空间中进行查找,生成具有方针结构特征的蛋白质序列。研讨人员运用该算法规划了多种蛋白质变体,并对其进行了试验验证,结果表明该算法能够有效地规划具有不同紧密度、长程相互作用和相别离倾向的蛋白质变体。

该算法经过查找序列空间,并运用高效的粗粒度模仿将每个序列与其构象性质联系起来。并运用 CALVADOS 模型进行粗粒度分子动力学(MD)模仿,并生成 IDPs 的构象调集。算法会运用蒙特卡洛算法(MCMC)采样序列空间,并猜测其构象性质(经过 MD 模仿和核算自由能)。经过优化进程,寻觅特定氨基酸摆放,以确认方针结构特征。

 AI 添补蛋白质规划一大空白,或揭秘癌症、痴呆症发病机制,促进新药发现和生物资料研制

图 | 研讨团队规划具有方针构象性质的 IDPs 序列的算法概述。

该算法能够规划具有特定结构性质的 IDPs 序列,例如紧缩程度、长程触摸和相别离倾向。此外,它还能够探究序列空间,并找到具有新颖构象特征的 IDPs 序列。研讨团队还运用机器学习模型加快算法,使其更高效。

在未来,研讨团队主张进行更广泛的序列空间采样,并探究将 MCMC 采样与其他办法(如强化学习和贝叶斯优化)相结合来更有效地探究序列空间。而且,作者指出机器学习和模仿的结合将在规划具有更杂乱结构可观丈量的序列时尤为重要,其间模仿或许更贵重,而化学核算或许功率较低。此外,该算法能够应用于规划具有其他结构特征的序列,并展现了规划具有方针触摸图的序列的或许性。

AI for Proteins,一直在前进

自 20 世纪 60 时代起,科学家们对蛋白质的研讨就开端了,其时主要靠 X 射线和核磁共振(NMR)等传统技能来解析其结构。跟着对蛋白质生物化学机制知道的深化和核算技能的迅猛前进,研讨者们开端转向核算办法来猜测蛋白质的结构。

2016 年,许锦波团队创始性地将深度残差网络(ResNet)运用于结构猜测,明显提升了蛋白质残基触摸猜测的准确度。根据这一效果,一系列结合共进化和深度学习算法的研讨相继问世,例如 AlphaFold(侧重于残基间隔猜测)和杨建益与 David Baker 团队开发的 trRosetta(侧重于引进二面角信息等),均采用了 ResNet 架构。

2020 年,AlphaFold2 在 CASP14 比赛中一举成名,达到了 98.5% 的猜测准确率。2021年,David Baker 团队在 Science 杂志发布了开源的蛋白质猜测东西 RoseTTAFold,该东西运用自然言语处理(NLP)技能,直接从多序列比对(MSA)中提取共进化信息,其猜测精度可与 CASP14 中的 AlphaFold2 相媲美。从此,根据蛋白质序列的预练习模型,亦称为蛋白质言语模型(PLM),开端广泛应用于蛋白质结构猜测。

2022 年底,Meta 公司推出了 ESM-2 和 ESMFold,成为其时发布的最巨大、最杂乱的蛋白质言语模型之一。2024 年,David Baker 团队推出了 RoseTTAFold All-Atom(RFAA)这一新式结构猜测办法,它能准确描绘生物单元中所有原子的 3D 坐标,包含蛋白质、核酸、小分子、金属和化学修饰。

除了在蛋白质结构猜测范畴的明显发展,人工智能(AI)也在蛋白质研讨的其他多个方向持续发力,如猜测蛋白质与其他生物分子的相互作用、蛋白质规划、蛋白质组学等。展望未来,AI 将持续拓宽其影响力,添补蛋白质研讨范畴的许多空白。

文章版权声明:除非注明,否则均为ZBLOG原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (有 1 条评论,695人围观)
网友昵称:小低人。
小低人。 V 游客 沙发
机制知道的深化和核算技能的迅猛前进,研讨者们开端转向核算办法来猜测蛋白质的结构。2016 年,许锦波团队创始性地将深度残差网络(ResNet)运用于结构猜测,明显提升了蛋白质残基触摸猜测的准确度。根据这一效果,一系列结合共进化和深度学习算法的研讨相
08-30 回复