英国“深度思维”公司今年8月曾宣布,其开发的人工智能(AI)程序“阿尔法折叠”已预测出约100万个物种的超过2亿种蛋白质的结构,涵盖科学界已编录的几乎每一种。现在,元宇宙平台公司(Meta)研究人员利用人工智能ESMFold预测了来自细菌、病毒和其他尚未被表征微生物的6亿多种蛋白质的结构。相关研究已经提交生物预印本网站biorxiv.org。
ESM宏基因组图谱数据库包含6.17亿种蛋白质的结构预测
图片来源:《自然》网站
在最新研究中,Meta AI蛋白质团队使用“大型语言模型”预测了这些蛋白质的结构。要构建能通过几个字母或单词预测文本的工具,离不开大型语言模型的基础。语言模型通常需要大量文本进行训练,为将其应用于蛋白质,研究团队用已知的蛋白质序列训练它们,这些已知蛋白质可由20个不同氨基酸组成的链来表达,每个氨基酸由一个字母表示。然后,ESMFold学会了用模糊的氨基酸比例“自动完成”蛋白质。
团队负责人亚历山大·里维斯表示,这些训练让ESMFold对包含蛋白质形状信息的蛋白质序列有了直观了解。而且,与“阿尔法折叠”一样,这一网络能将这些了解到的信息与已知蛋白质结构和序列之间关系的信息结合,生成预测结构。
随后,他们在一个数据库上运用这一模型,该数据库由来自土壤、海水、人类肠道、皮肤和其他微生物栖息地的“宏基因组”DNA组成,其中绝大多数DNA条目编码潜在蛋白质,来自从未被培养过也不为人所知的生物体。总体而言,ESMFold预测了超6.17亿种蛋白质的结构,且只花了两周时间。而“阿尔法折叠”预测一种结构可能需要几分钟。
团队指出,ESMFold虽然不像“阿尔法折叠”那么准确,但在预测结构方面的速度要快60倍,这意味着他们可将结构预测扩展到更大的数据库。
里维斯表示:“这些来自土壤、海水和人体的微生物分子是我们了解最少的结构,最新研究有助于我们更进一步洞悉生物学。”
总编辑圈点:
人们形容蛋白质时,常说它乃生命之基石。但蛋白质的意义其实与其结构密切相关,因此如果能更深入的了解其结构,就可以更好地明确其工作原理,从而加速几乎所有生物学领域的研究,譬如为疾病设计新的疗法或疫苗。这也是目前多家团队致力于预测蛋白质结构的主要目的。现在,这一预测已涵盖了整个蛋白质世界,包括动物、植物、细菌、真菌和其他生物体的预测结构,可以预见,这些成果除了帮助攻克生命科学瓶颈外,也将在解决可持续性、粮食安全等重要问题上开辟新机。
版权声明:
原网页已被新农村转码收录,版权归文章来源方:科技日报所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
您如因版权和若对该稿件内容有任何疑问,请30日内与新农村网联系,本网将迅速给您回应并做处理。
对于任何包含、经由链接、下载或其它途径所获得的有关本网站的任何内容、信息或广告,不声明或保证其正确性或可靠性。用户自行承担使用本网站的风险。
基于技术和不可预见的原因而导致的服务中断,或者因用户的非法操作而造成的损失,新农村网不负责任。
服务邮箱:4834222#qq.com(请将#替换成@)处理时间:上午9点至下午5点30分。
发酵食品和纤维素可减压
爱尔兰APC微生物组研究所团队成员在最新一期《分子精神病学》上发表论文称,人们的饮食也...(17339)人阅读时间:2022-11-0211月起一批新规将施行,涉及食品、药品
中新网北京11月1日报道,食品生产经营企业需配备食品安全员、公众用药将得到更好保障、中...(16145)人阅读时间:2022-11-01我科学家发明光控细胞工厂生产肿瘤“吹
“我们发明了细胞大小的‘无人工厂’,光一照就‘开工’,能让肿瘤切除手术后的复发可能...(14127)人阅读时间:2022-11-01创造前所未有的设计,开放式软材料3D打
使用“Printer.HM”可实现复杂的设计。从左至右,带有纤维素基水凝胶的一个叶形支架;用生物...(13000)人阅读时间:2022-10-31新修订的畜牧法强化畜禽种业自主创新
十三届全国人大常委会第三十七次会议30日表决通过了新修订的畜牧法,该法将于2023年3月1日起...(10784)人阅读时间:2022-10-31