本文来自微信公众号“根新未来”。
2020年11月30日,人工智能系统AlphaFold 2在国际蛋白质结构预测竞赛中夺得冠军,AlphaFold2的成功被认为是生物学领域的重大突破,因为它有助于更好地理解蛋白质如何形成疾病等。而在整个科学社会中,AlphaFold2的成就被看作是一个重要的里程碑,被广泛认为是人工智能的一个显著的成果。
一方面,人工智能可以应用于蛋白质的研究和开发,例如通过对大量生物数据进行分析和预测,以帮助科学家了解蛋白质的结构和功能,并为新药物的开发提供支持。另一方面,人工智能还可以通过生物信息学方法来设计新的蛋白质,例如通过编码蛋白质的信息和计算其可能的结构和性质来制造新的蛋白质。
现在,在一篇于今年1月26日发表在《自然·生物技术》(Nature Biotechnology)的论文中,科学家就成功创建了可以从头制造蛋白质的AI系统,其生成的蛋白质构造和已知天然蛋白不同,但是同样具有生物活性。
在生物学中,我们需要生成特定功能的良好构造的蛋白质序列;而在语言学中,我们希望生成特定主题上的语法语义正确的自然语言句子。这两者的相似性使得Salesforce Research公司选用AI自然语言处理系统为基础构造ProGen模型。
ProGen模型是一种生成式深度学习模型,它使用计算机学习文本数据集中的模式和语言结构,从而生成新的文本。ProGen模型可以使用不同类型的语言数据训练,并可以通过控制生成文本的长度、模式和语法结构等参数来生成不同类型的文本。在本次研究中,ProGen模型使用了19000个家族的2.8亿条蛋白质序列进行训练,其中一些带有控制蛋白质特性的标签。
然后,研究人员从模型生成的100万个序列中筛选了100个进行测试,发现其中一些合成蛋白质的活性与天然蛋白质相当,其中一种只和天然蛋白质有31.4%的相似度。要知道,通常只要一个突变就可以使天然蛋白质失效。
这些蛋白不仅可以用于研究人体内的生物学过程,例如研究疾病机制或评估新药物的治疗效果,作为诊断检测工具,例如癌症检测、生育检测等,还可以作为工业生产的原料,例如制造食品、化妆品等——合成蛋白对于改善人类健康和生活质量具有重要的意义。科学家表示,这项技术可能比获得诺贝尔奖的“定向进化”蛋白质设计技术更为强大。
(原标题:陈根:从头合成蛋白质,AI系统又进一步?)