在不断探索以前未知的CRISPR基因编辑系统的过程中,研究人员从温泉、泥炭沼泽、粪便甚至酸奶中搜寻各种微生物。现在,由于生成式人工智能的进步,他们可能只需按一下按钮就可以设计出这些系统。
据《自然》报道,日前,研究人员公布了他们如何使用一种名为蛋白质语言模型的生成式人工智能工具设计CRISPR基因编辑蛋白质的细节,并证明其中一些系统如预期那样工作。
今年2月,另一个团队宣布,他们已经开发出了一种基于微生物基因组的模型,并用它来设计新的CRISPR系统,该系统由DNA或RNA切割酶和RNA分子组成。
“这真的只是皮毛而已。这表明,用机器学习模型设计这些复杂系统是可能的。”机器学习科学家、美国生物技术公司Profluent首席执行官Ali Madani说。4月22日,Madani团队在预印本服务器bioRxiv上公布了一篇尚未经过同行评审的论文,报告了他们所说的“首次完全利用机器学习设计的蛋白质成功编辑人类基因组”。
中国香港大学合成生物学家Alan Wong表示,自然产生的基因编辑系统在它们可以靶向的序列以及可以做出的改变方面存在局限性。因此,对于某些应用来说,找到合适的CRISPR可能是一个挑战。“利用人工智能扩大编辑的范围可能会有所帮助。”他说。
尽管像ChatGPT这样的聊天机器人是以现有文本进行训练后处理语言的,但CRISPR设计人工智能是在大量生物数据上进行训练的,这些数据是蛋白质或基因组序列形式的。这一“预训练”步骤的目标是让模型深入了解自然发生的遗传序列,比如哪些氨基酸倾向于组合在一起。然后,这些信息可以应用于创建全新序列之类的任务。
Madani团队此前曾使用他们开发的蛋白质语言模型ProGen来开发新的抗菌蛋白。为了设计新的CRISPR,该团队用数百万种不同的CRISPR系统重新训练了一个更新版本的ProGen。
由于CRISPR基因编辑系统不仅包括蛋白质,还包括指定其靶点的RNA分子,Madani团队开发了另一个人工智能模型来设计这些“引导RNA”。
然后,该团队使用神经网络设计了数百万个新的CRISPR蛋白序列,这些序列属于自然界中发现的数十个不同的此类蛋白质家族。
为验证人工智能设计的CRISPR是否是真正的基因编辑器,Madani团队合成了与CRISPR-Cas9系统中200多种蛋白质设计相对应的DNA序列。
当研究人员将这些序列——Cas9蛋白和“引导RNA”——插入人类细胞时,许多基因编辑器能够精确地切割基因组中的预期靶点。
最有前景的Cas9蛋白——一种名为OpenCRISPR-1的分子,在切割靶向DNA序列方面与广泛使用的细菌CRISPR-Cas9酶一样有效,而且它在错误的地方切割的次数要少得多。研究人员还使用OpenCRISPR-1设计创建了一个碱基编辑器——这是一种精确的基因编辑工具,可以改变单个DNA的“字母”,发现它也与其他碱基编辑系统一样高效,而且不太容易出错。
另一个团队由美国斯坦福大学计算生物学家Brian Hie和美国Arc研究所生物工程师Patrick Hsu领导,他们使用了一种能够生成蛋白质和RNA序列的人工智能模型。这个名为EVO的模型在来自细菌和古细菌以及其他微生物序列的8万个基因组上进行了训练,总计有3000亿个DNA碱基。Hie和Hsu的团队尚未在实验室测试其设计。但他们预测,该团队设计的一些CRISPR–Cas9系统的结构与天然蛋白质的结构相似。这项工作也在预印本服务器bioRxiv上公布。
西班牙巴塞罗那分子生物学研究所的计算生物学家Noelia Ferruz Capapey说:“这太神奇了。”与一些获得专利的基因编辑工具不同,研究人员可以无限制地使用OpenCRISPR-1分子,这给她留下了深刻印象。
Madani说,希望人工智能设计的基因编辑工具比现有的CRISPR更适合医学应用。他补充说,Profluent希望与开发基因编辑疗法的公司合作,以测试人工智能生成的CRISPR。