清华最新研究登上《Science》:AI让药物筛选提速百万倍,今年冲刺临床前
创始人
2026-01-23 11:01:35

出品 | 搜狐科技

作者 | 周锦童 常博硕

编辑|杨锦

很多人,都在生命中的某个时刻,被“癌症”这个词击中过。

悉达多·穆克吉在《万疾之王》中曾这样描述癌症:它不仅是某种疾病,更是生命在基因层面的背叛。

对于人类来说,重大疾病的出现往往并不伴随任何戏剧性的场面,有的只是一次次复查、一次次调整方案,以及一个反反复复的问题——还有没有别的办法?

在医学语境中,癌症被描述为失控的细胞增殖,而在患者的世界里,它更像一场漫长的、看不清方向的追逐战。药物研发,正是这场追逐战中最关键、也最残酷的一环。

人类基因组中,大约有两万多个蛋白质编码基因,它们构成了疾病发生、发展的靶点地图。然而直到今天,真正有药物能够精确作用的靶点,只覆盖了全部可成药靶点的约十分之一。

而这也意味着在绝大多数疾病,尤其是癌症这类复杂疾病面前,找到合适的药物依然像是大海捞针。

近日,清华大学智能产业研究院(AIR)联合清华大学生命学院、清华大学化学系最新研究成果登上《Science》杂志。

具体来说,他们研发出来一个AI驱动的药物虚拟筛选平台DrugCLIP,能够让AI在24小时内完成10万亿次蛋白–分子配对计算,极大地提升了人类对癌症的筛选效率。

“这项技术,可以说是对那些多年没有药可用的靶点,给了它一种打中的机会。”论文共同第一作者、清华大学智能产业研究院计算机专业博士生高博文对搜狐科技表示。

高博文

星海中的导航

在药物研发领域,新药研发周期动辄十年以上,成本高达数十亿美元,而失败往往发生在最昂贵、也最接近患者的阶段。

“新药研发成本高昂,最主要的原因有两个。”高博文解释道,“一是早期发现阶段失败率极高,有一种大海捞针的感觉,二是整个研发周期极长,每一步都可能前功尽弃。”

在高博文看来,AI至少可以先做一件事,那就是把盲目试错变成有方向的探索。

“我们的研究更像是一个在星海中进行的导航。”高博文这样形容他们正在做的事情,“它不再是一个盲目试错,而是通过人工智能技术,通过智能的检索和对比学习,在海量的化学空间与靶点空间中,快速定位出最有希望的匹配对。”

在对话中,他并不回避现实的局限性,但反复强调一个词——概率。

在癌症等难治疾病中,概率和速度的提升就可能意味着时间的缩短、成本的下降,以及更多“第一类创新药(first-in-class)”被尝试的可能。

在传统药物研发中,靶点筛选往往是一件极其缓慢、甚至带有运气成分的事情。

研究人员先选定一个靶点,再从有限的分子库中逐一尝试,看是否存在可能结合的候选分子。这个过程高度依赖经验,小规模、串行推进,一次往往只能验证一个方向。“传统方法可能一段时间只能做一个靶点,筛一波药,再去做下一个靶点。”他说。

而DrugCLIP试图做的,是把这套逻辑重新定义一遍。“我们希望把虚拟筛选变成一个全基因组、超大规模并行检索的新范式。”高博文解释道,“这样研究人员可以在非常短的时间内,对所有潜在靶点进行系统性的扫描。”

不止癌症,高博文表示DrugClip其实可以适用于各种不同的疾病,甚至是ADHD(注意缺陷多动障碍)。“实际上我们现在有一个正在推进的分子,是用来治疗ADHD的。”

“前一段时间罗永浩也表示自己患有ADHD ,这个疾病其实比较常见,市场也很大。这个药物分子就是由DrugClip筛选出来的,我们现在正在对它进行一些优化,希望能尽快推到临床前的阶段。”

他还提到,团队非常希望这套方法能在更多如渐冻症,胰腺癌、胶质母细胞瘤这些缺乏有效治疗手段的疾病中发挥作用。

打开蛋白质靶点“黑盒”

在高博文看来,DrugCLIP不仅首次完成了覆盖人类基因组规模的药物虚拟筛选,也重新定义了整个虚拟筛选的方式。

DrugCLIP通过对比学习重构了虚拟筛选的流程,将传统的结合能预测问题转化为蛋白质口袋与小分子的向量化检索任务。

对比传统方法,DrugClip的筛选速度实现了百万倍提升,同时在预测准确率上也有显著突破。

“我们之所以实现了百万倍的速度提升是因为双塔模型架构的预编码设计,候选分子库可以事先编码为向量并存入数据库,针对新靶点仅需单独编码蛋白质口袋,随后通过快速的向量匹配即可完成筛选,省去了传统方法中逐个分子进行复杂网络推理的过程。”高博文解释道。

值得一提的是,DrugCLIP的命名受到了自然语言-图像多模态模型CLIP的启发,高博文把它迁移到了药物发现的场景。

正如CLIP利用海量互联网图文对进行对比学习来实现图文匹配,DrugCLIP则是利用各种蛋白质-分子复合物数据,通过对比学习来训练模型,从而实现了蛋白质口袋与小分子的匹配。

可以说DrugCLIP在算法架构和数据层面都有创新,也解决了药物发现中长期存在的一个根本性瓶颈:如何为大量功能未知、且无任何已知结合药物的“黑盒”蛋白质靶点,快速寻找潜在的药物起点。

高博文是2022年9月加入清华大学智能产业研究院的,次年1月开始了这个项目的研究。

诚然,在研究过程中,他们遇到了很多困难,最典型的技术挑战就是如何训练出一个好泛化性的模型。

“真实的蛋白,小分子复合物是非常稀缺的,我们筛选过滤后有质量的真实数据只有5万个,相比于大语言模型来说,数据量小太多了,所以我们就设计了ProFSA 策略,从大量纯蛋白质数据中挖掘很多伪配体口袋进行预训练,再用真实复合物数据训练进行微调,很好地缓解了数据析出问题,提升了模型整体泛化能力。”

目前DrugCLIP模型正在跟天津超算中心进行合作,获得了速度上的进一步突破,可以实现千亿级分子库在分钟级内完成筛选,同时模型本身也有很好的硬件兼容性,未来也可以适配国产芯片。

高博文称如果快的话,由DrugCLIP模型筛选得到的药物分子今年可以推到临床前的阶段。

不过,也有网友质疑,如果AI预测结果出现严重副作用,责任主体是算法提供方、使用方还是双方共同承担呢?

对此,高博文表示无需担心。“我们的算法提供的还是药物早期苗头化合物的筛选,筛选的分子就像是AI模型的产物,后面会经过改造以及毒性代谢的监控和测试,还要经过动物实验、多期临床实验。如果药物分子真的可以面世,那一定是经过监管部门严格验证的。”

未来必须把药“搞”出来

可以说,这项研究是跨学科协作的典范。

“我们和生命科学学院、化学系都有合作,他们会向我们反馈一些感兴趣的靶点,然后我们进行筛选,再把筛选到的分子给他们,让他们进行生物学实验验证,像文章另一位一作贾寅君,他原本就是生命科学学院的,博士期间来智能产业研究院实习,于是我们就开始了合作。”高博文如是说。

清华大学智能产业研究院兰艳艳教授团队

而之所以进行这方面的研究,也是因为高博文期望能用人工智能的方法去解决对人类有价值的问题,未来他称会先把当前这个项目的产业化创业一步一步做起来。

在高博文看来,药物这个圈子是非常看重成果的,不像其他的靠AI“吹吹牛”别人就能买账,必须把药“搞”出来别人才会相信这套算法,所以还是要通过系统平台的能力把药物推到比较靠后的阶段。

“我们现在和Enamine, 药明康德, 阿斯利康等化合物供应商,CRO公司以及药企都形成了合作,之后会先形成一个平台化的服务,同时也希望能够跟其他药企进行私有化的部署。”高博文如是说。

谈及目前我国在AI辅助药物发现的近况时,高博文表示:“应该是不会有什么差距的,我们跟MIT,斯坦福这些学校研究的内容都是类似的,但国内外在整个领域还处于探索阶段。”

对话最后,高博文还分享了他对未来几年AI在药物发现领域技术发展的看法。

在他看来,首要的突破是要解决高质量数据稀缺的瓶颈,通过合成数据等手段来扩大数据规模;其次还需要建立更加可靠的模型验证方法,这样才能确保AI预测在实际场景中真正有效。

在此基础上,还要通过不断扩大模型规模来提升性能,并推动专用模型与大语言模型的结合,实现全流程自动化药物发现。最后,还要通过实验室自动化来实现干湿实验的闭环,从而打通药物发现的全路径,达到提速降本的目标。

相关内容

热门资讯

中兴通讯申请无线通信方法专利,... 国家知识产权局信息显示,中兴通讯股份有限公司申请一项名为“无线通信方法、电子装置和计算机程序产品”的...
塑造人类语言的时间尺度 《创造语言》莫滕·克里斯蒂安森 尼克·查特 著 高照 译 上海教育出版社 人类语言作为自然界最独特的...
百度发布文心大模型5.0版本 百度宣布文心大模型5.0版本正式上线,该版本在理解、生成、逻辑和记忆能力上实现全面升级。文心大模型5...
苏州桐润申请线圈绕线设备专利,... 国家知识产权局信息显示,苏州桐润智能科技有限公司;腾瑞电力科技有限公司申请一项名为“一种线圈绕线设备...
原创 参... 今天(1月22日)在上海的百度文心 Moment 大会现场,气氛有些不一样。 如果是两年前,大家看到...