
生命就像一本用基因、细胞和药物编写的复杂书籍,而现在,AI似乎找到了解读这本书的钥匙。美国生命科学公司Tahoe Bio(前身为Vevo Therapeutics)近日发布了一款名为Tahoe-x1(简称Tx1)的重磅AI基础模型。这款拥有30亿参数的模型,并非简单的辅助工具,而是被设计成一个能够深入“理解”生命系统运作机制的“引擎”,尤其在癌症研究领域,它有望彻底改变我们发现靶点和开发个性化疗法的方式。
从“辅助”到“引擎”:Transformer架构赋能单细胞世界
Tahoe-x1的诞生,标志着AI在生命科学领域的一次重要跃迁。它基于强大的Transformer编码器架构,并采用了掩码语言建模(MLM)这一在自然语言处理领域大放异彩的技术进行预训练。不同于处理文字,Tx1的训练数据是海量的2.66亿份单细胞转录组数据,其中包括Tahoe Bio自主构建的、记录了上千种分子对癌症细胞系扰动响应的Tahoe-100M数据集。这个数据集的开放,已经吸引了全球近20万次下载,足见其在科研界的价值。
为了让这样强大的模型能被更广泛的研究者使用,Tahoe Bio推出了多尺寸的版本,例如Tx1-70M。同时,通过集成FlashAttention v2等先进优化技术,Tx1在处理细胞数据时的计算效率比同类模型高出3到30倍,这意味着即使在普通的GPU上也能流畅运行,极大地降低了AI在生物医学研究中的使用门槛。
精准锁定“命门”,洞察癌变通路,预演治疗方案
Tahoe-x1的能力体现在多个层面。首先,在预测基因必需性(Gene Essentiality)这一关键任务上,Tx1在权威的DepMap数据集上表现出色,能够精准识别维持不同癌症亚型生存的“核心驱动基因”。这对于快速锁定高价值的药物靶点至关重要,特别是对于那些复杂的、难以治疗的癌症,Tx1能显著缩短研究周期。
更进一步,Tx1不仅能识别单个基因,还能捕捉癌变过程中多个基因协同激活形成的信号通路。在MSigDB数据库的测试中,Tx1在还原“癌变标志通路”(hallmark programs)方面的准确率位居前列。这意味着,模型能够自动解析细胞周期失控、DNA修复缺陷等关键生物学程序,为开发针对性的联合疗法提供系统性的思路。
而最令人兴奋的,莫过于Tx1的“零样本泛化”能力。即便面对从未接触过的细胞类型或患者样本,模型也能凭借其强大的学习能力,像经验丰富的医生一样进行“类比推理”,预测其对特定药物的反应。这为药物研发带来了革命性的想象空间:未来,我们可以在计算机中模拟成千上万种治疗方案,筛选出最有潜力的组合,再进行实验室和临床验证,从而大幅降低成本和失败率。通过结合后训练框架,Tx1还能根据不同的患者背景进行微调,加速个性化癌症疗法的落地。
生物AI生态加速成熟,从“试错”走向“预测”
Tahoe Bio此次不仅开源了Tx1的模型权重和代码,还提供了交互式演示和预印本论文,展现了拥抱科研社区协作的决心。这标志着AI在生物医学领域正朝着一个更加开放、协作的生态系统发展。
AIbase认为,Tahoe-x1的真正突破在于,它让AI不仅仅停留在“统计相关性”的层面,而是开始具备“机制理解力”。当AI能够像生物学家一样思考基因如何调控、药物如何干预、细胞如何响应时,药物研发的范式也将发生根本性转变,从传统的“试错式”进化为“预测式”。随着数据量的持续增长和模型的不断迭代,Tahoe-x1这类强大的AI模型,或许将成为未来精准医疗的基础设施——在虚拟世界中预演千万种治疗可能,最终在现实世界中,为每一位患者找到最有效的治疗方案。