Basecamp Research发布Trillion Gene Atlas(万亿基因图谱),规模化推动AI设计药物研发

内容头部广告位(手机)
  • 该图谱将通过在全球数千个点位采集超过1亿个新物种的全新基因组数据,将已知进化遗传多样性扩大100倍。
  • 通过与Anthropic、Ultima Genomics和PacBio合作,并借助NVIDIA AI基础设施的支持,Basecamp Research计划将原本需要20多年的生物数据收集与分析工作压缩至两年内完成。
  • 对EDEN模型的训练揭示了新的扩展定律:随着生物数据集规模扩大、信息愈加丰富,AI能力将实现跨越式提升,为构建能够针对不同疾病和治疗类型设计新型药物的系统打开了大门。

得克萨斯州奥斯汀与加利福尼亚州圣何塞2026年3月20日 美通社 -- 前沿生物设计AI实验室Basecamp Research今日宣布启动Trillion Gene Atlas(万亿基因图谱),这是一项里程碑式科研计划,旨在实现万亿级基因规模的生物数据生成与建模。 Trillion Gene Atlas与Anthropic、Ultima Genomics和PacBio合作启动,并依托NVIDIA AI基础设施,目标是通过在全球数千个点位采集超过1亿个物种的基因组数据,将已知进化遗传多样性扩大100倍。

这得益于Basecamp Research不断扩大的全球生物多样性合作网络。 项目的最终目标是为AI系统提供海量、多样化的训练数据,使其能够通过学习进化规律,按需设计新型药物。

Basecamp Research联合创始人兼首席执行官Glen Gowers在奥斯汀举办的西南偏南(SXSW)大会上表示:“当前的生物AI模型仅基于地球上极小一部分生物样本数据进行训练。 Trillion Gene Atlas将已知基因领域的规模,拓展至远超公共数据库数个量级的水平。 这一量级的训练模型将为可编程治疗药物的设计建立新的范式。”

这个规模堪比人类基因组计划(Human Genome Project)的项目,在西南偏南大会健康专场和圣何塞NVIDIA GTC大会期间正式发布。

破解生物数据瓶颈

随着模型体量和算力大幅提升,多样化数据已成为AI药物开发和落地应用取得突破的关键推动因素。 目前所有基于序列的基础模型,都依赖于同一批公共数据库的不同版本,其中80%的训练数据来自一个序列总量不到2.5亿条的公共数据库。

Basecamp Research于今年1月发布的EDEN基础模型,完全基于BaseData™专有基因组数据库进行训练,成功突破行业进化“数据壁垒”。该数据库目前规模已超过所有公共资源数据库总和的10倍以上。 EDEN模型通过学习100万个新发现物种、数量达史无前例的100亿个全新科学基因,为生物领域AI揭示了至关重要的新型扩展定律。

数据集多样性的大幅提升,使EDEN超越了简单的预测范畴,成为全球首个能够直接根据疾病需求设计多样化治疗药物的模型。 在湿实验室验证中,EDEN无需任何人体或临床数据,即可在人类原代T细胞中实现零样本活性检测。 该模型已在多种前沿治疗模态中产生有效成果,尤其开创性推出AI可编程基因插入(aiPGI)技术来植入健康基因,并设计出靶向抗菌肽,针对重点病原体的有效命中率达97%。

Trillion Gene Atlas正是基于这一技术路径,大幅拓展了适用于AI训练的已知“生物互联网”中基因组数据广度与场景深度。

Basecamp Research首席技术官Phil Lorenz补充道:“仅靠更大的模型是不够的。 EDEN模型已证明,更高质量、全场景化的数据,能让生物学领域的AI性能呈现更陡峭的提升曲线。 Trillion Gene Atlas将这一效应再放大100倍。”

全球生物多样性合作网络

过去六年间,Basecamp Research已在31个国家地区建立了科研合作网络,构建了一个专为AI训练设计、可扩展的进化基因组学研究体系。 公司创新融合新的监管与经济合作框架,采用完全离网的DNA测序技术,从传统实验室无法触及的生态系统中采集高质量的基因组数据。

此类合作以知识交流、本土科研能力建设为基础,同时遵循新兴数字序列信息监管法规,签订公平的获取与利益共享协议。 该框架能够实现负责任、大规模、高质量的基因组数据采集,也为合作地区投入科研基础设施建设与人才培养。

作为图谱发布的一部分,Basecamp宣布在智利、阿根廷达成新的合作伙伴关系,并拓展南极洲的协作,进一步扩大其全球生物多样性网络。

携手Ultima Genomics、PacBio和NVIDIA,实现数据生成和算力升级

Trillion Gene Atlas的实现得益于超高通量短读长和长读长测序技术以及加速计算的进步。 Basecamp已与Ultima Genomics和PacBio达成合作,实现工业化规模的测序,涵盖数据丰富、高精度的长读长测序。

Ultima是超高通量下一代测序(NGS)系统开发商。 Ultima最新测序系统UG200系列升级了独有的晶圆基测序架构,能够以低成本实现工业化规模的高通量、全基因组及多组学测序,为Trillion Gene Atlas等项目的开展提供了支撑。

Ultima Genomics创始人兼首席执行官Gilad Almogy表示:“与语言或计算机视觉等其他领域相比,生物学领域长期以来一直面临数据匮乏的问题,因为研究人员缺乏大规模生成数据的工具。 我们坚信,AI将对人类对生物学与健康的认知产生深远影响。UG200系列从设计之初就旨在提供生物AI(BioAI)所需的海量数据集,以实现这一宏伟愿景。 很高兴我们的技术能够支持Basecamp实现其愿景,并推动像Trillion Gene Atlas这样的创新项目。”

PacBio总裁兼首席执行官Christian Henry表示:“PacBio的HiFi测序技术可提供高精度的长读长数据,保留完整的基因组上下文信息,并能在复杂样本中实现亚种甚至菌株级的分辨率解析。 高保真数据为生物AI模型提供了可靠、信息丰富的基础,使其能够大规模地向自然学习,支撑Trillion Gene Atlas之类的项目推进。”

Trillion Gene Atlas将借助NVIDIA的加速计算基础设施,处理拍字节级规模的海量基因数据。 作为这项工作的一部分,Basecamp计划利用NVIDIA Parabricks工具,大幅加速宏基因组组装。 此次合作聚焦于先进工程技术与新型算法策略的研发,优化复杂环境样本的重构方式。 得益于这种加速,原本需要20多年完成的千万亿级DNA碱基对处理工作,预计可在不到两年的时间内完成。

通过并行数据处理、自动标注和大规模模型训练,合作伙伴期望将原本需要20多年处理时间的任务压缩到两年以内。 这种对测序、组装、标注和模型训练的效率升级,旨在扩展生物基础模型在治疗药物研发领域的性能与应用范围。

创建端到端的智能体治疗药物设计工作流

Anthropic参与此次合作,是其拓展生命科学领域能力、将Claude接入更多科研平台的重要布局。 通过与Claude for Life Sciences团队合作,目标是利用Trillion Gene Atlas和EDEN,进一步提升Claude的科研协作能力,为科学家与临床医生提供更高效支持,助力科研机构向公众落地前沿成果。

通过结合Claude的高级推理能力、EDEN的疗法设计能力,以及NVIDIA CUDA-X Libraries来处理非结构化数据,该项目旨在创建一个集成工作流,用于解释复杂的临床数据,并将其直接转化为治疗药物设计。

Trillion Gene Atlas建立在三大支柱之上:大规模DNA测序、全球数据供应合作以及先进计算技术。 结合能够推理复杂数据的AI系统,这些基础有助于将庞大的数据集转化为治疗药物研发成果。 通过将可供AI使用的进化数据再增加100倍,Basecamp Research致力于实现更高效、更系统化的药物设计,延续 EDEN模型在基因治疗和抗击耐药细菌等领域取得的前期进展。

 

内容底部广告位(手机)