-
_NEWSDATE: 2025-06-26 | News by: 新智元 | 有0人参与评论 | 专栏: 谷歌 | _FONTSIZE: _FONT_SMALL _FONT_MEDIUM _FONT_LARGE
这款模型的预测范围非常广泛,包括了在不同的细胞类型和组织中,基因的起始与终止位点、基因的剪接位置、RNA的生成数量,以及哪些DNA碱基是可访问的、哪些在空间上相互靠近、哪些与特定的蛋白质结合等。
AlphaGenome能够同时做出多方面的预测,得益于其颇具层次的核心架构。
如下图所示,首先通过卷积层初步检测基因组序列中的短模式,再利用Transformer架构在整个序列的任意位置之间高效传递信息。
最后,经由一系列输出层,将识别出的模式转化为对不同调控维度的具体预测。
在训练过程中,针对单个序列的庞大计算量,会被分散到多个互联的张量处理单元(TPU)上协同完成。
模型基于谷歌先前的基因组学模型Enformer构建,并与AlphaMissense模型形成互补——后者专注于分类蛋白质编码区内的变异所造成的影响。
顺便提一句,模型的训练数据源自多个大型公共科研项目,如ENCODE、GTEx、4D Nucleome和FANTOM5。
这些项目通过实验,测量并覆盖了数百种人类及小鼠细胞与组织中基因调控的多种关键维度。
一次100万DNA碱基,瞬间预测
与现有的DNA序列模型相比,AlphaGenome具备几项显著的独特优势:
兼顾长序列与高分辨率
处理长序列对于覆盖远距离的基因调控区至关重要,而碱基级别的分辨率则是捕捉精细生物学细节的关键。
以往的模型不得不在序列长度和分辨率之间做出艰难取舍,这限制了它们能够同时建模和准确预测的生物学维度。
而谷歌的技术突破成功克服了这一限制,且并未显著增加训练所需的资源。
训练一个完整的AlphaGenome模型(未经蒸馏)仅需4小时,算力开销仅为最初训练Enformer模型时的一半。
结果就是,AlphaGenome已经可以实现长达100万个DNA碱基字母的序列的分析,并能以单个碱基的分辨率进行精细预测。
全面的多维度预测
通过解锁对长输入序列的高分辨率预测能力,AlphaGenome得以对迄今最多样化的生物学维度进行预测。
这为科学家们提供了关于基因调控复杂过程的、更全面的信息。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见