-
日期: 2025-06-26 | 來源: 新智元 | 有0人參與評論 | 專欄: 谷歌 | 字體: 小 中 大
這款模型的預測范圍非常廣泛,包括了在不同的細胞類型和組織中,基因的起始與終止位點、基因的剪接位置、RNA的生成數量,以及哪些DNA鹼基是可訪問的、哪些在空間上相互靠近、哪些與特定的蛋白質結合等。
AlphaGenome能夠同時做出多方面的預測,得益於其頗具層次的核心架構。
如下圖所示,首先通過卷積層初步檢測基因組序列中的短模式,再利用Transformer架構在整個序列的任意位置之間高效傳遞信息。
最後,經由壹系列輸出層,將識別出的模式轉化為對不同調控維度的具體預測。
在訓練過程中,針對單個序列的龐大計算量,會被分散到多個互聯的張量處理單元(TPU)上協同完成。
模型基於谷歌先前的基因組學模型Enformer構建,並與AlphaMissense模型形成互補——後者專注於分類蛋白質編碼區內的變異所造成的影響。
順便提壹句,模型的訓練數據源自多個大型公共科研項目,如ENCODE、GTEx、4D Nucleome和FANTOM5。
這些項目通過實驗,測量並覆蓋了數百種人類及小鼠細胞與組織中基因調控的多種關鍵維度。
壹次100萬DNA鹼基,瞬間預測
與現有的DNA序列模型相比,AlphaGenome具備幾項顯著的獨特優勢:
兼顧長序列與高分辨率
處理長序列對於覆蓋遠距離的基因調控區至關重要,而鹼基級別的分辨率則是捕捉精細生物學細節的關鍵。
以往的模型不得不在序列長度和分辨率之間做出艱難取舍,這限制了它們能夠同時建模和准確預測的生物學維度。
而谷歌的技術突破成功克服了這壹限制,且並未顯著增加訓練所需的資源。
訓練壹個完整的AlphaGenome模型(未經蒸餾)僅需4小時,算力開銷僅為最初訓練Enformer模型時的壹半。
結果就是,AlphaGenome已經可以實現長達100萬個DNA鹼基字母的序列的分析,並能以單個鹼基的分辨率進行精細預測。
全面的多維度預測
通過解鎖對長輸入序列的高分辨率預測能力,AlphaGenome得以對迄今最多樣化的生物學維度進行預測。
這為科學家們提供了關於基因調控復雜過程的、更全面的信息。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見