开云体育官方网站首页

开云体育官网 Nature Methods | 东说念主工智能若何重塑咱们对基因调控的融会
发布日期:2026-04-04 08:26    点击次数:137

开云体育官网 Nature Methods | 东说念主工智能若何重塑咱们对基因调控的融会

基因组曾被视为一册还是破译的“人命之书”,然则,当解码责任深入到占据基因组绝大部分的非编码区域时,咱们才发现,那些曾被以为是“暗物资”的序列,推行上是截止基因抒发的复杂截止面板。异常是顺式调控元件(cis-regulatory elements, CREs),尤其是增强子(enhancers),它们通过整合激活或阻碍性转录因子谐和位点(transcription factor binding sites, TFBSs)的特定组合,决定了细胞的身份与气运。

这种被称为“增强子密码”的底层逻辑具有高度的简并性:一个转录因子不错识别多种不同的谐和位点,而不同组合的谐和位点又能开动交流的基因抒发输出。若何从海量的序列中读懂以致重写这些密码?

4月2日,《Nature Methods》的研究报说念“CREsted: modeling genomic and synthetic cell-type-specific enhancers across tissues and species”,研究东说念主员斥地了一款名为CREsted的开源软件器用包。它不仅能跨物种、跨组织地精确估量细胞类型特异性的增强子活性,还能在活体动物中重新打算合成增强子。

深入非编码区的底层逻辑

经久以来,通过高通量技巧识别和表征顺式调控元件一直是一个高大的挑战,高假阳性率如同迷雾一般阻遏着研究的深入。跟着单细胞测序本领的爆发,异常是单细胞转录座酶可及性染色质测序(scATAC-seq)的应用,不同细胞类型间染色质可及性的各异成为了异质性细胞群体中增强子功能的最可靠方针。

然则,现存的序列建模器用通常短缺针对大界限、复杂scATAC-seq图谱的优化,也短缺全面的细胞类型特异性增强子代码分析能力。这恰是CREsted降生的机会。CREsted并非单一的算法,而是一个端到端的Python生态系统。它神秘地整合了四个中枢模块:数据预惩处、模子进修、细胞类型特异性增强子代码解释,以及合成增强子的打算。

在预惩处阶段,CREsted引入了一种立异的峰值高度归一化(Peak normalization)计策。惯例的每百万计数(CPM)归一化会对具有较岑岭值计数的细胞类型产生系统性偏差。为了改造这极少,研究东说念主员运用高十足值且低变异性(基尼总共较小)的构成型峰值从新缩放了CPM归一化值。这种肖似最小-最大归一化的惩处,将总共细胞类型的基线可及性拉平,为后续深度学习模子的进修提供了极其白皙的靶标数据。

在模子进修层面,CREsted接收了多输出记忆(Multi-output regression)或多标签分类(Multi-label classification)架构。异常是在记忆模子中,研究东说念主员接收了一种谐和了余弦相似度(Cosine similarity)和对数均方谬误(MSE)的动态亏欠函数。这种打算概况迫使模子不仅关心十足的峰值高度,更关心估量向量与简直靶标向量在多维度空间中的标的一致性,从而极地面提高了模子对特定细胞类型的明锐度。

和会了CREsted的底层逻辑后,咱们不禁要念念考:一个基于海量数据进修出来的深度学习模子,确实能和会人命的语法吗?

跳动物种的读码能力:从小鼠皮层到东说念主类免疫系统

为了考据CREsted的理会能力,研究东说念主员领先将眼神投向了极其复杂的小鼠通顺皮层。他们基于该组织的scATAC-seq数据,进修了一个名为DeepBICCN2的峰值记忆模子。该模子的进修过程分为两步:领先在440,993个共鸣峰(Consensus peaks)上进行基础进修,随后在73,326个细胞类型特异性区域进行微调。

在完全未见过的测试集染色体区域上,DeepBICCN2展现出了惊东说念主的估量精度,其对数调遣后的估量峰高与简直峰高之间的皮尔逊相关总共(Pearson correlation)达到了0.82,斯皮尔曼相关总共(Spearman correlation)达到了0.79。为了进一步考据其实战能力,研究东说念主员运用该模子对171个还是在活体中考据过细胞类型特异性的增强子进行了评分。终结披露,在多标签分类成就下,模子的平均精确度达到了0.77,调回率达到了0.79。

最令东说念主畏俱的是模子展现出的跨物种泛化能力。已知小鼠和鸟类的中间神经元(Interneurons)增强子代码具有很强的保守性。研究东说念主员运用基于小鼠Parvalbumin(Pvalb)细胞类型进修的模子,径直去评估鸡基因组中特异性抒发于Pvalb细胞的UACA基因位点。在完全莫得提供鸡的scATAC-seq数据的情况下,模子依然给出了高达0.62的估量与简直可及性相关性。这意味着,模子简直学到了序列背后的通用“语法”,而非只是记取了某个物种的特征。

在核苷酸分辨率的分析中,模子揭示了极为丰富的生物学细节。以滋长抑素-软骨凝集素(SstChodl)细胞为例,模子识别出一个独到的E-box基序(motif),其共有序列为CAGGTG。在SstChodl特异性增强子AiE2428m中,淌若将这个CAGGTG只是突变为更经典的CAGCTG时势,模子估量该增强子的活性将会在总共内侧神经节杰出(MGE)开头的中间神经元中被泛泛激活,而不再局限于SstChodl细胞。一个碱基的各异,就蜕变了调控元件是手脚阻碍子照旧激活子,这深切地展示了调控语法的复杂与严谨。

将视线从神经系统转向免疫系统,CREsted相似发挥优异。在东说念主类外周血单核细胞(PBMCs)中进修的DeepPBMC模子,在细胞类型特异性测试峰上达到了0.71的皮尔逊相关总共。在理会树突状细胞特异性的IFNB1增强体(Enhanceosome)时,模子的发挥尤为出色。IFNB1增强体是一个高度拥堵的50个碱基对(bp)窗口,包含多个重迭的转录因子谐和位点。在这个连传统结构生物学王人感到辣手的密集区域,DeepPBMC胜仗找回了绝大多数被实验考据过的谐和位点,只是遗漏了p50、c-Jun和四个IRF位点中的一个。

为了考据这些估量在简直生物体内的功能相关性,研究东说念主员还模拟了转录因子降解的效应。他们对比了小鼠前体B细胞在普通现象下和EBF1卵白降解后的染色质可及性。模子估量的Tcf3基因位点可及性变化与简直的测序数据高度吻合,对照组和惩处组的相关总共分别达到了0.55和0.60。这解释了模子找出的关节序列并非只是是统计学上的正好,而是简直开动细胞气运的分子开关。

试管与临床的鸿沟:从新注目癌症的间充质样现象

在癌症研究中,跨患者、跨肿瘤类型比较细胞现象一直是一个宇宙级艰巨。由于激烈的患者特异性表不雅基因组和转录组布景杂音,研究东说念主员很难剥离出简直具有共性的调控措施。比年来,间充质样(Mesenchymal-like, MES)细胞现象在玄色素瘤、胶质母细胞瘤(GBM)等多种肿瘤中被反复报说念。然则,由于短缺有用的比较器用,这些跨癌种的MES现象在底层增强子代码层面上是否确实交流,一直是个未解之谜。

更严重的问题在于,癌症研究严重依赖体外培养的癌细胞系(Cell lines),但细胞系在培养皿中阅历的进化压力与简直的东说念主体肿瘤微环境迥然相异。它们确实能代表简直的临床肿瘤吗?

运用CREsted,研究东说念主员开展了一场深切的横向与纵向对比。领先,他们运用多种东说念主类癌症细胞系(包括玄色素瘤的MM029、MM099,GBM的A172、M059J等)进修了DeepCCL峰值记忆模子。模子胜仗地将不同癌种的MES样现象聚类在沿途,并揭示了它们分享的调控逻辑,举例深广依赖AP-1、TEAD、RUNX、NFI和ATF/CREB等转录因子的谐和位点。

紧接着,开云app研究东说念主员运用东说念主类胶质瘤患者的临床活检(Biopsy)scATAC-seq数据,通过主题建模(Topic modeling)索要了患者间分享的调控主题,并进修了分类模子DeepGlioma。当他们将活检模子(DeepGlioma)与细胞系模子(DeepCCL)在数千个特异性区域的核苷酸孝顺分数进行成对的斯皮尔曼相关性分析时,一个令东说念主深念念的表象浮出水面。

自然活检数据中的某些主题(如主题8)与MES样癌细胞系发挥出了最高的相关性,但这种相关性较着低于任何两个细胞系之间的相似度。通过对比它们底层的基序分散,谜底变得昭彰起来:自然AP-1和CREB/ATF的调控在细胞系和临床活检中是分享的,但TEAD的谐和基序简直是细胞系所特有的,而SOX和RFX的谐和基序则高度特异于简直的临床活检样本。

不仅如斯,传统上被界说为“前神经元(Pro-neural)”亚型的LN229细胞系,在增强子可及性层面上,依然保留了深广的MES样调控措施(如AP-1、TEAD)。从表不雅遗传的视角来看,LN229更应该被界说为一种前神经元-间充质搀杂现象。

这些数据深切地辅导咱们,体外培养环境极大重塑了细胞系的表不雅遗传图谱。细胞系中不雅察到的典型MES样增强子逻辑,并未在简直肿瘤中取得完全重现。淌若不深入到核苷酸级别的调控代码,咱们可能永久无法察觉这种因实验模子自己带来的系统性偏差。CREsted在这里充任了一面“照妖镜”,让研究东说念主员概况剥离基因组拷贝数变异(CNV)等非序列身分的干涉,直视基因抒发调控的最本体限定。

从新念念考模子架构:重新进修与微调大模子的博弈

比年来,基因组学领域掀翻了一股“大模子”激越,基于Transformer架构的大型预进修模子(如Enformer和Borzoi)备受顾惜。表面上,这些在海量基因组数据上预进修的基础模子,应该比重新进修的小模子具有更强的表征能力。为了探究这极少,研究东说念主员在CREsted框架内对Borzoi大模子进行了迁徙学习(Transfer learning)测试。

他们修改了Borzoi的架构,割断了临了的分类头,添加了新的全相连层,并在小鼠皮层数据上进行了两轮微调:先在共鸣峰上进修,再在细胞类型特异性峰上降学习率微调。同期,他们也对比了冻结Borzoi骨干辘集、仅进修新添加层的计策,以及引入其他自监督基因组言语模子(如HyenaDNA和Nucleotide Transformer)的发挥。

令东说念主不测的数据出现了。领有2200万参数的微调版Borzoi模子,在估量准确率上与重新进修的、参数目小得多的DeepBICCN2模子不相潦倒。自然微调后的大模子在共鸣峰上保留了稍好极少的泛化能力,但在估量最高分辨率的细胞类型特异性区域时,DeepBICCN2的皮尔逊相关总共分散与微调Borzoi简直重合。

更关节的是基础模子的发挥。在一个完全零丁的外部数据集(包含各式神经元亚型)的测试中,未经特定组织微调的基础Borzoi模子发挥相配灾祸。基础Borzoi在永别高度相似的GABA能神经元和谷氨酸能神经元亚型时显牛逼不从心。这径直反馈在其对171个活体考据增强子的分类发挥上——基础Borzoi的平均精确度大幅过时于DeepBICCN2和经过两次微调的Borzoi模子。

至于HyenaDNA和Nucleotide Transformer等基因组言语模子,即使进行了相似的微调,它们的发挥也较着失态于重新进修的CREsted模子或微调后的Borzoi,尽管它们有着极高的参数目和高大的揣测老本代价。

这些数据促使咱们从新注目东说念主工智能在人命科学中的应用计策。对于理会特定组织的风雅细胞亚群增强子密码,参数目高大的通用基础模子有时是“银弹”。一个经过全心打算、数据预惩处完善、针对性进修的轻量级模子(如CREsted内置的架构),不仅能在估量性能上匹敌以致卓绝大模子,何况在揣测资源奢靡和核苷酸级解释性上具有无可比较的上风。

从“读”到“写”:在活体斑马鱼中定制合成增强子

淌若说前述总共的责任王人是在“读懂”人命的语法,那么研究的临了一部分,则是尝试饰演“造物主”的变装——重新编写人命的调控代码。

研究东说念主员运用斑马鱼胚胎发育的scATAC-seq图谱(隐私20个发育阶段,639种细胞类型-时刻点组合)进修了DeepZebrafish模子。随后,他们参加了极具挑战性的合成序列打算阶段。通过一种称为“揣测机内进化”(In silico evolution, ISE)的措施,研究东说念主员设定了一个严苛的老本函数:最小化模子估量向量与期许主义向量之间的欧几里得距离(L2距离)。主义向量被设定为:在主义细胞类型中具有极高的可及性,而在其他数百种细胞类型中可及性严格为零。

经过30次迭代优化,他们针对内皮细胞、心肌细胞和体节肌肉细胞分别打算了三组候选合成增强子,并在活体斑马鱼胚胎中进行了转基因增强子呈报实验。终结令东说念主咋舌:总共为心肌或体节肌肉打算的增强子,王人在活体中极其特异性地在其靶细胞中开动了抒发。内皮细胞的三个打算中,一个发挥出强且特异的活性,另一个发挥出正确但较弱的活性。

对这些重重生成的序列进行逆向理会,研究东说念主员发现了深切的生物学逻辑:心肌和体节肌肉的合成增强子中王人自动演化出了MEF、TEAD和E-box基序;而心肌特异性增强子中,还独特富集了GATA和NKX谐和位点;内皮细胞的增强子则整合了核受体、SOX、ETS和MEF基序。模子完全依靠深度学习的反馈,自行摸索出了这套转录因子的协同语法。

更具冲破性的是,研究东说念主员尝试了“双重特异性”(Dual-specificity)增强子的打算。他们条款模子打算出在心肌和体节肌肉中同期具有活性的序列,并尝试截止两种细胞中的活性比例(设定了1:1、0.5:1和1:0.5三种估量可及性比例)。

活体考据披露,大多数按照1:1和0.5:1(心肌/体节肌肉)打算的序列确乎产生了双重活性。然则,一个相配伏击的表象是:这些多主义增强子的举座抒发效果,较着低于单一主义的增强子。只好少部分按照1:0.5比例打算的增强子收尾了双重活性,且这些序列总体上发挥出更高的体节肌肉记号效果。

这背后的数据反馈促使咱们进行深档次的念念考。为什么在序列中交融两种细胞类型的语法,会导致举座活性的下落?这讲明转录因子谐和位点的组团结非简便的线性叠加。不同转录因子之间可能存在空间位阻、招募转录机制的竞争,以致是底层染色质三维构象的冲突。这标明,自然东说念主工智能还是不错初步掌持“双重代码”的打算,但精确截止体内基因抒发的十足丰采,仍然是一个极其复杂的高维非线性优化问题。

探寻人命科学的下一个范式

透过《Nature Methods》发表的这项对于CREsted器用包的重视研究,咱们看到了一条昭彰的本领进化轨迹。从疏忽的举座组织测序,到风雅的单细胞表不雅遗传图谱;检朴单的基序富集统计,到捕捉潦倒文依赖的深度神经辘集;从理会既有的自然基因组序列,到在试管和揣测机中创造出自然界从未有过的合成调控元件。

这些实打实的数据,不管是高达0.82的估量相关总共,照旧在斑马鱼体内能干的荧光呈报基因,王人明确地传递出一个信息:基因组非编码区的“暗语”不再是不行解的黑匣子。通过将领域专用的预惩处经过、神秘的亏欠函数打算以及高效的模子架构相谐和,咱们不仅概况揭示不同细胞现象(如癌症的异质性)在表不雅遗传层面的简直各异,还能为将来的基因诊治和合成生物学提供前所未有的器用。

当咱们不错解放地编写具有特定细胞类型以致特定时刻点活性的“分子开关”时,精确调控受损组织的再生、在特定癌细胞中定向激活寻短见基因,或是修正遗传性疾病的突变辘集,王人将从表面构想徐徐走向临床现实。

参考文件

Kempynck, N., De Winter开云体育官网, S., Blaauw, C.H. et al. CREsted: modeling genomic and synthetic cell-type-specific enhancers across tissues and species. Nat Methods (2026). https://doi.org/10.1038/s41592-026-03057-2

开云体育(中国)官方网站

友情链接:

Copyright © 1998-2026 开云体育官方网站首页™版权所有

zhhlwc.com 备案号 备案号: 

技术支持:®开云体育  RSS地图 HTML地图