• 1

爱游戏登陆官网-爱游戏充值投注 版权所有      吉ICP备596542号-91                                                                                                                                                                        网站建设:爱游戏登陆长春    【后台管理】

推荐产品

RECOMMENDED PRODUCTS

产品名称

全球微生物组超突变的生态学和分子靶点

发布时间:2024-02-08 11:25:25
来源:爱游戏登陆官网 作者:爱游戏充值投注
所属分类
没有此类产品
我要询价
产品描述

  生物基因组序列的改变,即突变,是进化的原材料。突变的频率和位置受到特定的分子机制的限制,例如产生多样性的逆转录元件(DGR, diversity-generating retroelements)。从培养细菌和噬菌体的DGRs特征来看,DGRs可进行一种错误率高的逆转录,并将突变引入特定靶点。科学家们也从一些宏基因组数据中发现了DGR基因座,但目前对DGRs的生态学作用以及进化驱动因素的了解还很少。这项研究通过对公共宏基因组数据的30000多个DGRs进行分析,建立6个DGRs进化谱系,其中3个谱系主要由噬菌体编码并可能具有使宿主粘附蛋白多样化的功能。同时,这项研究阐明了DGRs的广泛活跃性,在一些物种中甚至导致了10%以上的氨基酸改变。总体而言,这些结果强调了DGRs的进化限制并阐明了DGRs在自然群体中发挥的不同作用。

  为了识别候选DGRs,研究者搜索了异常重复序列1kb范围内的逆转录酶(RT)基因,并根据系统发育分析中所处的位置和错配模型来过滤假阳性。利用这种方法,他们从81,404个公共基因组数据和来源于163个环境类型的9467个公共宏基因组数据获得了全球范围的DGRs多样性数据(补充数据1)。在分析的基因组中,他们一共检测到1314个DGRs,数目和多样性跟以往数据挖掘所发现的相差无几。在分析的宏基因组数据中,他们一共检测到31,007个DGRs,比此前发现的总DGRs多了近15倍。总体而言,DGRs分布在1500多个细菌和线多种环境类型中(补充数据2,补充说明1)。值得注意的是,由于宏基因组数据通常都是片段化的(编码DGRs的contig的平均长度为9584bp),他们的方法无法检测出DGRs和靶标基因距离较远的情况(例如可变重复区VR不在RT附近的DGRs),因此这一数据依然少于实际DGRs情况。

  然后,研究者根据平均氨基酸相似度(AAI)对发现的RT序列进行聚类,先基于95% AAI可以分为13,415个OTUs,再基于50% AAI可以分为1318个clusters(附图1,补充数据3)。每个OTUs和clusters的成员都与某一基因组类型(例如,病毒基因组或细胞型基因组),物种类型和生物群类型构成相关关系,表明这一分组代表了连续且主要是垂直传播的DGRs进化单元(补充说明2,附图2)。为了获得DGRs多样性的全面概览,研究者构建了包含每一RT cluster的代表序列以及二组内含子(Group Ⅱ introns)、反转座子和未被表征的RT等其他RT基因的系统发生树(图1b)。结果表明,DGRs构成了一个跟其他类型RT区分开来的单系进化枝(monophyletic clade),这表明这些元件具有单独的进化起源,而这一发现跟以前的猜想相吻合。总体而言,75%的clusters只含有宏基因组来源的DGRs序列。此次研究中DGRs的系统发生学多样性是此前已知DGRs的近6倍(573%),这一发现也强调了宏基因组和宏转录组数据对于发现DGRs序列的突出作用。

  图1.DGRs多样性在生物体、生物群和生物物种中的分布情况。a.DGRs突变逆转录回巢错过程模式图。不同颜色代表DGRs的主要组成部分;图注指出该过程的三个主要阶段。b.利用DGRs和非DGRs的逆转录酶(RT)构建的系统发育树。先对所有RT蛋白序列进行聚类,每一簇中选取代表序列进行系统发育分析。分支颜色代表每一簇中RT的类型。所有支持度50%的节点均收缩起来。外层的圆圈由内到外分别代表基因型类型、物种分类和生物群落类型。缩写解释:CPR: Candidate Phyla Radiation. DPANN Diapherotrites, Parvarchaeota, Aenigmarchaeota, Nanoarchaeota, Nanohaloarchaeota, FCB Flavobacteria, Fibrobacteres, Chlorobi, Bacteroides, PVC Planctomycetes, Verrucomicrobia, Chlamydiae, Aq aquatic, Te Terrestrial, En Engineered, H-a Host-associated。NA代表特征无法估计的情况。c.不同DGRs clade在RT OUT水平的一些特征分布。颜色代表内容与图1b相同。不含NA值。d.不同物种编码DGRs的基因组的丰度。根据单拷贝标记基因(见“方法”)计算出整个宏基因组组装结果中观察到的基因组总数,并从整个数据集中得出DGR的平均频率。然后为每个组计算每个基因组的DGR检测频率,并与总体频率相比较,得出对数富集率。除了蓝细菌组(P值=0.21),图中所有的对数比都具有统计学意义(卡方检验校正后的P值1E-10)。e.不同生物群落编码DGRs的基因组的丰度。对于每个生物群落,在估计的基因组总数和每个宏基因组中检测到的DGRs的数量之间计算出线)。然后,回归斜率被认为是对每个基因组中DGR是、平均数量的估计并此显示出来,误差条代表斜率估计的标准误差。每基因组0.05和0.25个DGRs的截止点用垂直虚线突出显示。在这些计算中,病毒和低复杂性的宏基因组被排除在外(见方法和补充数据1)。圆点根据生物群落类型着色(蓝色:水生,棕色:工程,粉色:与宿主相关,绿色:陆生)。

  虽然在这里腺嘌呤位置的突变偏移没有作为检测DGRs的指标,模板重复区(TR,template repeat)和可变重复区(VR, variable repeat)之间的配对在TR区腺嘌呤位点处的错配率大于75%(图1c)。在人工检查离群值之后(补充数据4),发现实际上仅7个cluster的DGRs的腺嘌呤位点错配率低于75%(附图4,补充数据4),这与之前的比较基因组研究和生化研究结果一致,证实了腺嘌呤的突变倾向是DGRs RT的固有特征。结合系统发生树中DGRs的单系群特征和腺嘌呤突变的普遍性可知,目前已知的DGRs都起源于同一个祖先,并在之后在其他生物之间散发转移,并导致了现在看到了6个clade。这一进化过程与DGRs最开始由可移动基因元件所编码并被传播至各个物种和生态系统的猜想相吻合。

  在分析的9467个宏基因组中,有几种物种和生物群含有明显多的DGRs。首先,DGRs在CPR, Firmicutes和Flavobacteria-Bacteroidetes-Chlorobi(FCB)的成员中明显更常见(图1d)。然后,研究发现人肠道、咸水湖、垃圾堆、地下水库等环境样本中的基因组也携带更多DGRs(图1e,附图5)。系统发育逻辑回归分析进一步证实种系发生和生态因素共同驱动DGRs的分布(补充说明5)。DGRs分布和特定病毒型生物和细胞型生物的单系进化枝具有相关关系。在解释完这一系统发育信息后,病毒编码的DGRs依然跟特定的生物群具有明显正相关,而细胞型生物编码的DGRs仅与一种生物群成负相关(附表1)。综上所述,这些结果表明DGRs具有漫长复杂的进化历史,并可以在不具有系统发育相关性的物种中进行传播,但只能在靶点突变是选择优势的特定位点或支持DGRs突变逆转录归巢 (mutagenic retrohoming) 的物种才能保留下来。而DGRs在基因组和生物群中分布广泛且不均匀的特点支持了这一猜想。

  为了解识别的DGRs可能的功能,研究者接下来分析了这些DGRs的36,611个靶点基因的多样性。跟之前报道的一样,大部分(68%)的靶点基因单独比对到参考数据库时无法进行功能注释。但是,从头聚类分析(de novo clustering)结果表明,大部分(92%)DGRs靶标基因编码蛋白可以分为24个蛋白质簇(PCs,protein clusters)并可见明显的基因组类型和DGRs 进化枝划分(图2a,附图6,补充数据5,补充说明6)。

  PCs的功能结构域和位点保守性分析表明DGRs的靶标基因具有近乎普遍的模块化组织(modular organization)。靶点蛋白都是明显的多结构域蛋白,VR区通常位于C末端(图2a),这通常是由于逆转录归巢需要顺式作用DNA元件,只有作用于C端的VR区时这些顺式作用元件才会位于基因间并不受氨基酸编码的限制。虽然也含有一些DGRs可变的位点,但这些C末端区域整体来说比PCs的其他区域更保守,这可能是由于跟DGRs诱导超突变有关的结构限制(附图7)。相应地,虽然在靶点蛋白N末端预测出一些折叠结构,但是含VR区跟C型凝集素折叠结构相关。少数VR区以往被认为跟Ig样折叠有关,但是通过扩展序列的范围对这些序列重新进行分析,发现这些靶标对应于含Ig样结构域的噬菌体尾部纤维,旁边是一个未被表征的非Ig样VR结构区(附图8和9,补充说明7)。由于新的C型凝集素折叠结构域突变体的发现仍然具有一定的误差,因此其他一些跟VR重叠的未知保守结构域也可能是属于C型凝集素折叠结构域(图2a)。基于DGRs靶标PCs的分布,这些C型凝集素折叠结构域最有可能跟新型病毒、未培养细菌(CPR)和线)。DGRs靶标蛋白中的模块性组织也表明DGRs靶标区域可能发生基因内的重组,这种重组可能将大范围独立折叠的结构域跟C端或C型凝集素编码区融合从而产生易于突变的嵌合靶标。

  由于DGRs靶标蛋白具有近乎普遍的模块化组织结构,因此可以基于目标蛋白C末端VR区外的保守结构域或序列特征推测其可能的功能。在24个主要靶标PCs中,即使使用高灵敏度的注释工具(如HHblits)进行分析,大部分(71%)C末端VR区外的序列跟已知的蛋白质结构域也不存在有意义的序列相似性。因此,我们利用不基于相似度的蛋白质注释方法将这些PCs按照功能大类进行划分,也就是把病毒DGRs的PCs分为“结构蛋白”类和“未知”类,把细胞型生物DGRs的PCs分为“膜结合”类和“未知”类(补充说明8)。

  病毒DGRs(clade1,4和6)的靶标PCs大部分被注释为尾部结构蛋白,参与宿主识别和粘附过程(图2a),这其中包括涉及先前报道的DGR介导鲍特氏菌属(Bordetella)噬菌体尾纤维突变的目标蛋白,而这种突变可使其改变宿主。我们推断宿主粘附蛋白发生的超突变可能广泛地使编码DGRs的病毒能够接触到更多种类的宿主细胞。于是,研究者通过将编码DGRs和不编码DGRs的病毒跟包含来自576,561个原核生物参考基因组的670万条CRISPR 间隔序列(spacer)的数据库进行比对来证实此猜想。结果表明,控制某些混杂因子后,编码DGR的病毒比不编码DGRs的病毒与更多种宿主存在相关关系(图2b,附图10,补充说明9)。尽管这些结果表明DGRs介导的超突变可以使噬菌体粘附并感染更多种宿主细胞,但这并不一定意味着这些噬菌体就能成功有效地进行复制周期。宿主体内的某些特征和防御机制可以使这些感染无效,而这些病毒要成功感染新的宿主(即使跟原宿主亲缘关系较近),可能需要一些额外的适应条件。

  对细胞型生物目标蛋白来说,大多数PCs都包含至少一个N端跨膜结构域或信号肽以及参与蛋白质结合、糖类结合和细胞粘附的功能结构域(图2a,c,补充数据5),表明这些靶点蛋白大多是结合微生物胞体和病毒颗粒等细胞外成分的膜锚定蛋白。而且,最常见靶标分子 (PC_00001) 相关的宏基因组组装的基因组(MAGs)基因和功能注释呈现出富营养化和颗粒相关的生活方式(补充说明10),而作用于这一目标分子的DGRs主要分布在水环境,但在各水环境之间分布并不均匀(图1e,附图5,附图9)。因此,颗粒结合、细胞与细胞粘附或细胞与表面粘附所提供的选择优势在不同环境可能不同。例如,在大海中,生物的随机结合可能并不有利,因为它可能会导致粒子沉降而使细胞丢失增加,这可以解释为什么在这些样品中很少检测到DGRs(图1)。然而,重要的。


爱游戏登陆
未找到相应参数组,请于后台属性模板中添加
暂未实现,敬请期待
暂未实现,敬请期待