编译:微科盟-Nemo,编辑:微科盟悄咪咪、江舜尧。
导读
背景:在大约1万年的驯化和选育过程中,猪品种的基因组中出现的大量结构变异(SVs)深刻地影响了它们的表型性状和对当地环境的适应能力。结构变异(SVs,长度≥50bp)广泛分布于基因组中,主要以插入(INS)、移动元件插入(MEI)、缺失(DEL)、重复(DUP)、倒位(INV)和易位(TRA)等形式存在。虽然已经进行了猪基因组的SVs研究,但基于SVs的全基因组关联研究(GWAS)却很少进行。
结果:本研究通过整合多个SV工具的优势获得了一个包含123,151个SVs的高质量SV图谱,其中53.95%的SVs为首次报道。这些高质量SVs被用于重建种群遗传结构,以确认基因分型的准确性。基于位置效应和选育分层,鉴定潜在的功能性SV位点。最后,在F2种群中根据位点对应的基因组位置对检测到的潜在影响位点进行基因分型。以此,对36个性状进行了GWAS分析。在7号染色体上发现了涉及8个身体性状和6个骨骼性状的大量位点。FKBP5包含几乎对于所有性状有最显著影响的SV位点。此外,还发现了几个与肌间脂肪、腹围、心重、肝重等性状相关的显著位点。
结论:本研究利用高覆盖度的测序数据构建了一个高质量的结构变异(SV)图谱,然后对25个身体性状、7个骨骼性状和4个肉质性状进行GWAS分析,以确定SV对欧洲和中国猪品种之间体型大小差异的影响。
论文ID
原名:Associationsofgenome-widestructuralvariationswithphenotypicdiferencesincross-bredEurasianpigs
译名:杂交欧亚猪全基因组结构变异与表型差异的关系
期刊:JournalofAnimalScienceandBiotechnology
IF:7
发表时间:2025.10
通讯作者:张龙超、王立贤
通讯作者单位:中国农业科学院北京畜牧兽医研究所
DOI:
实验设计
结果
大白猪和民猪全基因组范围的SV检测
本研究对大白猪×民猪资源种群开展了一项结构变异(SV)研究,该种群包括19头F0个体和513头F2个体。其中,F0个体包括4头大白猪和15头民猪。为获得更全面的SV图谱,本研究还收集了额外的11头大白猪(PRJEB39374)的数据。然后获得了这15头大白猪和15头民猪全基因组重测序数据,经质控后,共获得约1,396G的数据,平均测序深度超过35×。这些测序数据经过比对并对SV进行检测。首先将不同SV检测软件获得的结果以个体为单位进行合并,然后根据SV断点位置、类型和方向在种群水平上进一步合并,从而生成初始的SV数据集。在经过质量控制、手动合并和基因分型后,得到最终的SV图谱。具体的SV分析流程如附图S附加文件2所示。为排除由于NGS数据长度限制而产生的假阳性,以前的大多数研究将SV长度限制在50bp至10Mb之间,但最近的研究则限制在50bp至1Mb的范围。本研究使用Samplot对所有10Mb的位点进行可视化,并随机选择了DELs、DUPs和INVs中的三个位点进行PCR验证。结果发现10Mb范围内的所有SVs位点都没有显示预期大小的条带,而基因组覆盖图无法确定是否存在变异(附图SS附加文件2)。这个结果表明10Mb范围内的SVs是不可靠的,因此将超过1Mb的位点排除在此分析之外。此外,为评估已识别的SV质量,随机选择了每个染色体的一个位点进行PCR分析,使用所有F0个体DNA作为模版。结果显示,几乎所有位点都显示出预期大小的条带,准确率达到94.46%(附图S附加文件2)。
研究获得了具有一个高质量的123,151个SV图谱,包括68,121个DELs,12,045个DUPs,19,727个INVs和23,258个MEIs(图1A和B)。将已识别的SV位点与Ensemble公共SV数据库(版本26)进行比较,并以75%的重叠率对它们进行了过滤,总共找到了66,435个新的SV位点,极大地丰富了公共SV数据库(附图S附加文件2)。此结果表明,不同基因组区域对每个软件的灵敏度有所不同,结合多个软件的结果识别SV,并使用高覆盖度测序数据将显著增加新的SV位点的数量。在19个F0个体中,民猪的SV数目多于大白猪(图1C和表S附加文件1)。与欧洲猪相比,中国本地猪品种的基因组具有更高的遗传多样性。此外,剩下的11头大白猪(LWLW15)中的SV数目较少,这可能与测序深度有关(图1C)。MEI包含SINEs和LINEs两种变异(图1D),其中SINEs占80%以上。值得注意的是,先前已报道SINEs为猪基因组贡献了大量的多态性。本研究进一步调查了长度在50bp到1Mb之间的已识别SV的大小分布。大多数SV都很小(500bp),随着变异大小的增加,发现了大量SINEs和LINEs(图1E和F)。DELs、INVs和MEIs主要在1500bp的范围内,而DUPs主要是大型SV,长度超过5,000bp(图1F和表S附加文件1)。
图1大白猪和民猪的结构变异(SV)景观。A)SVs在猪基因组中的分布。圆形图表显示了SV在染色体上的分布,同心圆从外到内依次显示DELs、DUPs、INVs和MEIs。B)每种类型SV的鉴定总数。最终生成的SV数据集中,每种SV类型的位点数量统计信息。C)15头大白猪和15头民猪中每种SV类型的数量。堆积条形图显示了每个样本最初检测到的SV数,包括18个常染色体和X染色体。D)MEIs中转座子类型的百分比。饼图显示了ERV、LINE和SINE转座子的百分比统计信息。E)SV的类型与大小分布,x轴和y轴均以log10刻度显示。F)每种SV类型的长度范围分布。圈图上方标有四个长度范围。
种群结构推断
为进一步确认数据质量,本研究使用发现的SVs来推断15头大白猪和15头民猪的种群遗传结构(图2A-D)。使用PCA对所有SV基因型进行统一。结果确认了民猪与大白猪的明显分离(图2B)。根据采样地点(图2A),JAAS的民猪和中国东北其他地区的民猪也暗示着不同的血统。此外,F0代(英国)的4头大白猪和来自瑞士(PRJEB39374)的11头大白猪也具有明显的区分。以上结果与50k芯片分析结果大致相同,重新确认了SV基因型分析的准确性(附图S附加文件2)。同时还构建了一个系统树,可分为四个支系(图2C):第一和第二个支系分别是瑞士和英国的大白猪,第四个支系是JAAS的民猪。第三个支系并没有形成一个单一的聚类,暗示这些个体有复杂的血统。因此,进一步进行种群结构分析(图2D),发现中国东北农村地区采样的民猪(MM15)可能经历了杂交,显示出明显的外来血统渗透。这可能是由于当地居民引入商业猪种的血统以提高经济效益。
图2使用SV标记进行的群体遗传分析。A)本研究中使用的民猪样本的地理分布。B)基于SVs的PCA。紫色代表大白猪,绿色代表民猪。C)基于全基因组SV数据构建的大白猪和民猪的系统发生树。绿色代表来自JAAS的民猪,蓝色代表来自中国东北农村地区的民猪,黄色代表来自英国的大白猪,紫色代表来自瑞士的大白猪。D)根据SV进行的基因组范围的admixture分析(K=3和4)。每个个体都是一个垂直矩形,其标注的不同颜色表示不同的遗传群体。
SVs的功能相关性
为探索SV的潜在功能,本研究对它们在基因组中的位置进行了研究,包括基因下游、外显子、基因间、内含子、基因上游和非翻译区(UTR3和UTR5)。所有四种SV类型均主要位于基因间和内含子位置,这些位置的DELs、DUPs、INVs和MEIs分别占总量的96.75%、95.15%、97.40%和96.18%(图3A)。其余的SV位于编码区、非翻译区以及基因的上游和下游1kb以内。大约42.40%的SV与一个或多个Ensemble注释的基因重叠。不同类型的SV并没有显示出统计上的特定偏好,这意味着SV的分布与SV类型无关。
图3位置效应评估和FST筛选。A)基因组中每种SV类型在基因组上位置的分布情况。X轴表示基因组位置,Y轴表示SV的数量。B)每种SV类型预测的效应比例。基于SV分布位置在猪基因组中预测的效应依次是"MODIFIER"、"LOW"、"MODERATE"和"HIGH"。C)基于Weir和Cockerham的固定指数(FST)统计的曼哈顿图。在每条染色体中标记距离最高FST值SV位点的基因。D)和E)与FST值前5%位点重叠的基因的GO和KEGG富集分析。GOterm和KEGG通路字体大小与富集基因数量相关。
根据SV在基因组中的分布进一步预测了四种SV类型的影响。大多数SV的效应被定义为“MODIFIER”,意味着它们通常不会对基因产生影响(图3B)。其余SV效应被定义为“HIGH”、“MODERATE”和“LOW”。其中,DELs、DUPs、INVs和MEIs中具有“HIGH”效应的比例分别为27.56%、6.76%、18.57%和9.56%(图3B和表S附加文件1)。具有“HIGH”效应的SV被注释,发现它们涉及多个与疾病相关的途径,包括冠状病毒病COVID-19(ssc05171)、帕金森病(ssc05012)、非酒精性脂肪肝病(ssc04932)和阿尔茨海默病(ssc05010)(图S附加文件2)。
分级育种的SVs
为发现候选的适应性SVs,本研究计算了15只大白猪和15只民猪之间的FST。前5%的SVs被确定为潜在的(可用于)分级育种的SVs位点,共有3,797个DELs、271个DUPs、231个INVs和525个MEIs(图3C和表S附加文件1)。对每个染色体上FST值最高的SV位点进行注释,以确定可能受到影响的潜在功能基因。其中,具有最高FST的SV位点是位于5号染色体上的MSRB3,先前已报道它在猪耳朵的大小中起关键作用。MYH8已被报道与肌肉发育和肉质品质性状相关,NR1D2负责心肌的脂肪生成和脂质积累。KIT基因是决定不同猪品种皮毛颜色的关键基因。GATM和SEMA5A分别参与胎盘发育和胚胎发育。HDAC9和GRM8分别与眼肌面积(笔者按:眼肌面积指家畜背最长肌的横断面面积。由于眼肌面积性状与家畜产肉性能有强相关关系,所以在育种上显得尤为重要。)和I型(肌肉)纤维相对面积相关。ITGAL与免疫相关,参与白细胞召募过程。FANCA与细胞减数分裂和生殖细胞发育相关,其突变将导致生育能力降低和卵泡减少。ADAM23、ANKRD11和MACROD2在神经系统中发挥作用,与几种神经系统疾病相关。FUT8损伤将导致生长受阻、出生后早期发育死亡和肺部的肺气肿样改变。MIPEP表达在热应激时上调,FRMPD4在具有多乳头数量的猪品种中高表达。此外,SKIDA1与人类胚胎干细胞的存活有关。然后,对与前5%的SV位点关联的基因进行了GO和KEGG分析。参与富集分析的共有与4,824个常见的SV区域重叠的1,440个功能基因。前10个显著的GOterm和KEGG通路富集到细胞过程、生物调节以及神经系统功能和内分泌系统相关的通路(图3D和E)。结果发现,大多数分级育种相关的SV集中在与神经系统相关的通路上,这可能凸显了这些通路在大白猪和民猪的驯化和选育中的特殊作用。
GWAS结果表明SVs主要与大白猪和民猪之间的体型差异相关
F2群体数据处理后,获得大约5,110G的数据,深度为7×。为鉴定与不同品种间表型差异相关的SV位点,本研究对大白猪和民猪之间的不同基因型进行了(SV)位点筛选/检测。然后根据其对应的基因组位置挑选这些SV位点从而实现对F2群体的基因分型(图4A),详细过程见方法。最终,共筛选到33,909个位点,其中97.15%成功进行了基因分型,然后进行了GWAS分析。Bonferroni多重检验方法用于P值校正,其定义为0.05/n,其中n表示每个独立GWAS的SV数目。GWAS涉及了36个性状,包括25个屠宰性状、7个骨骼性状和4个肉质性状。
FKBP5内含子区(chr7:31,539,932–31,541,378)测序深度可视化结果。左侧垂直坐标显示reads的插入大小,右侧垂直坐标显示测序深度。黑色虚线标记DEL的位置。J)FKBP5内含子区DEL的电泳图。电泳图显示了对大白猪和民猪进行PCR扩增的结果。电泳条带的大小用TaKaRaDL2000标记。K)猪的屠体前、中、后三个部位的骨重GWAS分析。虚线表示对猪的屠体分割的位置。距最显著位点最近的基因标在每个表型上方,阿拉伯数字代表每个表型的显著SV位点数量。L)七个猪骨骼表型的GWAS分析。此图的说明与K相同。
结果发现SVs可能会影响猪的体型,GWAS鉴定出与屠体长度、体长、体高、管围和骨率重叠的强关联峰值,涉及与25个蛋白编码基因重叠的87个显著位点,其中包括基因的内含子以及上下游变异。在这些位点中,FKBP5基因内含子区域的DEL对所有五个性状来说都是最显著的位点,这个基因已被报道与成骨细胞分化有关。ILRUN上游的SINE插入也是最显著的位点之一,该基因已被频繁报道与人类身高以及猪的屠体长度、体长和管围有关。此外,TFEB、RCAN2和ANKS1A内含子区域都有DEL,这些基因分别与成骨细胞分化、成骨细胞功能和骨密度有关。MRS2上游发现的DEL,与Mg2+表达有关,较低水平的Mg2+会刺激成骨细胞的形成。GLP1R下游也发现了DEL,其对骨强度和骨质量起到重要作用。以上5个性状的GWAS结果包括多个与骨骼相关的基因,这表明SVs可能会影响骨骼尺寸,从而影响猪的体型。对于其他性状,如肩宽、胸宽、胸深、腹围、腰宽、臀宽、臀长和臀围,除了腹围外未发现显著的SV位点,可能表明这些屠宰性状与骨骼关联不强。
表136个性状中显著SV位点统计
为验证SV对骨骼的影响是否存在位置特异性,研究者根据移除头部后的第5根肋骨和腰椎骶椎关节的位置将猪屠体分为前、中和后三个部分。然后,对前肢骨的总重、中肢骨的总重、后肢骨的总重、肩胛骨长度、肱骨长度、前臂骨长度、髋骨长度、股骨长度、小腿骨长度和椎骨数进行GWAS分析。结果显示,所有三个部位的骨重和六个骨长性状都显示出了强烈的关联峰值,几乎与前述屠体长度、体长、体高、管围和骨率的GWAS结果重叠。三个部位中,7_31540442(P=2.25255E-12)、7_33224291(P=6.19796E-09)和7_30669698(P=7.95851E-13)是最显著的SV位点,分别对应三个基因:FKBPMDGA1和ILRUN。此外,FKBP5是肱骨、前臂骨、股骨和小腿骨长度最显著的基因。至于椎骨数,最显著的位点是VRTN基因的291bp内含子变体(P=5.41E-11),这与之前使用SNP标记的研究结果一致。研究还发现了ZNF79基因的外显子区域中的SINE插入位点(P=7.2393E-07),这与骨密度有关。进一步分析表明,SV主要影响骨组织,与其他组织的关联较弱。在前、中和后三个部位中,只有一个与前肢瘦肉总重显著相关的位点,对其他性状没有显著的关联峰值。这表明SV主要涉及骨组织,与其他组织关联不紧密。
对于其余的四个肉质性状,分别进行了关于大理石纹理(指肉类含有大量肌间脂肪,使肉的纹理很像大理石,故得名)、肌肉内脂肪、嫩度和含水量的GWAS分析。结果显示,只有肌肉内脂肪有三个显著的SV位点,分别位于HS3ST3A1、CFAP52和STX8的内含子区。此外,还调查了心脏、肝脏和肺的重量与SV的关联,找到了与心脏和肝脏重量有关的一个显著位点。心重的GWAS结果显示一个与NOL10外显子只有3bp重叠的2,681bpDEL。肝重的GWAS结果显示一个位于MRS2上游的278bpDEL。需要注意的是,对于SV断点位置的确定通常需要一定的容忍度(具有一定的假阳性),因此外显子变异仍需进一步验证。
讨论
本研究对基于大白猪和民猪构建的一个资源种群进行了SV研究。进行SV研究的一种传统方法是对多个软件的结果取交集,以提高在识别变异时的准确性。然而,这种策略被报道在某些情况下并不能可靠地提高性能,甚至可能导致更多的假阳性结果。因此,将多个软件的分析结果取并集整合,有望最大程度地提高每个软件的性能,从而提高SV鉴定的敏感性,获得更多新的SV位点。采用这种方法,本研究开发了一个高质量的SV图谱,与Ensemble公共SV数据库相比,53.95%的SV位点为新发现的SV,这将大大丰富公共SV数据库。然后,通过PCR验证了SV位点的基因型准确性,准确性超过94%。建议在未来的研究中进行多种SV软件的分析,并保留每个软件的特定结果,这不仅能够识别更多新的SV位点,还能保持准确性。
通常,在构建分离种群时,出于成本考虑,亲代群体往往采用高测序深度,而F2代或更远代的群体则采用低测序深度。然而,低测序深度在SV鉴定中似乎会降低敏感性和准确性本研究设计了一种新颖的群体遗传研究方法,基于高测序深度下的F0个体数据进行可靠的SV位点检测,然后根据这些位点对应的基因组位置对F2群体进行基因分型。其结果用于GWAS分析以识别不同品种间(性状)差异相关的SV位点。结果表明,几乎所有位点都成功分型,证实了这种方法的可靠性。这种方法通过避免在大种群中鉴定变异提高了SV鉴定的准确性和分析效率。该分析检测到以前使用SNP标记鉴定到的基因,包括ILRUN、TFEB、RCAN2和VRTN,这证实了F2种群中SV基因型鉴定的准确性和SV作为标记的潜力。据本团队所知,这是畜牧研究中对次方法的首次报道。此外,第三代测序已经开始应用于动植物基因组研究,具有识别更大结构变异的潜力。然而,由于成本较高,特别是在大种群中,其应用受到限制。使用第二代测序数据对第三代测序数据鉴定的SV位点进行基因分型是一个潜在解决方案,尽管目前报道的分型recall率大约仅为50%。
与SNPs相比,非编码区的SV更有可能通过剂量效应改变基因表达和表型,SV还可通过直接改变基因拷贝数来调整表达水平。因此,使用SV作为标记来直接进行GWAS分析有望识别影响表型的相关位点。之前已有一些关于猪基因组中SV的研究,但基于SV的GWAS分析在猪基因组中很少见。大白猪×民猪资源种群提供了深入了解SV作为关联研究标记的潜力和生物学作用的机会。此外,特别是插入型变异因其复杂的分型过程很少被纳入SV的研究中。而插入型变异的表型影响在很大程度上仍然未知。虽然转座子插入的鉴定依赖于参考序列,这有助于随后的基因分型,而一项先前的研究已证实,猪基因组中约80%的变异与转座元件重叠,这为研究插入型变异对表型的贡献提供了机会。因此,本研究对猪基因组中的四种SV类型进行了GWAS分析,为不同SV类型对表型的贡献提供了新的见解。这可能是迄今为止猪基因组中最全面的基于SV的GWAS分析。
骨骼是一种高度复杂和活跃的矿化材料。骨组织经历持续的破骨细胞的骨重吸收和成骨细胞的骨形成这一循环,然后接受来自肌肉骨骼系统和与其他生物系统(如内分泌、神经和免疫系统)的相互作用的机械负荷,以维持骨骼的形状、体积和密度。在生长期间,有大量骨骼形成来增加体型大小。本研究进行的GWAS分析发现了与猪骨骼相关的大量候选基因。其中,FKBP5和MRS2分别参与破骨细胞的分化和形成。相反,TFEB和RCAN2与成骨细胞的分化和功能有关。假设在驯化和选育过程中,这些关键候选基因可能会受到周围或内部的SV调控的影响,导致不同品种之间的体型差异。基于以前的研究,位于内含子区的SV可以引起RNA的选择性剪接并发挥启动子或增强子作用,而位于基因上/下游的SV可能与该基因的转录调控有关,特别是转座子插入,已经有报道它们在携带顺式调控元件方面发挥功能作用。