加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

西伯利亚Y染色体单倍群Q在欧亚大陆的扩散

(2018-11-27 21:32:08)
标签:

分子人类学

黄韵之 · Horolma Pamjav · Pavel Flegontov · Vlastimil Stenzl ·文少卿 · Xin-Zhu Tong · 王传超 · LingXiang Wang ·韦兰海 · Jing-Yi Gao · 金力 · 李辉

 


译自《Dispersals of the Siberian Y-chromosome haplogroup Q in Eurasia》,
Molecular Genetics and Genomics2017年9月



摘要
人类Y染色体已被证明是一个用于跟踪人类父系历史和基因血统的强大工具。人类Y染色体单倍群Q是美洲最常见的单倍群以前的研究已经将单倍群Q的起源追溯到中亚和南西伯利亚一带。虽然对美洲单倍群Q的多样性进行了较为详细的研究,但对欧亚大陆和非洲单倍群Q扩散的研究还很有限。在本研究中,我们收集了中国和俄罗斯的39个样本,调查了单倍群Q前期研究中的432个样本,分析了SNP支系Q1a1a1-M120、Q1a2a1-L54、Q1a1b-M25、Q1a2-M346、Q1a2a1a2-L804、Q1a2b2-F1161、Q1b1a-M378和Q1b1a1-L245。通过NETWORK和BATWING分析,我们发现单倍群Q的支系在过去的10000年里持续从中亚和南西伯利亚扩散。单倍群Q除了经白令陆桥向美洲迁徙外,新石器时代也从亚洲向南、向西迁徙,后来又向整个欧亚大陆和非洲部分地区迁徙。

 


关键词
  Y染色体·单倍体Q·多向迁徙·欧亚大陆·汉人

 


前言

近几十年来,人类Y染色体已被证明是一种强大的工具,用于追踪人类族群和宗谱祖先的父系历史。人类Y染色体单倍群Q(也称Q-m242,因其突变而得名)可能于15000至25000年前起源中亚和南西伯利亚(Karafet2002,
2008
Bortolini2003Seielstad 2003),随后向东、向西、向南扩散(Zhong2011Di Cristofaro2013Sandoval 2013Liu2014Rasmussen2014)。单倍群Q有几个SNP定义的支系,在美洲其频率最高可达70-100%((Bortolini2003Seielstad2003Zhong2011Rasmussen2014)。虽然已经详细研究了美洲单倍群Q的多样性(Bisso-Machado2011Toscanini2011,2016Jota2011Malyarchuk2011Dulik2012bBattaglia2013Lardone2013Melton2013Regueiro2013Noguera2014Sala and Corach 2014Torres2015),对单倍群Q欧亚大陆和非洲的扩散的研究还很有限。因此,我们研究了欧亚大陆的单倍群Q样本,探究新石器时代他是如何从中亚和南西伯利亚向外扩张的。

当代印第安人的祖先大约在16000年前沿白令陆桥从西伯利亚迁徙到美洲的(Raghavan2015;Llamas2016)。Q1a2a1-L54及其支系Q1a2a1a1-M3是白令海峡两岸单倍群Q的两个优势支系。Q1a2a1-L54已经遍布北亚、美洲、西欧和中欧(Raff和Bolnick 2014;Rasmussen等2014)。克洛维斯文化的一个古样本属于Q1a2a1-L54(xQ1a2a1a1-M3)(ourkeRaff 2010;Rasmussen等2014)。Q1a2a1a1-M3是单倍群Q中研究最深入的支系之一,在西伯利亚的楚科奇半岛(靠近阿拉斯加)和美洲都很常见(Lell2002)。前期研究表明,Q1a2a1a1-M3从西伯利亚向美洲迁移,部分返回西伯利亚(Hammer1997;Lell等1997;Bortolini2003;Pakendorf2007)。Q1a2a1a1-M3的估算时间为13000至22000年(Dulik2012a)。Q1a2a1a1a-M19是Q1a2a1a1-M3的一个支系,仍然存在于南美洲,并与其上游谱系也具有类似的多样性模式。Q1a2a1a1a-M19的年龄约为7000至8000年(Bortolini2003;Jota2011)。

欧亚大陆单倍群Q频率范围为0 ~94%(平均约5%)(Seielstad2003;Varzari2013)。单倍群Q在西伯利亚频率最高,特别是在Ket人(90-94%)和Selkup人(66-71%)中,而在亚洲西部、南部和东南部很少见到(Wells2001;Zerjal2002;Tambets等2004;Sengupta2006;Sharma等2007;Haber2011a,b;Dulik等2011;Grugni等2012;Di Cristofaro等2013;Rasmussen等2014)。支系Q1a1a1-M120几乎只出现在东亚,其多样性表明新石器时代,单倍群Q随当代汉人祖先从北向南迁移(Su2000;Wells2001;Tarazona-Santos2001;Wen2004;Gayden2007;Nonaka2007;Zhong2011;Zhao2015)。支系Q1a1b-M25和Q1a2-M346在欧亚大陆广泛分布。Q1a1-M25在土库曼人中(34-43%)频率最高,在其他欧亚人群中频率较低(Underhill2000;Malyarchuk等2011),而Q1a2-M346出现在中亚、西亚、南亚和欧洲大部分地区(Sengupta2006;Sharma等2007;Abu-Amero等2009;Bailliet2009)。

单倍群Q也出现在世界其他地区。例如,对格陵兰岛的一个Saqqaq个体进行的一项古DNA研究表明,单倍群Q1-MEH2在西伯利亚和美洲土著人口中很常见(Karafet2008;Rasmussen等2010;Raghavan2015)。在非洲科摩罗(Q1a2-M346)和大洋洲波利尼西亚群岛(Q1a2a1a1c-M199)发现了一些单倍群Q支系(Hurles2003;Msaidie2010)。

   目前,对美洲单倍群Q的分布进行了较为深入的研究,但对其在西线和南线的分布却知之甚少。在本研究中,我们分析了单倍群Q的一些SNP支系,包括Q1a1a1-M120、Q1a2a1-L54、Q1a1b-M25、Q1a2-M346、Q1a2a1a2-L804、Q1a2b2-F1161、Q1b1a-M378和Q1b1a1-L245。通过对单倍群Q的NETWORK和BATWING分析,我们可以更好地了解其在西部和南部路线上的分布,以及他们对欧亚族群的影响。

 


材料和方法

 

 


伦理声明

本研究经复旦大学生命科学学院伦理委员会(中国上海)和莫斯科国立大学罗蒙诺索夫伦理委员会(俄罗斯莫斯科)批准后进行。所有样本捐献者在样本采集前均已完全知情并签署了知情同意书。

 


人口样本

本研究共对471例无亲缘关系的男性样本进行了分析。我们收集了来自中国5个人群的1757名健康且无血缘关系的志愿者的血样,其中包括回族700名、保安族64名、东乡族109名、骊靬人90名和绍兴人794名。此外,我们还收集了30名健康且无血缘关系的志愿者的唾液样本,这些志愿者来自俄罗斯的3个人群,包括4名Enets志愿者、19名Ket志愿者和7名Selkup志愿者。在对所有样本进行基因分型后,我们将中国的16个样本和俄罗斯的23个样本归为单倍群Q,并在本研究中进行了进一步的研究。此外,还分析了以前研究的数据(Bailliet2009Zhong2011Lacau2012Dulik2012Di
Cristofaro
2013Sandoval2013Varzari2013Hollard2014Liu2014家族树DNA)。根据居住地点对人群进行分类:中国甘肃省:临夏回族自治州积石山保安族1例,东乡县东乡族2例,金昌市永昌县骊靬人4例;中国浙江省绍兴市绍兴人9例。来自俄罗斯克拉斯诺亚尔斯克地区Potapovo的Enet人2例;
来自Farkovo、Sulomai/Bor、Sumarokovo、Turukhansk和verkhnebatsk的
Ket
人各1例,来自Bakhta、Baklanikha和Kellog的Ket人各2例,以及来自Sulomai的Ket人5例;来自Farkovo的Selkup人3例,来自Turukhansk的Selkup人2例。根据2002年俄罗斯人口普查(ESM_3),这三个民族在俄罗斯被认为是少数民族。Enet人(在ESM_3中命名为Entses)有237人
Ket人有1494人;Selkup人有4249人。

 


Y-染色体标记

采用DP-318试剂盒(北京天根生物科技有限公司)从血样中提取基因组DNA,唾液样本DNA提取方案采用高盐DNA提取方法(Quinque2006)。样本按照最新的Y染色体系统分化树(ISOGG
2017)分型。所选样品属于单倍群Q的几个支系。

利用SNaPshot (ABI SNaPshot Multiplex Kit, Carlsbad, CA,USA)和fuorescent等位基因特异性PCR对二元标记进行分层基因分型。PCR产物在3730xl基因分析仪上电泳(美国加州应用生物系统公司)。应用AmpFlSTR
Yf
iler PCR扩增试剂盒(美国应用生物系统公司)扩增17株Y染色体STR(DYS19, DYS389I, DYS389II, DYS390,
DYS391, DYS392, DYS393, DYS385a, DYS385b, DYS438, DYS439, DYS437,DYS448, DYS456, DYS458, DYS635 and
YGATAH4)。根据制造商推荐的方案,使用3730xl基因分析仪(应用生物系统)对扩增产物进行分离和鉴定。这些数据使用基因映射ID 3.2版(美国应用生物系统公司)进行分析。在分析中,DYS389II是通过减去DYS389I
等位基因的大小来计算的。

 


统计分析

利用单倍群Q1a1a1-M120、Q1a2a1-L54、Q1a1b-M25、Q1a2-M346、Q1a2a1a2-L804、Q1a2b2-F1161、Q1b1a-M378和 Q1b1a1-L245的网络5.0.0.1,用还原中值法构建Y染色体STR数据网络。由于我们从不同的研究中收集样本,我们必须调整我们的研究中使用的基因座的数量来匹配其他研究。Q1a1a1-M120网络由7个位点组成:DYS19, DYS389I, DYS389II, DYS390, DYS391,DYS392和DYS393。Q1a2a1-L54网络由15个位点组成:DYS19, DYS389I, DYS389II,DYS390, DYS391, DYS392, DYS393, DYS437, DYS438, DYS439, DYS448,DYS456, DYS458, DYS635和GATA H4。Q1a1b-M25、Q1a2-M346、Q1a2a1a2-L804、Q1a2b2-F1161、Q1b1a-M378、Q1b1a1-L245的网络分别用这10个位点:DYS19, DYS389I, DYS389II, DYS390, DYS391, DYS392, DYS393, DYS437,DYS438和DYS439构建。

我们使用了马尔可夫链蒙特卡罗(MCMC)方法(Wilson2003)合并到BATWING程序中,以估计到最近的共祖时间(TMRCA)和上述Q支系的扩展时间。单倍群Q支系的时间估计使用了上面列出的7到13个随机变量。在BATWING中使用了一个从最初的恒定人口中指数增长的模型来获得时间估计。Wei等在时间估计中使用了四组广泛使用的Y-STR突变率(2013):一组进化突变率(EMR)(Zhivotovsky2004)、两组观察到的谱系突变率(OMRB和OMRS)(Shi2010Burgarella and Navascués 2011)以及使用logistic模型(lmMR)调整族群变异的谱系突变率(Wilson2003)。30年的代际时间被用来生成以年为单位的时间估计(Tremblay and Vézina 2000)。我们将弱信息性先验分布参数应用于BATWING估计中,对族群进行单独分析。对于初始有效总体大小(N),我们使用了广义先验伽玛值(1,0.0001)(均值=10,000,SD = 10,000)。每一代人口增长率(α),我们还使用了广义先验分布γ值(2400)(均值= 0.005,SD = 0.0035)。合并单元时间的指数增长(β)开始时我们使用γ值(2,1)(均值= 2,SD = 1.41)(Xue等,2006)。在作为“老化”而被丢弃了第一3000个样本后,总共获取了代表百万个MCMC循环的程序输出一万的样本(Xue等2006),并通过对所有族群的更长运行时间和相同的后验分布进行检验来证明收敛性。TMRCA是用估计族群大小N与树高T的乘积(以合并单元表示)计算的。

利用Kriging方法,借助Golden Software Surfer 11 (Golden Software Inc.,CO .,USA)生成单倍群Q-M242频率等值线图(图1)。由于频率数据来自多个来源,单倍群Q的可识别支系是不同的。为了在一个图中显示所有的频率,我们将不同支系的频率集成到Q-M242的频率中。原始频率数据和引用显示在ESM_2中。

 

http://s6/bmiddle/0079maQPzy7pAhijuuNd5&690 

1 单倍群Q-M242的全球分布

蓝星是单倍群Q-M242在中亚和西伯利亚附近的原始位置。棕色数字1是俄罗斯克拉斯诺亚尔斯克地区的样本位置。棕色数字2是中国甘肃省的样本位置。棕色数字3是中国浙江省的抽样点。红色箭头为单倍群Q-M242的扩散路径。紫色单词表示本研究中使用的单倍群Q支系的位置。橙色的点代表从已发表的研究中收集的样本位置(ESM_2)(网上彩色图)


 


结果




单倍群Q-M242的全球分布

我们计算了样本的频率,并从以前的研究中收集了频率数据(ESM_2)。从图1可以看出,单倍群Q-
m242的频率在世界大部分地区都很低,除了美洲和西伯利亚的一小部分地区,这与之前发表的关于单倍群Q分布的观测结果相吻合(Balanovsky et al.)。2017)。此外,根据我们的研究结果和前人的研究,我们表示了单倍群Q-M242的迁移路线(图1,ESM_2)。我们还标记了本研究中研究的支系的主要分布区域(图1)。我们在单倍群Q中构建了一个系统分化树,以方便识别下游支系(图2)。

http://s11/bmiddle/0079maQPzy7pAhjP9Q6ba&690

图2 Y染色体单倍群Q-M242系统分化树单倍群标记符合ISOGG约定和最新更新(ISOGG 2017)。被研究的支系以粗体显示

 


单倍群Q支系的网络

为了揭示单倍群Q支系的详细结构,我们结合471个个体的SNP和STR单倍型数据进行了网络分析(图3)。Q1a1a1-M120网络中包含了大部分来自中国的样本以及少量蒙古样本。Q1a2a-L54网络中大部分样本来自西伯利亚(北亚/俄罗斯),少数样本来自蒙古、中国和北美。Q1a1-M25网络由中亚样本组成,东亚/蒙古、西亚、中欧和西欧样本数量较少。Q1a2-M346网络中大部分样本来自北亚/俄罗斯和蒙古,少数样本来自亚洲、欧洲、美洲,甚至非洲。Q1a2a1a2-L804网络具有西欧和北美样本与西欧、北欧和中欧其他分支共享的中心簇。Q1a2b2-F1161的网络主要由北欧和西欧的样本组成,在南亚和西亚有两个单独的分支机构。Q1b1-M378网络主要由犹太样本和少量的南亚和中亚、西欧、北欧和南欧样本组成。Q1b1a1-L245网络具有星形的犹太样本和少量的欧洲和西亚样本。我们没有讨论来自美洲的样本的起源和迁移,因为我们关注的是单倍群Q在欧亚大陆的分布,只是使用了来自美洲的本来构建网络。

http://s14/mw690/0079maQPzy7pAhpcbOBfd&690

3 单倍群Q-M242内Y-STR单倍型网络

Q1a1a1-M120:集群1由16个东亚/中国样本和1个东亚/蒙古样本共享。

Q1a2a1-L54:集群1由11个北亚/俄罗斯样本共享。

Q1a1b-M25:集群1由五个中亚样本共享。

Q1a2-M346:集群1由36个北亚样本和1个东亚/蒙古样本共享。

Q1a2a1a2-L804:集群1由两个西欧样本和一个北美样本共享。

Q1a2b2-F1161:集群1由三个北欧样本和一个西欧样本共享。q1b1
-
m378:第1组共有29个犹太样本(14个来自中欧;11个来自东欧;三个来自南欧;一份来自西亚),一份来自西欧,一份来自中欧,一份来自南亚。

Q1b1a1-L245:共有37个犹太样本(16个来自中欧;14名来自东欧;四个来自西亚;两个来自南欧;一份来自西欧),一份来自西欧,一份来自南欧。

ESM_1中,每个集群1中包含的示例都是紫色的

 


单倍群Q的时间估计

我们使用BATWING估计单倍群Q支系的最近共祖和扩展时间,如表1所示,三个谱系突变率的结果大致相似,而使用进化突变率导致的最近共祖时间要古老得多。当我们分析大量的位点和密切相关的个体时,谱系突变率更可靠,而进化突变率往往更有效地估计较少的位点和遗传距离较远的个体(Wang et al.,2014;Wang and Li 2015)。由于我们在时间估计中使用了7到13个位点,并且使用的族群属于单倍群Q的同一个支系,所以我们决定使用三个谱系突变率的结果。

 

1 单倍群Q支系的共祖和扩张时间(千年前)

http://s16/mw690/0079maQPzy7pAhqLj2L7f&690
TMRCA是最近共祖时间,EMR是进化突变率、OMRBs是观察到的谱系突变率(Shi等2010)、OMRS是观察到的谱系突变率(Burgarella和Navascués 2011)、lmMR 是一种利用logistic模型调整种群变异的谱系突变率(Wilson等2003)

 

 


结论

Q1a1a1-M120支系在汉族人中特别多见,频率较低(Zhong等,2011)。我们的研究结果表明,Q1a1a1-M120支系在新石器时代从蒙古迁移到中国,并与汉人的祖先一起遍布中国。表1;ESM_1)。之前的研究表明,Q1a1a1-M120作为游牧民族从中国西北部迁移到中原地区,大约在2500年至3000年前融合到中国北方的汉族农民中(Zhao2010, 2014, 2015Yan2014)。因此,我们认为Q1a1a1-M120的古代游牧民族是从中国西北向东南迁移,并被汉族农民同化的(Zhao et al.,2015)。

Q1a2a1-L54支系主要出现在叶尼塞语族(Ket)和萨摩耶德语族(Enet和Selkup)(ESM_1)中。遗传证据显示,说叶尼塞语和萨摩耶德语的人与北部阿尔泰人有基因相似性,单倍群Q-M242频率较高(xL54),而南部阿尔泰人有许多L54样本,与讲突厥语的人群有相似之处(Dulik2012bBattaglia2013Flegontov2016)。而本研究中的叶尼塞语族和萨摩耶德语族样本属于L54,与之前的研究结果(xL54)不同。根据估计的时间(表1),我们假Q1a2a1-L54是在最近的历史时期从南阿尔泰地区迁移到说叶尼塞语和萨摩耶德语的人中。

Q1a1b-M25和Q1a2-M346支系在突厥语人群中都很常见,其时间估计约为3000至5000年前(ESM_1;表1)。从图3和表1可以看出,Q1a1-M25在中欧已经从中亚传播到西亚和匈牙利(ESM_1);Q1a2-M346是从南西伯利亚迁移过来的(Malyarchuk2011)。到欧亚大陆大部分地区和非洲科摩罗群岛。研究结果与突厥游牧民族从西伯利亚南部和蒙古迁移到中亚和西亚、高加索和东欧的时间一致(Yunusbayev2015)。因此,我们认为,Q1a1-M25和Q1a2-M346可能与突厥游牧民族一起从西伯利亚南部迁移到欧亚大陆的大部分地区。少数蒙古语族群的Q1a1b-M25和Q1a2-M346样本可能表明,突厥游牧民族在目前的蒙古领土上生活时,与蒙古语族群存在重叠(Yunusbayev2015)。一项古DNA研究表明,匈牙利人可能约4000年前起源于中亚-南西伯利亚(Neparáczki2016),这与我们的时间估计一致(表1)。因此,我们认为,Q1a1-M25和Q1a2-M346从中亚-南西伯利亚迁移到中欧的时间至少为4000年前。属于Q1a2-M346的3个非洲人(科摩罗群岛)重申了中东人群对科摩罗群岛拥有的遗传影响(Gourjon2011)。

Q1a2a1a2-L804和Q1a2b2-F1161是Q1a2-M346的下游(图2),他们主要分布在西欧和北欧(图3),Q1a2a1a2-L804早在5000至7000年前到达了西欧和北欧(表1)。古DNA研究表明,最早的欧洲农民在5000至7500年前从中欧迁移到西欧和北欧(Haak2005, 2010Bramanti2009Malmström2009)。因此,我们认为Q1a2a1a2-L804是由欧洲新石器时代早期的农民从中欧传播到西欧和北欧的。Q1a2b2-F1161的估计时间比其上游分支Q1a2-M346晚了一千年(表1),这似乎与欧洲新石器时代的过渡无关(Haak2010)。由于Q1a2-M346在当时遍布欧洲,他可能将Q1a2b2-F1161带到西欧和北欧,甚至带到西亚和南亚(Khurana2014Yunusbayev2015)。

Q1b1a-M378支系和Q1b1a1-L245支系与犹太人相关,这两个支系可能都代表了部分犹太人在历史时期内已经向欧洲扩张(表1;图3)。如图3所示,Q1b1a-M378和Q1b1a1-L245的中心簇主要由中欧和东欧的样本组成。研究结果表明,一些犹太人从中欧和东欧移民,最终定居在欧洲其他地区(Nogueiro2010Zoossmann-Diskin
2010)。以前的Y染色体研究表明,单倍体J、R和Q3a1在犹太人群体中具有一定的比例,并传播到欧洲各地(Nogueiro
2010Chaubey2016Balanovsky2017)。Q1b1a-M378和Q1b1a1-L245支系和单倍群J、R和Q3a1可能遍布欧洲。来自南亚的Q1b1-M378样本可能代表了德系犹太人的后代,因为其上游的单倍群Q-P36被认为是南亚少数德系犹太人的创始谱系(Lee等2014)。

我们对欧亚大陆的人类Y染色体单倍群Q的研究,揭示了过去一万年人类迁徙路线的清晰模式,尤其是在汉人、叶尼塞人、萨摩耶德人、突厥人和犹太人群体中。显然,更高分辨率的数据库将有助于对单倍群Q的起源、迁移和民族语言的从属关系得出更多结论。



欢迎加入中华源流探寻QQ群493631709。

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有