转发《Y-D与线粒体N系在东亚的分布（兰海陈致勇）》_HSBSJL

http://blog.sina.com.cn/u/5331581061

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

转发《Y-D与线粒体N系在东亚的分布（兰海陈致勇）》

(2017-06-12 14:58:48)

标签：

社会

兰海：Y染色体单倍群D在东亚的分布及其意义 -道客巴巴

摘要：石宏等(2008)近期发表的论文是迄今为止对Y染色体单倍群D描述最详尽的论文。文献得到的单倍群D 下各个支系的分布以及年代有助于我们了解东亚早期现代人的分布和迁徙状况。在西藏人和泰国人中分别发现了DE* 和D*。这使我们能够在Chandrasekar等(2007)的讨论的基础上就单倍群D的诞生地作进一步的分析。同时，本文从绝大部分包含东亚YAP和单倍群D样本的论文中收集了东亚各个人群中单倍群D的分布数据。分析这些数据并参考石宏等(2008)的结论后认为，单倍群D可能诞生在东南亚与印度之间，向东迁徙后不久诞生了D1，而D*进一步扩散到整个东亚，后来在孤立的情况下分别诞生了D2(日本)和D3(西藏)。

【Y染色体单倍群D在东亚的分布情况：总体来看，D-M174在东亚的平均频率为9.60%，高频出现在西藏(41.31%) 、日本(35.08%) 和安达曼群岛(56.25%)，而在东亚其他人群中较为罕见(<5%)。

1、汉族中D的比例较少，在0-5%之间。在甘肃、四川则会达到较高的10%的比例，陕西、宁夏单倍群D的比例3-4.7%。

2、苗瑶各个支系中普遍存在的单倍群D(0-10%)，在某些支系中D1超过50%。

3、壮族、纳傣族和清迈泰国人及其侗台语百越人群都有较高比例的D*和D1，总和超过10%。

4、新疆、中亚、蒙古的人群中也有小比例的D总体为2.8%。

5、在藏族、羌族、彝族和普米族等藏缅语人群中的单倍群D比例较高，在22.8%-75%之间，平均为45.7%。

6、在韩国半岛、日本中的D2-M55比例10%-35.08%】。

正文：本文从绝大部分包含单倍群样本的论文(包括中文发表的论文[1-69])中收集了东亚各个人群中Y染色体遗传标记YAP(包括单倍群D)的分布数据，把YAP在东亚的各支系在各个人群中分布作了详细列表，在前人研究的基础上就Y染色体单倍群D起源和扩散作了一些讨论。并且翻译了与YAP相关的两篇文献，第一篇专门描述了东亚特有的Y染色体单倍群D[65]，第二篇讨论YAP 起源于南亚的可能性[57]。

一、YAP的发现以及相关研究。在减数分裂中，人类Y染色体上长臂和短臂末端的拟常染色体区会和X染色体发生重组，而其余的Y染色体特异区(Y-specific region)不会发生重组，以单倍型形式遗传，因此在Y染色体特异区上发生的突变能够保留下来，并能按父系遗传方式遗传给后代。Y染色体上的单核苷酸多态位点(SNP)组成的遗传标记具有很强的群体特异性，这些突变大部分按照一定的时间顺序依次发生，能清晰地记录群体的历史，这些特点使Y染色体在重建人类的进化史和研究父系遗传关系方面占有优势[70]。人类遗传学家翰墨博士(Dr.Hammer)在文献[71]中最早对YAP进行了描述，它是Y染色体特有的DYS287 Alu插入单元，位于人类Y染色体长臂的非重组区(Yq11)。之后YAP这个与父系遗传相关的Y染色体多态位点被广泛研究[72、73]。DYS287通常缩写为YAP，标识为YAP-(祖先型)和YAP+(突变型)。YAP插入事件是Y染色体世系内部结构上一个古老的分支，对研究人群的进化非常有用[74、75]。YAP染色体在全世界都有分布，在非洲[76]、西藏[73、77]和日本[78]等地区高频出现。有报道称，非洲和亚洲的YAP单元在Y染色体上的插入位置是一样的[74]。这说明，非洲和亚洲的YAP属于同一个突变事件，它们有共同的祖先。YAP跨洲的两极分布被认为与它的非洲起源相符，但是另外一种YAP起源假说也被提出来了。在检测了SRY(sex-determining region chromosome)区域的YAP位点和核苷酸位点4064上G-A的突变之后，基于组合单倍型的数据，YAP亚洲起源假说被谨慎地提出了[73、79]。在对1544个YAP和SRY1060样本进行9个双等位多态位点的分型之后[80]，翰墨博士分析了Y染色体变异的分支结构，认为这些结果进一步支持以上假说。

这些结果可以解释为支持走出非洲的大规模扩散，但也可以看作是另外一种图景的证据：一次晚近的迁徙将部分亚洲Y染色体(YAP+支系)带回非洲，而没有完全替换掉原有的YAP-的非洲Y染色体基因库。这是对人类早期迁徙历史的一次重构，鼓励我们继续进行关于YAP起源地的尚无结果的讨论[81]。文献[70]对全球超过1000个样本进行了检测，由一个三等位多态位点(即Alu插入元件)和166个双等位多态位点建立起116个Y染色体支系的系统发育结构，进而讨论了现代人Y染色体多样性。该文献提出了与YAP亚洲起源假说不符合的证据。Weale于2003年[82]报道了在尼日利亚发现了5例属于超单倍群DE*的样本。在仔细地研究了YAP内部分支的各种可能顺序之后，Weale认为这样样本更倾向于支持YAP的非洲起源。不过翰墨博士与岇得希博士(Dr. Underhill)在2008年合著的极其重要的文献[83]中，并没有对YAP的起源作进一步描述。日前，石宏等[65]在西藏发现的2例DE*为这个争论又增添了疑问。但由于DE*的样本数实在是太过稀少，我们还不能确定它的起源地，就像[82]认为的那样。

Chandrasekar的论文[57]讨论了YAP起源于南亚的可能性。论点之一是，西孟加拉邦的拉吉班什人和奥里萨邦的保里布伊亚人中发现了与安达曼人的mtDNA拥有最亲缘关系的单倍群类型，此发现说明安达曼人的祖先曾在南亚大陆上停留过一段时间。论点之二是F-M168在南亚深度分化并仍存在大量的F*，而史前向非洲的回迁也有证据支持。这说明YAP(包括D)很有可能诞生于南亚的M168。我认为这个推测颇可采信。

二、东亚的单倍群D。Thangaraj等于2003年初发表了一篇极其重要的文献[11]，报道了安达曼群岛居民中D*的发现。这是对走出非洲的“南部路线”的有力支持。在不久之后发表的文献[84]中，Thangaraj等对线粒体基因组(包含6500 例印度样本)的研究发现，安达曼人中存在两种独特而古老的M世系――M31与M32，从而提示安达曼人的祖先可能直接来源于“走出非洲”后到达印度洋北岸的现代人类。不过2006年初发表的文献[85]说明这两个单倍群并非安达曼人特有的，中国科学院网站对这篇文献的报道如下：“由于具有和非洲俾格米人非常相似体貌特征，生活在印度安达曼岛上的安达曼人的起源一直为人类学家们所关注。印度学者Thangaraj等对线粒体基因组的研究发现，安达曼人中存在两种独特而古老的M世系――M31与M32，从而提示安达曼人的祖先可能直接来源于“走出非洲”后到达印度洋北岸的现代人类。

为了进一步探讨安达曼人的起源，在昆明动物所所长张亚平院士的领导下，云南大学印度籍研究人员Malliya gounder Palanichamy博士和昆明动物所姚永刚、孔庆鹏博士等对于来自印度各地的大量人群样本的线粒体DNA多态进行详尽分析，在此基础上针对性地选择代表性样品进行线粒体基因组全序列测定。他们的研究结果发现，来自印度东北部Rajbhansi人群中存在一种古老世系(M31b)，该世系与Thangaraj等报道的M31世系(M31a)共享有三个保守的编码区突变，从而提示M31世系的祖先类型更可能起源于印度次大陆。因此，安达曼人的祖先可能是来自定居于印度次大陆并已发生一定分化的人群，而非Thangaraj等所认为的是直接来自于“走出非洲”后沿亚洲海岸线迁移的现代人类祖，Thangaraj等对此进行了回复[86], M31a虽然不是安达曼独有的，但这个单倍群与M31b仅共享有三个编码区突变也能说明安达曼人在极其古老的年代就已经与南亚大陆隔离了。并坦言，他意识到“找不到M31出现的证据并非不存在M31的证据”。

总的看来，我认为安达曼人的祖先来到安达曼群岛之前，必定在大陆上生活过一段时间；况且，在大陆上(比如毗邻的东南亚)仍74COM. 2:e11,2008 FOCUS旧有一定比例的D，因此在母系上与大陆人群存在一定联系，这个结果倒是非常合理。借助于对YAP的深刻理解，翰墨博士对日本的YAP进行了详尽的研究，发表了关于日本人的双重起源的经典文献[1]。但是在东亚的大陆部分，YAP一直没有得到深入的研究。YAP(DYS287)被发现之后，从1998年发表的文献[40]开始，国内也进行了大范围的采样和研究。不过，由于分型技术等原因，最初的一些文献仅限于对YAP+在各群体间的比例的讨论。同时也由于YAP在东亚人口中的总体比例并不高，而且分布地域有限，后来的文献主要关注于其他的单倍群(比如单倍群O等)。关于东亚的YAP和单倍群D的数据散落在各个文献中[1-69]，很多文献之间相互引用数据，经整理和分辨，得到了表1，其中罗列了国内外文献中东亚各个人群中YAP各个支系的分布频率。在东亚，几乎所有的YAP样本属于单倍群D。总体来说，YAP+在人群中的比例存在着明显的族群差异和地理差异。在日本人和部分藏缅人群中比例较高；在华南直至东南亚广泛分布且在部分人群中有较高比例；在华北、东北以及北亚人群则比例极少甚至没有。真正的D*出现在安达曼人、东南亚人群以及藏缅语人群中，阿尔泰人中也有少量来源不明的D*。

从单倍群下各个支系来看，D1-M15的分布区域最宽。它分布在所有东南亚人群、华南人群、藏缅语人群中，一直向东分布到山东、朝鲜半岛、日本北海道的旭川市；向北一直分布到辽宁、内蒙古、外蒙古的人群中。D2则仅分布在日韩两个人群中，此外仅在台湾汉族中观察到1例。D3仅在藏缅语人群以及临近的人群中观察到。根据此列表，使用Sufer软件绘制了各支系的分布图 (图1)。表1中以下编号人群在地图中被排除：10、32、113-115、145、161、163。图1表示YAP在东亚人群的分布。由于唯一已知出现单倍群E的人群161被排除，因此此图近似等于单倍群D的分布。图2表示D以下的各个亚单倍群在东亚的分布（Y染色体YAP+在东亚的分布Tab.1 Distribution chromosomeYAP+ EastAsia表格长度超过排版标准，请从本刊网站下载）。

三、单倍群D在东亚各个区域的人群中的分布及其意义。各个人群中YAP及其支系的分布的详细数据在表1中，下面将按照地理区域来讨论其分布。

1、日本人、韩国人(No.1-33)。D2-M55几乎局限在日本和朝鲜半岛，这表明它是D*迁徙到这一地区之后才产生的。D2-M55的比例在日本南北呈U字型分布：在琉球居民和北海道的阿努伊人中比例最高，在关西至九州一带最低。这反映了来自大陆的弥生人的移民历史，这一点翰墨博士在他的经典文献《日本人的双重起源》中已经有详细描述[1]。D2、D*和D1在朝鲜人中也有一定比例的分布，从STR结构图看，朝鲜族的D*并不是与其他人群共享的单倍型。我们注意到，在日本人中没有发现真正的D*。由此看来，朝鲜族中的D在最初定居这里的人群中就已经存在，而不是来自晚近的历史事件。特别要考虑到古老的C3在历次报道的朝鲜族样本中均占到约10%的比例，比在日本人中的比例大得多。D1在北海道旭川市日本人中的出现具有重要的意义[54]。北海道是阿伊努人的世居地。而在日本其他地区均未发现D1存在，因此我们可以认为D1伴随D*来到日韩地区，之后D*诞生了D2，而这些D1日本最早的现代人的遗存。

2、华北、西北少数民族以及中亚人群(No.34-112)。单倍群D在东北亚大陆(如俄罗斯的埃文基人)几乎不存在，在中国东北地区也非常罕见。但是在蒙古族的各组样本中均有低频的存在，在0-6%之间。表1中样本65来自蒙古国乌兰巴托，同时存在D1和D3。由于D3主要存在于西藏，这可能反映了历史时期蒙古与西藏的联系。甘肃宁夏两省的少数民族也含有一定比例的D，部分人群中超过10%，而青海互助县的土族中的D比例更高，总体来说比例与相对藏区的距离呈反比，这反映了来自藏区的人群交流。肃南至宁夏一带有高比例的D,与历史上这一代是氐族和党项羌活动的地区是相符的。现在这两个古代人群的后裔均含有一定比例的D。鉴于DYS392=7这个突变与单倍群D3的特殊联系，文献[3]提供的附件中，表1的人群75有两例样本的DYS392=7属于单倍群D, 他们有可能属于D3。后面将继续详细讨论这一点。新疆、中亚的人群中也有小比例的D(总体为2.8%)。文献[1]的数据说明，维吾尔族中有D3，文中也提到，萨彦岭-阿尔泰地区的阿尔泰人中的D属于D*。文献[26]也表明阿尔泰人中的某些人群中有高比例的D*(非D1，见表1的99-102)，但是邻近人群如哈卡斯人(Khakassians)、绍尔人(Shors)却没有发现。这里的D属于晚近的来自西藏的基因交流还是远古人群的遗存，有待于利用STR来进一步详细分析。图为：Y染色体YAP+在东亚的频率分布、已知的单倍群D1、D2、D3在东亚的分布。

3、各地汉族、苗瑶语人群以及侗台语人群(No.113-271)。总体来说，汉族中D的比例较少，在0-5%之间。在靠近藏区的甘肃、四川则会达到较高的10%的比例。从文献[65]中D3的STR网络结构图看，甘肃汉族的绝大部分D3与藏族的样本共享相同的单倍型，表明这是来自历史时期人群的融合。同时，在部分地区汉族人群中(比如江苏、山东，详见表1)，也存在少量的D*和D1。在文献[65]中D1的STR网络结构图上，汉族的样本有自己独特的STR单倍型。而这些地区远离D*高频分布的地区(西藏、东南亚)。因此，各地汉族人群中的D应视为人群的一种遗传背景存在。苗瑶语人群以及侗台语人群中D1的大量存在也支持这一点。单倍群D普遍存在于苗瑶的各个支系 中(0-10%)，在某些支系中D1超过50%，这应该是迁徙过程中的遗传漂变引起的。苗瑶语人群在不断迁徙的过程中，分化出众多的支系。在整个苗瑶语人群中比例不大的Y-SNP单倍群，比如O3a3b-M7，在某些支系中占到接近100%的比例(黔南州瑶麓的青裤瑶和茂兰的长衫瑶，参见文献[87])。云南境内的苗瑶语人群也应该经过了这样过程。人群的隔离也是引起遗传漂变的原因之一。我们也可以看到，茶山瑶(拉珈人)居住的广西金秀县有大瑶山区, 平地瑶居住的广西富川周围有九嶷山、萌渚岭，这些都是有效隔离人群的地理因素。畲族的几组数据似乎有些矛盾的地方。文献[41]检测到YAP+(DYS287)在三个人群中的比例都很高(近20%)。文献[42]的样本来自同一个县，检测到的比例为零。其他的4组数据也没有检测到YAP+。台湾原住民各支系以及海南黎族(除了群体229)中没有发现D，这可能源于起源之初的人群本身的结构，长途的迁徙或长期地理孤立引起的遗传漂变。但是在大陆上几乎所有侗台语人群中(包括分化较晚的民族，如侗族[65]、水族[65]等)都出现了D*和D1，而且在文献[65]中D*和D1的STR网络结构图上，侗台语人群的样本有自己独特的STR单倍型，这说明D也应视为侗台语人群的一种遗传背景存在。

4、东南亚以及临近的岛屿区域人群(No.272-305)。石宏等(2008)的论文[65]的重要意义之一，就是第一次阐述了安达曼人的父系与亚洲大陆人群的直接联系。在D*的STR图上，安达曼人的样本与大陆上的侗台语人群相连。在现在的侗台语来到东南亚的大陆地区之前，这里主要居住着南亚语系的人群。因此我们有理由期待看到更多的南亚语人群(比如柬埔寨人、越南人以及其他孟高棉语人群)中的D样本以及他们在STR网络结构图中处于较为接近中心的位置。但是这一点没有体现在现有的数据中，文献[65]中也没有此类数据。造成这种现状的原因可能有两个：

1）人群分化历史的差异。侗台语人群的祖先可能是自东南亚迁往华南的最古老的人群之一，因此他们保留了更多的单倍群D。云南文山壮族(242)、云南版纳傣族(263)和泰国清迈泰国人(273，与274一起出现在文献[65]中)都有较高比例的D*和D1(总和超过10%)。我们注意到这些人群彼此临近，都居住在中南半岛中部山区，地理上的偏远也有助于人群保留更古老的类型。而伴随着水稻栽培引起的人口膨胀，南亚语人群中Y-SNP主要类型(如O2a-M95)的比例得到增加，而其他的类型不断被稀释。

2）南亚语人群的样本量过小。历史上缅甸的南部和东南部，泰国的南部曾经建立过很多孟人的国家。这些地区的样本基本上还没有分析。还有长山山脉周围的南亚语人群也需要大规模采样。

5、中国西南以及藏缅语人群(No.306-400)。中国西南是单倍群D高频存在的区域，从最初的研究[18]开始，Y-SNP单倍群D与藏缅语人群的关系就得到了不断的研究。表1也包含了国外学者发表的印度东北和喜马拉雅山以南的藏缅语人群的数据。表1中的数据表明，单倍群D在整个藏缅语人群的比例为15.8%。其他的主要类型还有O3-M122、N*、F*、O2a、C等等，这些单倍群在讨论整个藏缅语人群的形成过程中都具有重要的意义，但在本文中我们主要讨论单倍群D所反映的一些历史事件。单倍群D在各地区的藏族中的比例较高，在22.8%-75%之间，平均为45.7%。总体上讲卫藏附近(拉萨、那曲)的比例较高而云南藏族的比例较低，这表明藏区边沿的人群中D

的比例有下降的趋势。除D2外，藏族中存在东亚地区所有YAP的下游支系：DE*、D*、D1和D3，这表明他们是东亚最古老的人群的后裔之一。与历史上的氐羌人密切关系的白马藏族和羌族都有较高比例的D。文献[19]在普米族中检测到了除白马藏族之外最高比例的D(72.3%, 主要为D3)。但是此外的两组普米族数据中D的比例并不很高，平均为33.8%。这表明了人群内部结构的复杂性。文献[57]显示尼泊尔以东喜马拉雅山以南的居民也有较高比例的D，比如锡金人(Lachungpa)、雷布查人(Lepcha)。锡金的主要居民雷布查人原为中国藏族的一部分，他们被认为是锡金最早的居民，而锡金人(亦称布提亚人，Bhutia)是14世纪及以后从西藏康巴地区迁往锡金的；德让门巴人历史上也是藏族的一部分。因此这些人群中D的比例与藏区接近，显示了他们历史上与藏族的密切关系；属于北阿萨姆(塔尼)语支的珞巴族各部落(阿迪人、阿帕塔尼人、尼西人)中也有少量的D，根据他们本民族的传说，他们的祖先是来自西藏的一个小家族。属于库基-钦-那加(Kuki-Chin-Naga)语支的南部那加人(Naga)和属于景颇-孔亚克-波多(Jingpho- Konyak-Bodo)语支的加若人(Garo)总共超过800例的样本中，没有检测到D。喜马拉雅以南，中缅以西这一大片区域，居住着大量的藏缅语人群。语言学方面的资料尚不完备，所以各个语言之间的关系尚不明确。比如库基-钦-那迦语支的南部那迦人和属于景颇-孔亚克-波多语支的加若人，没有检测到D。喜马拉雅以南，中缅以西这一大片区域，居住着大量的藏缅语人群。语言学方面的资料尚不完备，所以各个语言之间的关系尚不明确。比如库基-钦-那加语支下的各种语言，像阿窝语(Ao)与安伽米-颇楚利语(Angami-Pochuri)，没有明显的证据表明它们属于同一分支，“之所以把它们放在一起，是因为我们不知道除此之外还可以把它们放在哪里”[88]。从D的角度看，这些人群均含有较少比例的D，在整个汉藏语系的人群中，与汉族的情况最接近。部分语言学家声称在整个汉藏语系中汉语与印度东北的藏缅语语支最接近，这与遗传学数据有一定程度的契合。

纳西族中D的比例也较高，与普米族一样主要为D3，而不是像其他的彝缅语人群那样基本上为D1。从这一点看，纳西族在彝缅语人群中的位置特殊，有待于进一步讨论。总的来说彝族各支系的D的比例比较大(部分数据超过15%)，而傈僳族、怒族、景颇族、基诺族和拉祜族中D的比例大都小于10%，在独龙族、哈尼族中D的比例为零)。这表明，一些人口较少的分民族由于所处的地理环境的隔绝，出现了比较明显的奠基者效应。结合前述的数据(特别是藏族)可知，在地理分布上表现为云贵高原的西北部高(藏族、普米族和纳西族)，西南部(景颇族) 和东南部(彝族)略低，中部更低，东部(百越系人群)和南部(南亚语人群)最低。文献[15]对此作了很详细的分析，结论认为这是藏缅语人群南下，与南方的南亚语人群和侗台语人群相融合的结果。白族和土家族处在藏缅语人群分布的边沿地区，可能由于遗传漂变的原因，他们中间D的比例比较少。汉藏语系各语支人群D的分布与语言学分类之间存在一定程度的对应关系。除了共同拥有高比例的O3外，我们可以从以下遗传学的数据看到藏缅语下各语支的明显差异。从D的数据看，羌语支的普米族中D比例极高，藏语支人群中的D普遍高频(接近50%)，彝缅语支人群比例较低(-10%)，而印度东北的那加语支和波多语支人群(除了最东边的景颇族)中没有D。彝缅语支也存在一定比例的N*[1、3]和F*[13、64], 则在其他语支人群中是极少的(其他的部分文献不检测这些位点)。各组汉族数据中也有10-15%的N[1、12、13、47、75、76]，这代表了与彝缅语支人群什么样的联系还需要进一步分析。此外文献[64]表明苦聪人拥有52.4%的F*，同时考虑O3的话，从现有的Y-SNP数据看确实与拉祜族拥有最亲密的关系[13]。与彝族直系祖先乌蛮接触过的僰人也有高比例的F*(10/32、31.3%，[23])。这表明彝缅语支人群中存在与其他藏缅语人群不同的成分。

总结印度方面的线粒体DNA数据以及以上分析，我们推测单倍群D迁徙路线如下(图3)：D诞生在印度与缅甸之间，然后沿海岸线向东扩散，后期进入东南亚和华南内陆地区，甚至华北地区。其中一部分沿海岸线一直迁徙到现在的日韩地区，之后D*诞生了D2；另外一部分迁徙到青藏高原边沿，有可能在末次冰盛期期间也一直生活在那里。后来其中的D*先后发生了DYS392=7和D3-P47的突变。在晚近的历史时期，D3在青藏高原临近区域内部扩张，可能也伴随少量D*向中亚和北亚扩散（图为Y染色体单倍群D及其分支可能的起源和扩散途径）。需要注意的是，由于年代极其古老，单78COM. 2:e11,2008 FOCUS倍群D的诞生地可能仍然难以确定，就像超单倍群DE那样。在整个现代人的迁徙过程中，东南亚是重要的中转站，这里必然发生过很多次大规模的人口替代。而在东亚，C、F*、N*以及O这些单倍群可能都有过多次人口扩张事件，其中复杂的人群融合过程尚不清晰，其间气候也曾发生剧烈变化，因此早期迁徙的痕迹难以确定。

单倍群D应视为东亚人群的遗传背景存在，并不仅仅是基于它在东亚特殊的分布状态，也基于与它伴随的mtDNA单倍群。我们知道，安达曼人的母系全部属于M系[11]，而在东亚大陆(中国)，藏区(Y单倍群D极高频)和鄂温克族、鄂伦春族(Y单倍群C极高频，[3])生活的内蒙古东部也正是M系比例最高的地方([89]图4)。因此，早期Y单倍群C和D伴随的母系应是M超单倍群。此外，M超单倍群下的M9a在日本和藏族人群中高发，而它的亲缘单倍群E则在东南亚岛屿地区高频出现，也支持M系人群作为这一地区人群的遗传背景的观点[90]。图4为线粒体单倍群M在中国的分布Fig.4 Distribution mtDNAhaplogroup China(from[89])的分布。

4、单倍群D3的分布。文献[14]中指出, DYS392=7是一个特殊的突变，文献[14]中的DYS392=7的样本全部属于D3。而文献[65]显示，DYS392=7完全属于D*或D3，仅2例例外地属于藏族D1(可能是由于平行突变的原因)。藏族的28例D*样本中，有17例的DYS392=7，而D3中绝大部分(319/328，97.3%)的DYS392=7。这表明一个事实，D3与藏族中的D*有最密切的亲缘关系，D3产生于DYS392=7的D*[65]。根据这一结论和文献[3、13]提供的STR 数据，我们判断以下人群中的YAP可能属于D3而肯定属于D：内蒙古的蒙古族、宁夏回族、兰州汉族、阿坝羌族。结合表1和文献[65]的数据，我们可以看到D3出现在以下群体中：蒙古的蒙古族、维吾尔族、云南普米族、西藏、纳西族、摩梭人。文献[65]中D3的STR网络结构图说明：藏族中的D3拥有绝大部分单倍型并拥有独特的分支，蒙古族和维吾尔族的样本从藏族中最主要的单倍型分出，汉族的样本绝大部分与藏族分享单倍型，其他藏缅人群(即纳西族和普米族)的样本的主要单倍型与藏族共享并拥有一些独特的细小的分支。

以上的分布图景契合于历史的记录，后文将仔细论证。现在拥有D3的人群，均与一个远古的氏族有关，即藏族古代六氏族：斯Se(Ldong(顿/桐/洞/党)、冬Stong(东)、札Dbra(惹/恰/查)和珠Vdru(楚)中的董氏族(据藏族古代史书《柱间史》、《贤者喜宴》等)。经过学者考证, “董”即是“党项”，“塞”则是“吐谷浑(色阿柴)”， “东”指苏毗，“穆”指象雄[91、92]。不过，石硕教授在《藏族族源与藏东古文明》中，经过详细的论证认为，“穆”氏族最初居住在今青藏高原东缘地区的川西高原一带，“恰”氏族是在今西藏腹心地区。并且敦煌古藏文写卷中关于“穆、恰”联姻的记载就隐含在“猕猴与罗刹女结合衍生藏人”的重要祖源传说[93]。不过这可能并不矛盾，“穆”部落在传说时代位于藏东而在有文献记载的时代出现在阿里地区。本教文献有提到，“穆族王化身为大神鸟穹腾空而起，盘旋良久后降落在象雄卡佑”[92]，这表明穆族可能是外来的。此外，象雄可能统治过从阿里到康区之间的所有区域[94]。

五、纳西族与藏族在族源和文化上的亲密关系。赵心愚先生在《纳西族与藏族历史关系研究》[95]一文中，对纳西族与藏族的亲缘关系方面的研究进行了概述(pp15-24)，按照大意引用如下：P4：……1922年，美籍奥地利学者J·F·洛克(Joseph F.Rock)受美国农业部派遣来到中国，到丽江后长期居留此地，直到1949年。洛克在丽江接触到东巴文化后，便大量收集东巴经，并着手翻译研究……开始在西方被称为“纳西学研究之父”。P5：……在《中国西南古纳西王国》一书中，明确指出藏族人中有一部分与羌人有关，同时又指出纳西族原是西藏东北羌人的一支，这就强调了纳西族、藏族存在族源上的关系……在《中国西南古纳西王国》中，洛克多次提到《格萨尔王传》中与格萨尔王打仗的姜三赕王。在研究了东巴经和藏族传说后他认为，“三赕”(sa-tham)原在西藏，纳西南迁时带到云南丽江才被称为三赕；“姜”(Jang)在藏文中可写作liang，是指么些。因此，洛克在此书中多次强调，“姜三赕王”即纳西王，《格萨尔王传》的有关内容与纳西族、藏族间的战争是对应的。P6：……在对纳西族东巴教的研究中，洛克也注意探讨东巴教与藏族本教的关系，在众多研究者中，他首先明确指出，东巴教的创立者东巴世罗实为“藏人本教的创立者东巴先饶”(都是藏文ston pa gshen rab的音译，[96])。并认为，东巴教实际上就是本教，他甚至断言：“么些人固守着自己的传统巫教，这种巫教也曾一度流行于西藏，但后来被势力强大的喇嘛教排挤出西藏”。他在这里所说的传统巫教，即指本教与东巴教。洛克提出的这些观点很有价值，至今仍见其影响。P9：……1944年，方国瑜先生发表其著名长篇论文《么些民族考》，此论文为这一阶段国内学者的代表作之一。该文提出了么些源于《后汉书》所记南徙羌人的一支--旄牛羌的著名观点。他的这一考证结论，将早已提出的纳西族源于羌人说具体化了，在纳西族研究中至今仍有很大影响，仍得到不少学者的认同。更具有重要意义的是，方国瑜先生在论文中既明确指出么些为南迁羌种，又明确指出藏族为西迁羌种，这就强调了两族族源上存在同源的关系。P11：俄裔作家顾彼得(Peter Goullart)在这一阶段的西方纳西族研究者中有一定影响……顾彼得1955年在英国出版《被遗忘的王国》一书中认为，纳西族与藏族有某种渊源关系，这种关系不仅是指语言上存在“语族亲姻关系”，而是因为“纳西族的确是从西藏下来的”。他提出的依据是，“在他们的用象形文字写成的神圣文学中，提到马纳萨洛湖和凯拉斯山，提到牦牛和居住在高山草地上的帐篷里”。“他们称藏族为大哥，称白族为弟弟”。“他们的祖先稀奇古怪地与印度神殿里的众神有联系，他们宣称绝大多数祖先和英雄是从鸡蛋里魔术般地变出来的”。显然，顾彼得的这些看法是听了不少纳西族传说及东巴经后才有的，这说明他对两个民族的关系有过特别的关注(这些神话很明显来自藏族族源的“卵生说”，应是与明代木氏土司向藏区的扩张和移民有关)。P12：英国爱丁堡大学社会人类学系的安东尼·杰克逊博士(A.Jackson)……在其著作的第二章、第三章的内容中，他还将纳西族的信仰体系与相邻的汉族、藏族的信仰体系进行比较，分析了东巴教与本教、藏传佛教的关系。杰克逊认为：纳西族经书中对立的二物组合“与喇嘛的二元论很相似，很多这种二元对应的神灵在藏族和纳西族宗教中都有相同的名字。”这指出了纳西族宗教与藏族宗教的关系。但他又认为：“丽江的纳西族没有特殊的单独的宗教信仰，而选择适合需要的宗教信仰”。从他列举的宗教来看，皆为藏、汉两族的，这实际上就将东巴教视为是藏族宗教的一支。他还提出了“纳西东巴曾经是本教徒”，“纳西族不可能有细节上与本教如此相近的平行宗教”的观点。他甚至认为：东巴咒语“是从藏族‘真言’中衍生并因袭下来的”，“是纳西对藏人咒语的音译”。事实上，杰克逊已把纳西族宗教完全视为是藏族宗教的转移。杰克逊的研究成果中尽管有不少有价值的观点，但矛盾的和错误的看法亦有不少，将东巴教等同于藏族宗教就是其中之一。P53：……所列的13个藏缅语民族所存在的猴祖传说……根据本文前面对纳西族、藏族猴祖传说所作的分析……表明纳西族与藏族的猴祖传说存在着惊人的一致性，这些一致性可帮助我们在更小的范围通过比较分析探讨两族猴祖传说的关系，并进而研究两个民族在族源上存在的关系。从上面的论证以及相关的文献[94、97]可知雍仲本教与纳西东巴教都和原始本教有一定程度的渊源关系。《藏族族源与藏东古文明》中对此也有详细论证([93]，pp109-154)。

六、纳西族与远古部落“多弥”。在《历史研究》1985年第1期上，蒙墨先生发表了重要的《试论汉代西南民族中的“夷”与“羌”》一文，在“泛羌论”的大背景下，提出了“夷系民族论”。文中通过对大量文献的分析，提出汉代西南民族中除了氐羌濮越外，还存在另外一个截然不同的民族系统：即古代被称作“夷”的民族系统，并认为汉代西南地区的“夷”系民族应为现在彝缅语支民族的祖先。这一观点后来被广泛接受，比如1992年出版的《纳西族史》中该观点被全面吸收。石硕教授在《藏族族源与藏东古文明》中，称赞“此文对我们从民族系统(族系)上重新认识青藏高原东缘横断山脉地区的古代民族具有里程碑的意义”[93，p164]。关于纳西族《藏族族源与藏东古文明》一书有以下描述([93]，p165-166)：“纳西族的祖先在《华阳国志》中记作“摩沙夷”或“磨些蛮”…与纳西族有直接传承关系的“白狼夷”和“牦牛夷”均属于夷系民族。”因此结论认为纳西族属于夷系民族，这一点与语言学上的分类一致：纳西语属于彝缅语支。但是现有的Y-SNP数据显示，纳西族中有异于彝缅语人群的成分：纳西族中的D绝大部分为D3而彝缅语人群中的D绝大部分为D1。D1和D3是具有不同人群背景的单倍群，因此其中的差异有待下文继续讨论。

赵心愚先生在《纳西族与藏族历史关系研究》[95]一文中指出：纳西族与古代部落“多弥”的关系。其论证过程按大意引用如下。P28：学术意义上的纳西族：纳西族为新中国建立之后经过民族识别确定的统一族称，但今云南宁蒗地区的自称“纳日”的纳西族要求识别为单一的“摩梭族’，今盐源、木里一带自称“纳日”的纳西族有不少己改为蒙古族，今冕宁雅砻江流域地区的纳木依人已确定为藏族。本文下迄20世纪初，即1911年辛亥革命，当时这几个地区自称“纳日、纳木依”的民族都被统称为“么些”，与丽江一带自称“纳西”的称呼一样。因此，本文仍将几个地区的历史上有着统一称呼的民族作为一个整体来研究。进入民国后，尤其是新中国建立后，“么些”这一统称不再使用。P20：四川省民族研究所李绍明先生1981年发表《康南石板墓族属初探--兼论纳西族的族源》一文，根据考古资料和文献资料进行分析研究，认为纳西族源于与牦牛羌同一族系、但不同支的白狼羌，对似乎已成定论的纳西族源于牦牛羌的观点发表不同意见。这一新看法的提出，推动了对纳西族族源问题的进一步探讨。他还认为，白狼羌留在康南地区者后来逐渐融入吐蕃。②实际上，他已指出两族存在某种渊源关系。P31：在丽江一带的纳西族中，直到现在仍有这样一种口头传说：他们的祖先原并不居住在云南丽江，而是住在北方一个名叫“多弥”的地方，后来才沿金沙江等河谷往南迁徙到达现居住地。因此，有人认为纳西族族源传说中的多弥可能与唐代西北的多弥部落有关。

也有学者依此认为，“多弥”一词应早己存在。P33：按纳西族丧葬习俗，人死后，要请东巴(或达巴)将死者灵魂从家中一站一站送往祖先最初的居住地，送魂路线纳西语称作“哦般日 ”，意为灵魂迁徙之路……他们的送魂路线基本上就是反过来的起祖路线……四川盐源县左所区纳西族人、永宁纳西族、盐源纳西族(自称纳日人)、冕宁木里纳木依人等各地纳木依人接祖先的路线均指向北方或最终到达昆仑山。而根据任乃强《释巂昆明》（载《羌族源流探索》，重庆出版社1984年版）一文，昆仑部落即隋唐时期之多弥羌，多弥是吐蕃征服他们后的称呼。P36：(关于多弥部落自称与纳西族制自称的关系的重要论证)据《新唐书·西域传》记载:“多弥，亦西羌族，役属吐蕃，号难磨。滨犁牛河，土多黄金。”从这一记载中，可知多弥为古羌人之一部，当时己臣服于吐蕃。犁牛河为通天河异称，近河源，其居住地“滨”犁牛河，即在今长江上游流经青海玉树州一带。值得注意的是这一记载中提到的“难磨”一词。关于“难磨”，笔者在本节第二部分还要讨论，这里着重讨论“难磨”与纳木依人、纳日人的关系。根据以上记载，“难磨”应为多弥羌自号。任乃强先生考证“路巴”之“洛”时指出，“路”为“那”的音变，本意为“黑”，后借指南方。难磨之“难”，古音可读“摊”，因而极可能也为“纳”的音变，本意也为“黑”。当然，这仅是一种推测。从语言调查来看，“难”实际上就是“纳”的特殊读音，至少在纳木依人和纳日人中是如此。有学者在调查材料中称，永宁纳西族(纳日人)称他们的歌为“纳刮”，意即纳日人的歌。但在中国科学院民族研究所的调查材料中，称永宁纳日人的歌当地人叫做“南刮”。这说明纳日人对“纳”的发音与“南”基本相同。

不仅纳日人发音是如此，纳木依人的发音也是如此，其自称发言听起来即为“南木依”。“难”与“南”音同，可以认为“难磨”实为“纳磨”。“难磨”之“磨”与西夏语中“Mo”的记音同，意即“人”，与羌语“人”的读音“Mi”也相近。四川木里、盐源的纳日人称始祖为“纳木’，音与“难磨”相同，其意为“黑人”。在纳木依语中，“纳木依”一词后两字快读可读为“纳米”，如重音放在“纳”上，也可读为“纳木”。在含义上，纳木依一词亦指“黑人”。P38：除了这些明确记载外，汉文史籍中还有一些记载也可能是有关多弥的。《隋书》在记附国时有这样一段记载:“附国……东北连山，绵亘数千里，接于党项。往往有羌：大小左封、昔卫、葛延、白狗、向人、望族、林台、春桑、利豆、迷桑、婶药、大砍、白兰、叱利摸徒、那鄂、当迷……并在深山穷谷，无大君长。其风俗略同党项；或役属于吐谷浑，或附附国。”《北史·附国传》中，亦有基本相同的记载。有学者认为，《隋书》所记的“当迷”即唐代的多弥。从记音和地理位置来看，当迷应是多弥的异译。《旧唐书·吐蕃传》中有“当弥道”，此“当弥”，王忠先生考证后认为即多弥。又，《新唐书·吐蕃传》记载:“吐蕃令曩骨委书塞下，言:‘论莽热、论泣热皆万人将，以赞普命，谢都督刺史：二国有舅甥好，昨弥不弄羌、党项交构二国，故失欢，此不听，唐亦不应听。”

陈宗祥先生认为：这一记载中的“不弄”为白兰的一种译法，昨弥即多弥的异译。从记音来看，“不弄”可能为 “白兰”或“白狼”的异译，但从多弥早己役属吐蕃来看，此昨弥当另有所指，不是指多弥。……多弥号难磨，而难磨之“难”(Nam)正是吐蕃时代藏文文献中提到的“南国”之“南”(Nam)的对音。因此一些中外学者认为，“南”国即藏文文献记载中的多弥。……“磨”(mo)在西夏语中为“人”的意思，多弥与党项同处一地，同为羌人，在多弥语中“磨”也当为“人”的意思……实际上，南国之“南”与磨难之“难”都是“纳”的一种读音，其意本为“黑”。“难磨”一词为一完整概念即指“黑人”。这里的“黑人”不是指肤色、服饰，而是一个族系概念。可以认为，多弥人的“号”也就是自称的含义为“黑人”。P40: 据藏族著名学者巴卧·祖拉陈哇所撰《贤者喜宴》记载，松赞干布时代吐蕃周围有“四方面王”(或称“四外邻邦”)，即囊巴(Nam-pa)财库王、泥婆罗(今尼泊尔)铜王、苏毗铁王及门地(今西藏门巴)娱乐王……，他们收集赋税上献，因此他们隶属于属民之中。”这一记载中的“囊巴”当为难磨的另一种译法，“囊”与“难”对音，“巴”与“磨”则均指人。所以，囊巴财库王当为被吐蕃征服后的多弥部落首领……。法国著名藏学家R·A·石泰安(Stien)在研究中注意到，与吐蕃王朝赞普通婚、结盟的家族集团中有一大家族称那囊氏(SNa-nam)，他指出这一家族归顺后与许布、蔡邦、贝农“变成了吐蕃四大贵族家族。”……这是融入吐蕃的多弥人的线索。由以上论证可知，摩梭人、纳日人、纳木依人和纳西族均是古代部落多弥(自称难磨)的后裔。

七、藏族“原始四氏族”中的董族和穆族。《隋书·党项传》载:“党项羌者，三苗之后也。其外有宕昌、白狼，皆自称称猴种”[98]。在《北史·党项传》中，也有相同的记载。陈宗祥先生认为，白狼即《后汉书·西羌传》记载的青海黄河南岸羌人“卑湳”部落之一部[99]。白狼与纳西族族源的关系问题不少学者己有专门论述。方国瑜先生在《么些民族考》中，早己根据史籍记载指出白狼为牦牛羌的一支，摩沙夷亦为牦牛羌的一支，二者同种[100]。李绍明先生在一篇论文中认为“白狼羌一部分后来沿着金沙江、雅砻江进入今川滇边境一带，其后裔即晋代的摩沙夷以及唐代的磨些以及现今的纳西”[101] 。史籍记载与大量传说等材料说明白狼人与纳西族确存在族源联系，为其族源之一，学术界对此的看法也基本一致。

对于南语、多弥、白兰与董族的关系，《多弥史钩沉》[102]中提到：在敦煌发现的古藏文卷子中，有一份是写于公元8-9世纪的、用古藏文书写的一种近似藏语而尚未确知的语言，经托玛斯研究，定名为“南”(Nam)语。为此，他撰写了一部长达400多页的专著《南，一种汉藏边境的古代语言》 ”。这个南木语抄写本经藏学家陈宗祥教授多年深入研究, 译为汉文, 整理成书, 命名为《南语--汉藏民族走廊的一种古代羌语》出版。“事实上，白兰应为南部的一支，即sphrom(意为“白色”，音译为“不弄”)Nam(Lam，南)部族。即是说，多弥(南国)与之邻近的白兰均源于汉代以来西羌中的卑湳等羌……。为什么汉文史籍称“南”部族为“多弥”呢？笔者认为，据敦煌发现的吐蕃历史文书纪年中，有公元702年“冬，赞普驻于墀寨，于‘南木东兆木’(Nam LDong prom)地方……主持多思麻之冬季集会议盟会。”而所谓的“LDong prom”，南语意为“白董族”之意。……正如法国著名汉学家石泰安(R·A·Stein)所说，南族也往往与董族联接在一起称Nam-LDong。因此，“多弥”似可还原为“LDong mi”即董弥；mi为一般藏缅语族称之为人之意，也就是“董族人”之意”。陈宗祥教授在上世纪80年代初发表的[103]提到“不弄”即“白兰”。其藏文对应词就是《格萨尔王传》中 “格萨尔”总有一个的前缀Phrom。”在新近发表的一篇文章中[104] 陈宗祥教授又论证了《隋书·附国传》中的婢药就是附国。附国的首府在邓柯县。邓柯县也叫邓玛县，现在分属德格县、石渠县。今德格县南有白玉县(dbat yul)，即“附国南有薄缘夷”中的薄缘[103]。而我们知道，德格县被认为就是董族后裔的岭·格萨尔王的诞生地。

文献[103] 中也提到，“《南语写卷》1号146行说，“南家与邓玛(vtong ramg)一起掌管部落”。”文献[105]提到：史诗《格萨尔王》中有勇猛仅次于格萨尔王的邓玛大将。在有关格萨尔王生世的叙述中，经常提到格萨尔王出生在康区“邓”、“岭”两部落的“岭”部落。可见， “邓”或者“邓玛”先是一部族或一地区的名字(邓域)，后来变为人名。经论证，认为邓玛大将是邓·萨霍王的后裔。而[106]中三国至西晋的详图中，四川西北部出现的“邓麻、马儿敢”中邓麻的地域与邓玛重合，而读音完全相同，当即邓玛。而据[95]p26论述：据《新唐书·西域传》记载:“多弥，亦西羌族，役属吐蕃，号难磨。滨犁牛河，土多黄金。”从这一记载中，可知多弥为古羌人之一部，当时己臣服于吐蕃。犁牛河为通天河异称，近河源，其居住地“滨”犁牛河，即在今长江上游流经青海玉树州一带。而格萨尔王与邓玛大将出生的“邓、岭”两部落的居地就在通天河雅砻江上游之间的德格县、石渠县一带[102,103,105]。多弥与邓玛的居住地也是重叠的。据此，我们认为多弥和邓玛可能是同一个部落名的不同音译。

文献[107]提到：格萨尔史诗，藏语中称为“格萨尔的故事”，简称“仲”或“岭仲”，意译即“故事、岭国的故事”…。现已出版的《世界形成》、《董氏预言授记》、《天界篇》等书，讲述了格萨尔祖先“董”氏族的来源、世系和传承；《诞生篇》和《赛马篇》等书，讲述格萨尔诞生和“董”的“父系三兄弟”从卫藏辗转迁徙到黄河源头，并占领其地的经历…. 这个史诗唱段告诉我们，“董”氏族的发展线索是：古代六氏族--穆布董--岭六部--三十个众兄弟。我们从藏文历史文献中终于找到了“岭巴”这氏族(部落)。它原来是穆布董氏族中的“尊者六系”之一，并不像格萨尔史诗中描写的那么强大。但“岭巴”这个氏族(部落)在历史上的确存在，它的确有“古代六氏族-穆布董-岭巴”的源远流长的历史发展线索。在现在的德格县拥有与格萨尔王相关的最多的遗址和传说。很多学者认为，格萨尔王真有其人，真有其事。在康区特别是德格地区，人们都深信岭·格萨尔王确有其人，他就是原邓柯林葱家族的祖先，其出生地在今德格(原邓柯)县阿须乡雄坝吉苏雅格康多。产生于康区特别是德格地区的手抄本、木刻本，以及民间说唱形式的艺人最多、最权威。这里有全藏区最权威版本的“林葱木刻本”。今德格县、石渠县境内有大量与《格萨尔王传》中关联的遗迹[108-111]。图5现代族群与西藏古代董氏族的关系、图6青藏高原历史上的各个政权/部族修改自[106]唐详图(669年)。

根据以上论述，远古至今的各部落/人群的演化关系如图5所示。需要说明的是，在历史时期，各部落不断分化，迁徙，与当地人群的融合是不可避免的，因此图中的箭头仅表示一定程度的继承关系。我们可以看到，藏族、纳西族和普米族这些拥有D3的人群，均与一个远古的董氏族有关。不过可以肯定的是，并非所有的D3均来自董氏族。D3的年代在文献[14]中超过1万年。由于真正的D*是较少的，因此我们可以谨慎地推测，白马藏族中(50％为非D1的D*)也有较大比例的D3。而历史上没有其他地区藏族大规模融入白马藏族的记录。文献的记录显示，现在的藏族正是卫藏地区、阿里地区、康藏地区、安多地区以及青海地区等历史上多个部落群体融合而成的。为了清楚表示图5中的演化关系，在[106]唐详图(669年)的基础上进行修改，加入图5中不同历史时期的各个部落/政权，结果如图6所示。大致的地域范围参考了才让教授的《吐蕃史稿》[112]。

居住在喜马拉雅以南门隅，洛隅地区的门巴族和珞巴族与藏族在族源上有亲密的关系。据文献[113]：P22：在珞巴族诸部落中，有诸多反映珞巴族和藏族的祖先是亲兄弟的传说,” 太阳母亲和月亮父亲生下了阿波崩戎和阿波达尼。阿波崩戎是哥哥，他的子孙后代繁衍发展成了藏族。阿波达尼是弟弟，他的子孙后代繁衍发展成了珞巴族。门巴族人常说:“我们同藏族、珞巴族是同宗同祖吃一条江水的兄弟”。共同拥有的猴子变人的传说，深刻地昭示了西藏高原上珞巴族、门巴族和藏族紧密的文化联系和对同一血缘祖先的认同心理。”P23：《门隅教史》叙述: ……其后，称猴之后裔世代演化，成斯、穆、董、冬四大族系…. 穆分化成的归、列、查等八个姓氏为:俄布、修布、雄、门、嘎、噶、虐、恩兰等。其中的“门”，指的是门巴先民。从表1我们可以看到(No.331-338)，门巴族中有较高比例的D，而同为“穆氏族”后裔的珞巴族则含有极高比例的O3。结合O3在其他汉藏语人群都有较高的比例以及其他单倍群(如N*)的大量存在的事实，我们可以确定，自远古时代以来，青藏高原上的氐、羌、夷以及原始六氏族等部落都已经是深度融合的人群。

兰海译《最早定居东亚的现代人的Y染色体证据以及西藏人和日本人的多重起源》

摘要：先前的东亚Y染色体系统发育关系表明，非洲起源的现代人最早定居在东南亚的大陆部分，然后大约在25000-30000年前向北迁徙并遍布整个东亚。但是东亚特有的Y染色体单倍群D-M174的分布却与这个图景不同：它仅高频分布于西藏、日本和安达曼群岛。在本文的研究中，我们从东亚的73个人群中搜集了超过5,000个男性样本，重建了单倍群D-M174的系统发育关系。我们的结果表明，D-M174是东亚地区现代人的极其古老的支系，在南北人群观察到了深度的分化。我们认为D-M174起源于南方，然后在约6万年前向北方扩散。这一扩散早于东亚其他单倍群的扩散。新石器时代汉文化的扩张和末次冰盛期是导致目前D-M174在东亚的不规则分布的关键因素。西藏人和日本人是两个早期人群的混合，即两个东亚特有的主要单倍群--单倍群O和D。

一、介绍：Y染色体Alu多态(YAP,即M1)定义了全球Y染色体系统发育树上一个很深的分支[1]。单倍群D/E进一步分化为下游单倍群DE*, D和E(原文图1)。单倍群D/E的分布极具地域性，三个支系的分布都局限在某一地理区域，因此对追溯人类早期的历史非常有意义(原文表1)。单倍群D/E中可能是最古老的支系单倍群DE*仅在非洲的尼日利亚人中有发现[2]。这一发现支持现代人类起源的“走出非洲”模式。由M40/SRY4064和M96定义的单倍群E(E-M40)也被认为起源于非洲[3-6],而后约在20000年前扩散到中东和欧洲[3、4]。有意思的是，东亚特有的由M174定义的单倍群D(D-M174)在西藏人和日本人中比例很高(D-M174)，但在其他东亚人群以及邻近东亚(中亚、北亚和中东)的人群却极少(通常少于5%) [5-7]。日本人的D属于D-M174下面的一个独立的单倍群，这个单倍群由多个突变定义(例如M55, M57 和M64等)。这个分支与西藏人的不同，表明它们之间是深度分化的[1]。D-M174在东亚的不规则分布与东亚的其他特有支系不同，例如单倍群O下面的O3-M122、O1-M119和O2-M95[8、9]。在西藏和日本之外，D-M174也普遍存在于东亚南方的一些族群，包括中国西南云南省的操藏缅语的各个人群(14.0-72.3%)，中国南部广西省一个苗瑶语人群(30%)（编者按：实指侗台语的拉珈人）和泰国的一个侗台语人群(10%)。这可能可以解释为很晚近的人群混合[9-11]。不过，最近的一项研究报道了安达曼人中有高频的 D-M174(56.25%)。他们是生活在印度洋中偏远岛屿的人群，被认为是东南亚最早的现代人群体之一[12]。Underhill等的另外一项研究认为，D-M174有可能在5万年前到达东亚[5]。这表明东亚的YAP支系应该是非常古老的。

我们之前的研究表明，东亚特有的且在东亚占主要的Y-SNP单倍群O-M175 (平均44.3%)反映了现代人在东亚的早期的扩张[8、9、13]。与O-M175在大多数人群占主要的情形不同的是，D-M174相对高频的人群主要位于东亚大陆的外围区域，且分布离散[7、9-11、13-18]，这可能意味着人类史前的两次迁徙。一种观点认为，与O-M175一样, D-M174可能只是旧石器时代东亚人类向北迁徙的多个单倍群之一[8、9]。结果由于迁徙之初人群本身的结构(末次冰盛期可能是关键影响因素)以及后来汉文化（编者按：实指汉文化的前身华夏文化）的扩张, D-M174的分布被边沿化到现在的地理分布状态。另外一种推测是：D-M174的迁徙是一次独立的早期迁徙，与我们之前提出的不同[8,9]。为了回答这个问题，我们进行了全面的采样以及基因分析，分析涉及73个东亚和东南亚人群的5000个男性个体。基于Y-SNP/STR数据以及D-M174主要支系的年代计算，我们认为东亚地区的现代人在旧石器时代存在另一次独立的向北的迁徙，早于我们之前提出的向北的迁徙[8、9、13、19-21]。

二、方法：样本。本项研究中，我们总共采集了73个人群的5,134个无关男性样本。这些人群覆盖了东亚和东南亚的绝大部分区域(原文表2和图2)。大部分样本来自中国南部和西南部，中国80%的民族生活在这里超过3000年[22]。之前报道的样本也包括：来自宿兵等[7、9、17]的91个YAP+样本(日本16例、西藏54例、朝鲜人3例、关岛人1例、柬埔寨人1例、泰国人4例以及来自中国其他地区的12例)和来自Wells等[23]的116例 YAP+(原文表2)。

Y染色体标记和分型。首先对所有的样本都进行了3个Y染色体双等位基因位点的分型，包括M1, M40和M174。属于单倍群D的样本进一步进行了M15、M57和P47的分型，以便确定下游支系的归属。下游单倍群由相应的突变命名，遵从于YCC(2002)的规定。分型应用了PCR电泳，PCR-RFLP和测序等方法[7]。Y染色体双等位标记的系统发育关系如原文图1所示。我们对5134个样本进行了YAP基因座的分型，结果测得512例YAP+(9.97%)。加上之前发表的207例Yap+样本，一共719例Yap+进行了5个双等位标记(M174、M40、M15、M57和P47)和8个STR位点进行了检测(DYS19/394、DYS388、DYS389Ⅰ、DYS389Ⅱ、DYS390、DYS391、DYS392和DYS 393)。719例Yap+样本中，697例得到了所有SNPs和STRs的整组数值(数据见原文附件1)。

数据分析。在数据分析中包含了已经公开发表的数据，包括Hammer等(2006)中的90例，Thangaraj等 (2003)中安达曼人的19例以及Weale等(2003)中尼日利亚的6例。D-M174下游支系的分化时间由STR数据计算，采用SNP-STR结合的方法[4、24、25]。Y-STR的平均突变速率采用0.00069[26]。D-M174的各个下游单倍群的Y-STR单倍型网络结构图用NETWORK4.2.0.1(www.fluxus-engineering.com)来构建，然后分层次组合到已有的D-M174系统发育树中(原文图1)。各人群的平均遗传基因多样性通过8个STR位点的等位基因的频率计算得到(Arlequin3.0, http://lgb.unige.ch/arlequin/)。

三、结果。原文表1列出了已经报道的世界范围内人群的YAP+频率(根据参考文献的表注)。非洲有最高频的YAP+，全部属于下游单倍群E-M40。而D-M174总体来说是一个亚洲特有的，并在邻近的地区有少量分布，比如中亚、中东和东北印度。D-M174在东亚的平均频率为9.60%，高频出现在西藏(41.31%)、日本(35.08%)和安达曼群岛(56.25%)，而在东亚其他人群中较为罕见(<5%)。在进行Y染色体双等位基因标记(M174、M40、M15、M57和P47)的分型之后，719例Yap+样本被划归6个下游单倍群：DE*、E-M40、D*-M174、D1-M15、D2-M57和D3-P47 (见原文图1)。719例Yap+样本的8个STR位点的进一步检测产生了697组完整的数据。如原文表2所示，与之前的报道一致[7、9-11、13、16]，D-M174主要高频存在于中国西部、南部和日本。

D-M174的4个下游单倍群(原文图1)的分布格局彼此不同。D1-M15在东亚广泛分布，包括大多数藏缅语人群和侗台语人群(原文表2)。D*-M174和D3-P47主要分布在藏缅语人群中，零星出现在侗台语人群中。令人惊讶的是，我们在西藏人中发现了两例DE*，而这种类型之前仅在非洲被发现(尼日利亚)。与此不同的是，D2-M57仅出现在日本，这暗示着这个支系很早就与D-M174的其他下游单倍群分化开了(原文表2)。我们在西北汉族中识别出了4例E-M40，反映了来自中亚的晚近的基因交流[23]。为了得到D-M174各支系的详细结构，我们结合SNP和STR数据进行了网络结构分析(原文图3)。D*-M174有深层的结构，而且网络中没有环路。D*-M174包含了藏缅语人群、侗台语人群和安达曼人的各自不同单倍型。其中没有观察到共享的单倍型(指的是不同地区/不同语言的人群间)，这表明D*-M174是一个很古老的支系。作为一个最普遍的支系，D1-M15的网络结构也呈现出深层的结构，通过很少的单倍型共享状态可以推知的清晰的南北分化。与此不同，D2-M57局限于日本，D3-P47在西藏高频出现而在邻近的中亚和侗台语人群少量出现。短距离和星状的网络结构表明，这两个单倍群在两个彼此距离遥远的地区的长期存在和人口的扩张。非藏族的藏缅语人群，像纳西族、普米族和羌族的单倍型仅是藏族单倍型的子集。这再一次证实了来自西藏的晚近的基因交流，就像文献记载的那样[7、22]。接下来我们估计了D-M174各个下游支系的年代。合并数据分析的结果表明，D*-M174、D3-P47和D1-M15的年代最为古老，分别是66392±1466年、52103±1327年和51640±2563年。日本特有的D2-M57是最年轻的(37678±2216年) (原文表3)。值得注意的是，得到的这些年代都比O3-M122的年代古老得多。O3-M122是我们之前报道另外一个东亚特有的单倍群(25000-30000年) [8]。

四、讨论。D-M174的不均匀分布可能导出另外一种关于东亚早期人群的起源和迁徙历史的推论。我们的数据不支持D-M174的北方起源假说，因为中亚人群中的D-M174是罕见的(原文表1)，而且在网络结构图中中亚的单倍型都处在外围的位置(原文图3)。我们的数据也不支持D-M174起源于印度的观点，因为印度的996例样本中均没有检测到D-M174。而D-M174在印度脉东北的少量出现（232例中仅有2例），是因为那些人群实际是说藏缅语的人群（原文表1），西藏与印度有限的基因交流可能是由于喜马拉雅山脉巨大的地理隔绝效果[27]。另一方面，从Y染色体单倍型上看，居住在安达曼群岛上的土著居民在基因上是隔离的。尽管在表型上与其他的东南亚人群不同，安达曼岛的居民拥有大部分东亚特有的Y染色体支系，包括D-M174、O3-M122和O2-M95。这一点强烈暗示他们是一个旧石器时代人群的遗存[28]。同样的，从语言学和考古学证据看，侗台语人群和苗瑶语也是中国南方古老的人群[22]。网络结构分析显示D1-M15在南北人群(藏缅语人群对比侗台语/苗瑶语人群)间有明显的分化(原文图3)。考虑到北亚没有D-M174以及D-M174在中亚的零星出现，D-M174的北方起源假说是不太可能的。因此我们可以确定D-M174起源于南方，这与之前提出的“最早的现代人居住在东南亚的大陆部分”以及其他Y染色体支系的迁徙图景是一致的[8、9、13]。

在多篇反对东亚人群的南方起源的文献中，相比南方人群，在北方人群中观察到了更高的遗传多样性[14,30]。就像在我们之前的报告中已经讨论的那样，由于没有考虑到来自中亚的晚近的混合，Karafet等[14]的数据给出了一个北方的遗传多样性更高的假象。尽管同时用到了Y-SNP和Y-STR数据，薛雅丽等[30]的研究有同样的缺陷。在薛雅丽等(2006)的文章中，蒙古人、维吾尔人和满族人的遗传多样性更高，而文献记录中这些人群都与中亚人群或汉族有广泛的混合[22]。此外，薛雅丽等(2006)的文章中南方的人群数较少，长期地理上的隔绝导致的瓶颈效应会极大地影响到测得的遗传多样性。当大量的南方人群被包含到研究中来时，我们观察到这些人群的遗传多样性比北方人群的更高[8、9]。基于STR数据得到的南方人群的遗传多样性与北方人群的相当。西藏人有最高的多样性(0.525±0.294)，接下来是侗台语人群(0.484±0.272),日本人(0.419±0.239)和苗瑶语人群(0.347±0.206)。没有计算其他东亚人群的遗传多样性是因为样本量太少。西藏人有最高的多样性主要是因为相比其他人群西藏人有庞大的D-M174有效群体数量。西藏人和日本人生活在两个彼此距离遥远的地区，他们的D-M174分属于两个不同的下游支系。这两个单倍群都有短距离和星状的网络结构，这表明在同一地区的长期存在和晚近的人口扩张(原文图3)。需要注意的是，遗传多样性的计算可能包含潜在的偏差，比如D-M174各支系年代的差异。……

人类约5万-7万年前出现在澳大利亚[38]。我们得到的D-M174的年代与以上观点是相符的，尽管现代人进入东亚和澳大利亚可能是彼此独立的迁徙事件[38]。计算得到的D-M174的遗传多样性的计算可能包含潜在的偏差，比如D-M174各支系年代的差异。之前仅在非洲发现的DE*现在在西藏也有发现，这支持D-M174的古老程度以及D-M174存在于最早定居在东亚的现代人之间。此外，D-M174的离散分布和它的古老年代支持一次旧石器时代东亚现代人的迁徙。我们之前关于O3-M122的数据显示了东亚地区现代人一次史前(约25,000-30,000年前)向北的迁徙。这种观点可以解释大部分现在东亚特有的Y染色体支系的系统发育关系(O3-M122、O2-M95和O1-M119) [8,9,13]。不过这个推测的迁徙图景无法解释D-M174的分布。首先，D-M174在东亚大陆的中心地带非常罕见，特别是在汉族人群中。尽管这可以假设为基因漂变的影响：假设D-M174在我们提出的这次向北的迁徙中伴随着O3-M122 ，则D-M174在西藏人和日本人中的高频需要重复发生的突变或独立且随机的富集过程。这显然是不太可能的。一次更早的独立的向北迁徙可以合理地解释D-M174目前在东亚的分布状态。由于存在更晚的O3-M122的向北迁徙以及新石器时代汉文化的扩张，我们推测D-M174在东亚中心地带的迁徙痕迹已经被O3-M122更晚但也更大规模的迁徙覆盖了。目前D-M174分布与东亚外围区域的状态与这一假设符合。同时，计算得到的年代也表明D-M174的迁徙早于O3-M122。

人们认为晚更新世早期(13.5至7.5万年前)东非的大干旱强迫现代人走出了非洲[31]。早期的人类可能占据了沿海地区并且将近水域的海产品作为食物[32]。然后，现代人沿海岸线扩散。在非洲之外，最早的现代人脚印化石的年代约为10万年左右[33]。8万至1万年间的末次冰期可能对现代人的迁徙产生了巨大的影响，当时的海平面在现在的海岸线之下50-200米[34]。这使更宽的陆地浮现出来了，比如日本与亚洲大陆之间，使人们能够在现在被大海隔离的陆地间迁徙。

人类化石记录以及之前的基因数据表明，定居于东亚最早的现代人稍晚于6万年[8、9、13、21、35]。比如，最早的澳大利亚古人类化石(蒙戈湖3号坑)的年代在45000±3000-62000±6000年之间[36、37]。而对现在的澳洲土著进行的mtDNA和Y染色体数据分析表明人类约在50000-70000年代比之前报道的基于Y染色体和mtDNA数据的年代更加古老[8、9、21]。为了确定年代是否被过高估计，我们使用同样的方法计算了DE*与E-M40的分化时间。计算得到的年代是27176年，比D-M174的年代年轻得多，但与之前的(约27800-37000年)报道接近[3]。因此，D-M174的古老确实反映了东亚早期人类的迁徙。Zhivotovsky (2001)提出的年代计算方法对有效人口数量以及晚近的人口扩张不敏感，尽管人群本身的结构也不能完全忽略。D-M174的古老也得到之前的研究的支持，在那篇文献中D-M174的年代超过50000年[5]。

单倍群D的分化年代约为6万年，这与它现在宽广但离散的地理分布是一致的。我们提出的旧石器时代的迁徙可能是现代人定居东南亚之后向北的最早的一次迁徙。因为末次冰期发生在8万至1万年前之间，D-M174向北的迁徙与之前提出的观点相符――人类可能以“猛犸大草原”上的食物为生[39]。除了后来的人口扩张，末次冰期可能也对D-M174现在离散的分布产生了影响。值得注意的是，最近的一项考古研究发现，人类可能在3万-4万年前就来到了青藏高原[40]。这比之前认为的要早的多，但是与我们的结果相符。冰后期海平面的上升最终导致了日本与亚洲大陆的分离，这可以解释D-M174现在在日本人群中的遗存。考古学数据证实现代人约在30000年前开始在日本定居[41、42]，与我们计算得到的D2-M57的年代(约37678±2216年)相符。总而言之，目前西藏人和日本人应是由D-M174和O3-M122分别代表的两个古老人群的混合[7、10、16]。

五、结论。总结认为，我们论证了东亚人群旧石器时代的一次迁徙。这次迁徙早于之前提出的向北的迁徙。现在D-M174的离散分布主要归因于新石器时代晚期的人群扩张和末次冰期（说明：原文的图表并未复制到译文中）。

费冬梅：北方藏缅群体母系遗传结构分析 -豆丁网。

摘要：线粒体存在于真核生物细胞质中，是闭合环状的双链DNA分子。人类的mtDNA由16569个碱基对组成，其高变区相对具有更多的信息位点，适宜追溯历史事件，现已经广泛应用于推导早期人类历史。根据历史文献记载，现代藏缅人群源于原始氐羌部落。本实验室的先前研究结果提示“北方藏缅民族(藏、羌、氐)更能代表藏缅民族”。我们以居于四川的羌族、甘肃的白马藏族和分布于青藏高原及其东缘区的藏族群体为代表，采5个地区人群共272个样本，使用SNaPshot技术对藏缅5个群体的线粒体DNA进行单倍群分型，了解这些群体的母系遗传特征，同时通过绘制树型聚类图、主成分分析图以及网络结构图等方法，分析各人群各个支系之间存在的差异和联系，以揭示北方藏缅母系遗传结构。mtDNA的分型结果显示，北方藏缅的高频单倍型是A、C、D4、G、M9、Z，与北方汉族、日本和阿尔泰语系高频单倍型比较接近，尤其是藏族的线粒体中发现了高频单倍型D的分布，特别是在羌族和白马藏族中的频率较高(如羌族单倍型D的频率超过30%)，结合聚类图和网络结构图等分析，提示青藏高原及东缘区是亚洲大陆乃至世界目前尚存的单倍型D高频且多样性中心。其他几个常见的mtDNA单倍群网络结构分析结果亦显示，藏族几个支系很接近北方人群，而且羌族是最古老的人群。藏族虽居住在西南边陲，却与北方各人群在母系遗传结构上十分相近，也属典型的北方蒙古人种。

陈致勇：东亚人群线粒体N系单倍群的迁徙分化。

摘要：Rootsi等于2007年初发表了一篇研究Y染色体单倍群N的论文。这是至今关于单倍群N的最全面、最详细的研究。论文中尚未完美地解释的东欧的N3多样性比西伯利亚高的结果。本文应用Derenko等新发表的数据，更好地解释了这个结果。同样，应用Derenko等的Y单倍型分类，对之前文献报道的土耳其的N*个体进行深入分型，发现他们大多是N2-A，由此得到了突厥东亚起源的强有力证据：东亚起源单倍群N2-A是突厥的特征单倍型，而N2-A2几乎只存在于突厥的后裔中。经分析土耳其人中的R1b1b-M73，认为它的分布与中国古代部落月支的迁徙有关。同时探讨了R1a1、Q在突厥形成过程中的演变；并推断突厥祖先丁零-铁勒诸部的主要Y-SNP类型为N3a1、N3a2和N2-A。乌拉尔族群的起源也与突厥群体有很大关系。

正文：本文翻译并评论了Rootsi等于2007年初发表的一篇研究Y染色体单倍群N的论文。这是至今关于单倍群N的最全面的、最详细的研究。文章指出，N在东欧的高频是源于约1.2～1.4万年前的来自西伯利亚南部的迁徙；频率最高的下游单倍群N3，可能起源于今天的中国，然后在西伯利亚经历多次瓶颈效应最后扩散到东欧。另一个下游单倍群N2，形成了亚洲（N2-A）和欧洲（N2-E）两个不同的STR分支，N2-E现在主要分布在芬兰-乌戈尔语人群以及相关人群。此文得到了N的下游支系的起源地以及分化年代，给出了N在世界范围内各个人群中的分布。

一、单倍群N的起源与扩散。Rootsi的论文提供了全世界范围内N的支系分布，但中国境内的分布却不够清晰。而Xue[1]的文献提供了目前报道的最详细的划分（表1：中国的各个群体中单倍群N的各分支的分布）。与Rootsi的论文中彝族有30.2%的N*一样，生活在云南省的同属于彝语支的哈尼族也有较多的N*。更值得注意的是，N1出现在南方少数民族布依族中，再一次提示N、N1的南方起源。从上表还可以看出，N也普遍存在于通古斯语支中，N2在赫哲族中达到17.8%。文献[2]报道了西鄂温克人(W.Ewenks)中有27.5%（11/40）的N2；文献[3] 报道了鄂霍次克鄂温克(Okhotsk Evenk)、叶尼塞鄂温克(Yenisey Evenk)、沃且/那乃(Ulchi/Nanai)、涅吉达尔(Negidal)分别有37.5%、9.7%、9.4%、35.2%的N3。这些数据说明，N深度分布于通古斯语支之中。

根据Rootsi文，结合Derenko 发表的最新数据[4]计算的N各个分支的年代，从现有的各个支系的分布推断，单倍群N的迁徙大致是这样的：沿藏缅走廊北上-河套地区-贝加尔湖以东地区。至少在12000年前的时候，已经达到贝加尔湖与大兴安岭之间。在这里，N3a1发展壮大，迅速向东北、西北扩散，成为乌拉尔语系民族的重要单倍群。后来约于5000年前N3a1又诞生了N3a2，主要存在于贝加尔湖以东地区，N3a2也不断迁徙进入东欧。此前，一部分N2-A向西迁徙到达乌拉尔地区，途中经历了强烈的瓶颈效应，约于7000年前诞生了N2-E；然后随着乌拉尔语而扩散到科米(Komi)、玛里(Mari)、维普(Vepsa)、鞑靼(Tatar)等人群中。一部分N2-A向西南进入萨彦岭的草原地带，约于2000年前，诞生了仅仅存在于突厥后裔的图瓦人(Tuva)和图法拉人(Tofalars) 中N2-A2。

二、N3的下游分支与多样性。N3的STR多样性是之前的研究关注的重点。至今所有的研究都表明，欧洲的N3的STR多样性要比西伯利亚的要高[5、6、7]，因此N3有可能起源于东欧，然后向西伯利亚传播[8]。但是，Rootsi的研究应用更大的样本量计算显示，尽管N3在中国北部的频率很低并局限在少数人群中，那里的STR方差却很高，比阿尔泰和伏尔加-乌拉尔地区（分别是0.16、0.17）都高，因此说明了N3扩散的起源地是中国北部而不是南部西伯利亚。

STR结构图同时得到了两个不同的分支，但是未能提供进一步的数据。文献[4]为此提供了详细的证据，估算了N3各个支系在不同地区的年代。引用如下：“N3的STR结构图显示了两个不同的支系（我们可以看到，N3a2诞生于N3a1）。N3a1的第一次扩张约10000年前发生在南部西伯利亚，然后向欧洲扩散，在那里它的年代约为8000年。而更年轻的支系N3a2，大约于4000年前诞生在南部西伯利亚（可能是贝加尔地区）。中接网络结构图和方差分析显示N3a2进入东欧的过程中经历了多次的瓶颈效应。……

N3a1在西伯利亚的年代比在欧洲的更古老(分别为1万年和0.82万年)。支系N3a2的STR有不同的拓扑结构。它在南部西伯利亚地区有星状扩张图形，主要出现在贝加尔湖地区的布里亚特人中。但是，它进入东欧的部分在系统发生树上显得十分复杂，主要出现在伏尔加-乌拉尔地区的芬兰-乌戈尔语以及突厥语人群中。比起西伯利亚人群，在伏尔加-乌拉尔人群中观察到了较高的N3a2的方差（0.66万年对0.37万年），可能是源于以下原因：多次瓶颈效应，或东欧的N3a2样本量太少。另外，N3a2的STR结构图中的东欧部分显示了明显的非星状拓扑的结构特征，这会降低基因年代计算的准确性(Sailard et al.2000)。

上文中最后一句话的更确切的含义是：N3a2起源于西伯利亚的N3a1，且西伯利亚的N3a1的方差要比欧洲的方差高。而欧洲的N3a2的西伯利亚方差要比西伯利亚的高，这是由于多次复杂的迁徙叠加造成的假象。综合起来，对于N3的总体的方差，欧洲的也就会比西伯利亚的高。但在STR结构图中就会表现出来：这些单倍型彼此离散，没有明显的联系。正如Rootsi 在论文中提到的，“这么高的STR方差可能不是当地的奠基者类型长期演化的结果，而是多个不同的奠基者类型混合的结果。”关于挪威、瑞典、芬兰的Y-SNP的研究都说明了这一点[9、10、11]。

三、N2的下游分支与土耳其N的STR。这篇文章指出，N2的STR结构图区分了的亚洲支系N2-A和欧洲支系N2-E，更古老的N2-A的年代反而小一些,与N3a2的情况类似，又一次显示了西伯利亚人群中有更强烈的瓶颈效应，使得很多的原始单倍型经过漂变而消失了。文中提到，土耳其的14个体属于亚洲支系N2-A。而文献[4]提供了N2下更详细分类的奠基单倍型(founder haplotypes)，并指明N2-A2几乎只存在于突厥的后裔中（Tuva、Tofalars），N2-E主要存在东北欧的乌拉尔语以及相邻人群中。由于文献[12]提供了土耳其N的样本的所有STR数据，因此我利用这个奠基单倍型对这些数据进行了分类（表2）。对照文献[4]提供的STR表（见引文附表1），找到了土耳其样本的匹配单倍型（表3）。

总的说来，从STR 单倍型可以看见，12例NxN3的土耳其样品中，有7例（58.3%）能找到匹配的样本，除1例在卡尔梅克(Kalmyks)外，其中6例（50%）都在阿尔泰地区的突厥人后裔中（Khakassians、Tuva、Tofalars）。在样本量这么少的情况下，如此高比例的匹配是相当令人惊讶的。这意味着土耳其的这部分人的祖先，直接来源于阿尔泰地区突厥人。另外，即便没有找到匹配类型的个体，同样可以找到大量的“一步突变相似型” (one-step neighborhood)，这意味着以后随着阿尔泰地区样本量的增大，这些个体也可能找到匹配类型。因此可以说，N2-A是突厥的特征单倍型，而N2-A2几乎只存在于突厥的后裔中。表3：土耳其样品与Derenko等报道样品的STR单倍型匹配分析。

四、土耳其人Y染色体中的罕见类型R1b1b-M73。R1b1b-M73是一个罕见的单倍型，至今还没有专门的描述。它定义为Y染色体JARID1D基因内含子11中两个碱基对(GT)缺失，refSNP ID: rs2032634，首先被P.J. Oefner发现。Underhill等于2000年[13]首次报道了中亚/西伯利亚的6例样本，但没有提供STR数据。文献[12]报道了土耳其有4例，文献[14]报道了亚洲的19例样本，两篇文章都提供了10个STR位点的数据。此外，Italy DNA Project（familytreedna.com）显示意大利有2例，但也是欧洲唯一发现的两例。也就是说，目前全世界仅发现了31个样本（表4、表5）。我们期待Genographic Project能够分析到更多的样本。下面试就这个单倍群做一些分析。

首先，R1b是一个广泛分布的类型，在西欧、高加索地区有较高比例的分布。但那些地区的类型都属于R1b1c-M269下的分支，与R1b1b-M73不同。根据研究，R1b在末次冰期之前就已经扩散；末次冰期到来的时候，群体生存空间被压缩到“避难绿岛（refuge）”中。在末次冰期之后，R1b1c-M269的下游支系分别由伊比利亚[15]和高加索[12]扩散开来。这个结果提示，R1b1b-M73是R1b在末次冰期之前扩散过程中，遗留在中亚的一部分。但是M73的样本量过少，分布也很离散，我们只能在较大范围内猜测，它在末次冰盛期的避难绿岛可能在帕米尔至阿尔泰山一带。

其次，R1b1b-M73现在的频率很低，但在某些彼此隔离人群中却很高，比如中国的纳西族和巴基斯坦的千户(Hazara)人。这两个群体之间的联系实在是难以想象。巴基斯坦的Hazara人在阿富汗是一个人口众多的民族，有蒙古人种的体质特征。文献[14]显示，在巴基斯坦的Hazara人中有41.7%（比例确实很高）的C3，33.3%的R1b1b，Q1和O3分别为8.3%，R2和J2a分别为4.1%。基本上可以确定R2和J2a为迁徙到阿富汗以后融入的部分，而C3，Q1和O3来自东亚。R1b1b则应当来自中亚，或者更加东面的地方。需要分析STR的数据，才能得到更深入的理解。而中亚的群体历史上主要为贵霜王朝的人群。公元前 177至前176年间，匈奴冒顿单于遣右贤王大败月氏。大月氏西迁侵入塞人地域伊犁河流域，后又遭乌孙的侵入继续西迁，最终在中亚阿姆河流域定居立国，成为强大的贵霜王朝的居民的一部分（公元45～250年）。但大月氏中的一部分仍然留在伊犁河一带，即《汉书·西域传》载：“故乌孙民有塞种、大月氏种云”[16]，成为现今哈萨克族的族源的一部分[17]。表4：文献公布的M73突变型在各人群中的比例；表5文献公布的M73的STR数据。

土耳其民族源于中亚西突厥乌古斯人的游牧联盟，他们此时的活动地域正好包含了哈萨克斯坦大部[18]。据史料记载，纳西族原为游牧在青海省黄河、湟水谷地的古旄牛羌人。约公元前200年后，牦牛羌陆续向南迁徙至四川西南、云南西北一带，并分化成不同的民族，其中就包括纳西族[19]。遗传学[20]和语言学[21]的证据都说明，纳西族与藏族的关系非常密切。《史记·大宛列传》记载：当月氏离弃河西时，有一小部分越祁连山，“保南山羌，号小月氏”[22]。这部分月氏人日后长期留住该地，与青海羌人逐渐融合。《后汉书·西羌传》载，到汉武帝时出山与汉人杂居，分为七个大种，住在湟中令居一带的称“湟中月氏胡”，另有一部居张掖的称“义从胡”，后融入羌族，语言服饰均与羌人相似，但仍然与羌族区别明显，故仍名“胡”。《后汉书·西羌传》即云：“湟中月氏胡，其先大月氏之别也”。并且明确说明：“其羸弱者南入山阻，依诸羌居止，遂与共婚姻”[23]。小月支保南山羌与纳西祖先在湟中在时间，地点上切合无间。因此推断，纳西族中的R1b1b可能来自小月支。

再次，分析STR数据，在DYS19的重复数上，形成了明显的簇。甘肃以东的样本全部为13；Hazara的样本全部为14；新疆维族的样本全部为15（暂不考虑土族特殊的16）。土耳其人中有DYS19为14、15的样本，主要是14，而没有13，与以下事实是相符的：土耳其直接起源于中亚地区的乌古斯部落，而不是新疆的；而Italy的数据属于土耳其/Hazara这个簇。以上分析显示，古代月支人的Y-SNP中，有一部分是R1b1b-M73。R1b1b-M73的分布与古代部落月支的迁徙有关。

五、与突厥起源有关的其它单倍群。1、R1a1-M17。《周书·突厥传》称：“突厥之先出於索国” [24]。突厥西迁到中亚以后，融合了众多的当地居民。研究者检测叶尼塞河中游米努辛斯克盆地-克拉斯诺亚尔斯克地区5500至1800年前的古代DNA[25]，结果显示有高比例的R1a1-M17（11例中有10例）。这些地区，现在是突厥语人群聚居的地方（Altaians-Kizhi、Shors、Tofalars、Khakassians）。在这些人群中，同样可以检测到一定比例的R1a1[26]。因此，R1a1-M17也应该是突厥语人群中的重要组成部分。但是，M17下尚未能发现有效的区分人群的突变。按照最新的分类[26]，也只能大致区分出，东欧的R1a1与南西伯利亚的R1a1在STR上形成不同的簇，还无法与晚近的历史事件联系起来。

2、Q。我们还可以看到，文献[12]在土耳其发现了10例Q。Q被认为起源于中亚-阿尔泰地区[27]，现在在Kets（93.8%）和Selkups（66.4%）中比例较高[28]。Kets和Selkups被认为是来自目前居住地的南方--萨彦岭斜坡地区[29、30]（Kets所说的语言是一种孤立语，又有分类法称之为叶尼塞语系）。萨彦岭地区现在正是图瓦人聚居的地方。从Seielstad等[31]报道的欧亚大陆各人群中Q的比例看，Q在突厥语人群中的比例也是不小的，在图瓦人(Tuvinian)、土库曼人(Turkmen)和乌兹别克(Uzbek/Tashkent)中分别达到17%、10%、14%。特别是土库曼人，历史上与九姓乌古斯（九姓突厥）、塞尔柱突厥人的关系是密切的。而Uzbek族在形成的过程中，也融合了大量的突厥语部落，如克烈部、乃蛮部等[32]。而在属于乌拉尔语系的匈牙利人[33]的113个样本中，Q的数量（3例）多过N（1例N3）。甚至在同样源自东欧的Ashkenazi Jews[34]中，Q也达到5.2%。可见，N从南西伯利亚向西迁徙扩散的过程中，伴随着一定比例的Q。其中细节的故事必定更加引人入胜。

3、N3。根据“突厥之先出於索国”看来，突厥汗国的王族来自中亚的塞种。但是，突厥在早期就融合了铁勒部落阿史德氏，并且在降服了高车人五万部落之后才发展壮大。后来，异姓突厥也融合进来，使得“突厥人”几乎称为所有铁勒人的统称。突厥汗国的民众，大部分来源于丁零-铁勒诸部。考古学者，人类学者已经对雅库特人（Yakuts）和布里亚特人（Buryats）的起源做了研究。俄罗斯的考古证据证实[35]，公元五世纪中叶至六世纪初，贝加尔湖地区出现了一支灿烂的古代文化——骨利干（Kurykan，火儿罕），它的居民是操突厥语的游牧民，在公元第一个千年为文献所记录。基于多种文化因素的相似性，比如岩画、陶器、骑马的服饰、马缰的装饰以及民俗等等，人类学家认为，在公元11至13世纪蒙古人扩张之后，有一支骨利干人沿着勒拿河向北迁徙，融合了当地的土著居民，形成雅库特人[36、37]。研究表明，雅库特人有极高比例的N3（94%）[2]，全部都是N3a1[4] (以及本文评论的文献)。

根据历史记载[38]，古铁勒部落之一拔野古部（巴尔虎）最初居住在漠北，其后迁入贝加尔湖两岸。此时，强大的骨利干人已被豁里-秃马特（Polecat-tumat）打败，向更北方迁徙。此后，拔野古（巴尔虎）逐渐融合为蒙古部落，成为布里亚特族的一部分。文献[4]的数据表明，布里亚特人中的N几乎全部都是N3a2（97.6%），而完全没有与骨利干人有联系的N3a1，说明布里亚特地区的N3a2是N3a1消失以后来到那里的。文献[39]用强有力的数据说明了，布里亚特人的mtDNA类型是蒙古语群体和突厥语群体的类型的混合，从另一方面支持了以上融合的说法。

以上论证说明，丁零-铁勒诸部的主要Y-SNP类型N3a1、N3a2和N2-A。遗憾的是，至今仍未有萨莫耶德语族和楚瓦什人中N2的STR分析。萨莫耶德语诸民族中有很高比例的N2。楚瓦什语有原始突厥语的特征。更深入的研究有助于更清楚地了解N2在乌拉尔语人群和突厥语人群中的作用。另外，Karafet等[40]的论文显示，维吾尔族有高比例的R1b（17.6%）。中亚的其他人群也有高比例的R1xR1a1[41]，比如Uzbek/Kashkadarya的21%、Tajik/Khojant的32%。因为高加索类型的R1b1c的扩散范围很小[12]，因此这些个体都很有可能是R1b1b-M73。希望学者们在以后的研究中，更加关注R1b1b-M73。

兰海译《从东南亚到欧洲Y染色体单倍群N的反时针北方路线》

摘要：东欧和东亚人群的很大一部分Y染色体属于单倍群NO。 NO由两个姊妹单倍群组成：N-231和O-M175。O相当古老(约为30ky)，是东亚和东南亚男性谱系的最主要的单倍群，也是大洋洲男性的显著成分。另外，我们对于单倍群N的详细分析显示，N在东欧的高频是缘于很晚近的迁徙，这次迁徙约从1万2千到1万4千年前开始，由内亚/南西伯利亚出发，走一条逆时针的北部路线。N在西伯利亚广泛分布却没有在美洲土著发现, 这意味着它是在首次前往美洲的迁徙发生之后才开始扩散的。频率最高的下游单倍群N3，可能起源于今天的中国，然后在西伯利亚经历多次瓶颈效应最后扩散到东欧。另一个下游单倍群N2，形成了亚洲（N2-A）和欧洲（N2-E）两个不同的STR分支，N2-E现在主要分布在芬兰—乌戈尔语人群以及相关人群。这些系统地理分布状况提供的证据支持以下的事实：在晚更新世到全新世之间，东亚的旧石器时代谱系中，有多次以男性为主的沿逆时针路线一直到达西北欧洲的迁徙。

一、介绍。男性特有的Y染色体非重组区差异在世界范围内的分布，已经成为重建早期人类迁徙的重要手段。Y染色体的系统结构的分辨率随着新的双等位多态位点（大部分是单核苷酸多态－SNP）的发现变得越来越高。这些SNP不同的地理分布暗含着现有人群的历史关系的证据[1-5]。

单倍群NO是欧亚大陆上分布最广频率最高的Y染色体系统分支之一，它由SNP标记M-214定义（由Cinnioglu等[6]正确定义，如图1）。它包含没有可辨认的其他下游突变SNP标记的低频的NO*（见图2a）和两个高频的姊妹分支N和O，分别由SNP标记M231和M175定义（见图2b，c）。尽管O分支的系统地理分布已经被描述得相当清楚[7-10]，但是关于N的知识还相当贫乏，特别是它的起源、系统结构以及人口统计学的重要意义。图1：NO的系统结构NO及它的下游支系的系统结构以及定义它们的SNP标记。突变标记遵从YCC的命名规则。在系统结构的左边有各支系分离的年代。

二、材料与方法。样本与DNA分型：在这项研究中，根据最新的系统结构，来自不同地区58个人群的总共5389个样本被定型或重定型（92R7位点无突变而M9位点突变的样本都分析了M214、M231、M128、P43、TAT、M175）。这些样本和相关文献报道的8019个个体的数据一起进行了分析（数据见EJHG网上附表1）。突变标记遵从YCC的命名规则[1,4]。在已知的系统发生关系中，标记点M128、P43和TAT分别定义了N1、N2、N3三个分支[2,11,12]，图1的Y染色体分化树中仅有M231是最近被发现的（它定义整个N分支）。标记点M231在系统发生关系上等同于结构更复杂的LLY22g多态，后者以前被用来定义单倍群N。

标记点M128和M124[2、5]由点突变分型而定型，标记点M175[2]、P43[11]和TAT[12]通过RELP技术(内切酶限制性片段长度多态性)分别用限制酶MboⅡ、NlaIII、TaiⅠ来分型。M231最早由Cinniolu等[6]描述，最初是由高效液相色谱方法进行变性来分型。它的位点状态现在可以用RELP技术很快完成分型（切割酶TaiI切割G等位型，得到223bp和108bp片段，而不会切割C等位型从而得到331bp的片段）。STR用Y-filer系统(荧光标记复合扩增系统，Applied Biosystems, Foster City, CA, USA)进行分析。PCR分析是在ABI 3100Avant基因分析仪上用标准片段分析程序进行的。每个样本中都加入了GeneScan 500LIZ的长度标准(Applied Biosystems) 以便进行长度分级，使用GeneMapper3.5记录等位基因长度。等位基因长度被记录为重复数目。

数据分析：应用Network4.112，我们构建了单倍群NO的STR单倍型的中接(MJ)网络结构图。其中用到了17个STR的数据（DYS19、DYS385a,b、DYS389Ⅰ,Ⅱ、DYS390、DYS391、DYS392、DYS393、DYS437、DYS438、DYS439、DYS448、DYS456、DYS458、DYS635、Y GATA）以及58个个体的双等位标记（M231、M128、P43、TAT）的数据（见附表2）.单倍型的系统发生关系由中接网络结构(Median Joining Network)方法决定，在此之前，数据需要经过Bandelt[14]等描述的RM(reduced-median)法应用Network4.112处理。年代是基于STR的多态并根据报道的方法计算[15、16]得到的。

NO以及下游支系的突变型频率分布图2（黑点代表人群）是基于附表1的数据应用Surfer软件（版本7，Golden Software，Inc）分析得到的。图2：NO系的地理分布（a-g）NO各支系的空间频率分布：NO*、N(合计)，O(合计)，N*、N1、N2、N3。图示是基于附表1的数据。我们按照YCC的命名规则，在各个地图中标明了单倍群，并在其后注明了相应的突变标记。

三、结果与讨论。N2、N3与NO*、N、O的不同分布状态：单倍群N在欧亚大陆北部有独特且广泛的分布，从远东一直到东欧的高纬度地区都有高频的分布[11、12、17]。我们对来自欧洲、东亚/东南亚以及大洋洲等不同地区的样本，确定单倍群N、其下游支系以及姊妹单倍群O的SNP标记，并通过详细的谱系分析，研究了这个单倍群的历史。分析表明，尽管N很早就与O系分离，但单倍群N的下游支系显示了更晚近的人口扩散分布，与姊妹单倍群O有着完全不同的接近逆时针的迁徙路线。

尽管有不同的频率数值，祖先型超单倍群NO*-M214、N-M231*、以及高频的单倍群O-M175都一致而且明显指出，东南亚是最有可能的这些单倍群产生的地方。尽管超单倍群NO*比单倍群N*的频率要低得多[18、19]，但它大致与单倍群N*分布在东南亚的同一个区域（Kayser et al [19]中的数据在这里经过重新分型）。更值得注意的事实是，整个单倍群N与O的空间分布方向是非常不同的。N*与O分离的年代确定为3.47±0.47万千年前。东南亚单倍群O的STR年代大约超过2.6万年[10]，它的数个下游单倍群现在在东亚、东南亚人群占主导，一致延展到华北、中国东北和南西伯利亚人群[7、9、11、20、21]，并向西进入印度次大陆东部，向东达到大洋洲。

单倍群N下游支系的分布与扩散。单倍群N体现了很晚近的人口扩散事件。祖先型N*尽管频率很低，但广泛分布于斐济、文莱、柬埔寨、华南以及日本，一直到南部西伯利亚（附件1），但在印度半岛显然没有发现[10]。应用Zhivotovsky et al[15]的方法计算STR变异得到的年代指向更新世晚期到全新世早期之间（1.19±0.25～1.26±0.31万年），随分析涉及的SNP数量与STR基因座个数而变化（表1）。但是，我们也要注意到，N*的频率是很低的。

考虑到这些，综合N1、N2、N3的15个STR位点的数据，计算单倍群N的STR变异得到年代为1.94±0.48万年。但是正如下面将要提到的，欧洲的N2下游支系和雅库特的N3有可能分别来自一个单独的奠基者，后者可能在多个位点经历了多级跳跃突变，导致基于逐级突变模式的统计方式的计算结果有所偏差。排除这些染色体单倍群，单倍群N的STR分化程度就要小一些，年代为1.42±0.1万年。

基于进化差距估计和在家系中的观察得到的两种突变速率进行计算，得到的年代差异相当大（表1）。因为并没有在所有遗传学家中达成一致，因此本文中两种方法都作了估算。最近的模拟检验显示，家系速率并没有考虑人群动力学的进化结果，比如新产生的微卫星位点的快速消亡（Zhivotovsky，Underhill and Feldman[23]）。因此，基于家系速率计算得到的年代过于年轻，与考古学的证据不符。与此相关的其他因素有：1、调查偏差（在家系中没有观察到突变的研究较少发表）；2、位点之间的进化速率差异，家系速率得到的是进化速度最快的位点的平均速率；3、饱和度，进化速率的计算忽略了回复突变。

基于17个STR（附表2）与SNPs位点绘制的网络结构图（图3）显示了单倍群N的各下游单倍群的分布差异。尽管N2、N3已经出现在楚科奇人以及楚科奇半岛的尤匹克人等西伯利亚人群中，它们在美洲土著中却完全不存在[24-28]。这个发现说明，在大约1.2-1.7万年前，旧石器时代的西伯利亚人移民美洲的时候，单倍群N在他们中并不是占主要或是普遍的单倍型。但是也有可能单倍群N由于奠基者效应或者遗传漂变而在美洲消失，这种可能不能排除。

单倍群N3是N系最普遍的支系(图2g，附表1)，在几乎所有居住于欧亚大陆北部的人群中是最主要的染色体类型[11、12、17、26、30-35]，而在中国、韩国、文莱和日本频率很低[18、19]。尽管在亚洲北部人群中普遍存在，单倍群N在欧洲局限在北部和东部人群，在斯堪的那维亚以及立陶宛与波兰之间显示出快速的减少趋势(附表1以及[17]中的数据)。NO*和N*的人口地理分布以及N*在东南亚人群（华南、柬埔寨，见附表1）中的存在，表明这个区域应该是单倍群N的起源地。这样看来，阿尔泰山/萨彦岭/南西伯利亚地区就是单倍群N向西迁徙的中转站，因为现在还可以在那里找到N系的所有下游支系。

尽管N3在中国北部的频率很低并局限在少数人群中，但那里的STR方差却很高（0.26，8个位点的平均值：DYS19、DYS389I&II、DYS391、DYS392、DYS393、DYS439，数据来自Sengupta et al[10]），比阿尔泰和伏尔加—乌拉尔地区都高（分别是0.16、0.17），因此再一次说明，N3扩散的起源地是中国北部而不是南部西伯利亚。计算中国北部的N3的STR方差得到的年代为1.18±0.68万年，处在更新世与全新世之间。不过这一结果需要谨慎对待，因为由于这里N3的样本太少可能会导致很大的标准差。

根据我们的推论，在由西伯利亚迁往东欧的途中，N3类型的人群经历了奠基者效应或强烈的瓶颈效应。东北欧可以认为是N3二次扩张的地方。事实上，N3确实相当高频地存在于伏尔加-乌拉尔地区的乌戈尔语人群以及相关的芬兰人、萨米人和爱沙尼亚人中。应该注意到，伏尔加-乌拉尔地区人群的STR方差很低，而某些北欧人群的却很高（例如，芬兰人的0.32，数据来自[36]，不包含DYS385ab）。后者这么高的STR方差可能不是当地的奠基者类型长期演化的结果，而是多个不同的奠基者类型混合的结果。

东欧人群中有相当一部分的N3来自单一的祖先，他们处在N3 扩散的西部边界，倾向于有较低的STR方差。比如，在波罗的海地区的立陶宛/拉脱维亚人中，STR方差分别是0.12和0.09(5个位点的数据，[37])。一些欧洲人群N3的频率较低，同时却有较高的STR方差，比如非萨米人的挪威人（0.27，数据不包括DYS439）。这很可能是由于晚近来自毗邻的芬兰-乌戈尔人群的基因流动[36、38]。类似的情形在最近关于瑞典人Y染色体基因库的研究中也有报道[39]。

STR变异的系统结构分析得到了N3的两个重叠的支系（图3）。其一包含伏尔加-乌拉尔地区人群，说芬兰语以及突厥语的人群，还有阿尔泰人。另外一个包含波罗的-芬兰语人（爱沙尼亚人、卡里亚拉人、维普人），东斯拉夫人（俄罗斯人、乌克兰人）以及西斯拉夫的斯洛伐克人中的N3单倍型。雅库特人的染色体形成了自己的分支，他们总是与别的支系不同，与之前的研究一致[12、40]。

单倍群N2在西伯利亚人群中的分布没有规则，向西扩散到东欧，一直到波罗的海边的维普人和卡里亚拉人中。N2的最高频率在西北部西伯利亚人群中观察到：恩加纳桑人的92%，埃内茨人的78%和苔原涅涅茨人的74%[11]。在欧洲，N2在伏尔加—乌拉尔地区人群到达最高的20%[17]。N2扩散分布的最西边界是芬兰，在那里它的频率极低，只有0.4%[34]。有意思的是，N2在维普人语的小人群，生活在芬兰人、卡里亚拉人与爱沙尼亚之间。维普人是一个操芬兰中频率很高（17.9%）

N2单倍型的网络结构图展示了两个清晰的STR分支(图3：单倍群NO的中接网络结构图)，区分了欧洲和西伯利亚的支系，分别定义为N2-A和N2-E。我们可以应用Network 4.112，基于17个STR和58个个体的双等位标记的数据，构建了单倍群NO的中接网络结构图。每一个圆圈表示一个由一组STR定义的单倍型。圆圈的大小表示单倍型的比例，参见附表2。单倍型的标识如下（略）。

推知，最接近根部的亚洲支系N2-A首先产生，然后才产生了欧洲支系N2-E。尽管N2-A在多个STR位点上的重复数与N3的相同，但N2-E的重复数与N3差别很大（表2），说明欧洲的N2染色体来自一个单独的奠基者类型。我们甚至可以推测，可能有某个双等位点多态还没有被发现，而它可能是N2-E支系独有的。N2-A和N2-E都很年轻，STR方差计算得到的年代分别为0.62±0.20万年和0.68±0.29万年。更古老的N2-A的年代反而小一些，可以解释为在西伯利亚人群中有更强烈的瓶颈效应以及较少的样本量。事实上，西伯利亚土著居民的人口规模与东欧人群相比是相当小的；即便是人口众多的农业人口，雅库特人和布里亚特人只有数十万，而东欧的人群都有数百万以上[41、42]。表2：单倍群N各支系中信息量最大的STR标记点的重复数的中值高信息含量标记DYS389b的长度是由DYS389II 减去DYS389I得到的。

在我们的样本中，N2-E主要局限于伏尔加-乌拉尔地区，那里极可能是N2向北向东扩散的起源地（汉特人、曼西人，数据来自Stepanov et al[43]）。与西伯利亚西北N2-A的STR类型不同，西部的类型更多地属于N2-E。有意思的是，Cinniolu et al[6]中土耳其的14个个体属于亚洲支系N2-A(数据在本文经过更新)。这表明，N2由西伯利亚向西扩散至少有两个途径：其一向西北，穿过伏尔加-乌拉尔地区，产生了N2-E，可能主要通过芬-乌戈尔语人群扩散；其二N2-A，伴随突厥语人群向西南迁徙。因此，N2-A与N2-E的STR数据的不同，以及雅库特人STR数据的一致性，显示了冰后期的多重奠基事件的结果，特别是在人口密集的中亚。这一点与中亚被称为“瓶颈之地”的观点是一致。

N系最少的支系是N1(图2f )，低频分布于一些中亚人群、韩国人、华北汉族以及中国东北的鄂温克人。要想更多地了解这个支系的扩散和分布状况，我们需要按照现在系统树的分辨率进行更大规模的研究（早期的研究往往没有提供足够的数据）。

总之，Y染色体单倍群N说明了向东欧的基因流动，而它最初的起源地是东亚。单倍群N的迁徙故事里并没有伴随着类似的mtDNA：东南亚人群特异的mtDNA类型出现在东波罗的语人群中总的频率低于1%[17、45、46]。只有一些亚洲mtDNA的小分支，比如在阿尔泰/中亚多样性很高的Z1、D5，在一些北欧人群中超过1%，比如萨米人、芬兰人[17、45、46]。表2：土耳其群体单倍群N下游分支的重新分类。

佚名：闪含雅弗的后裔及其迁徙分布。

一、基因技术发展在追踪人类谱系的应用。从上世纪90年代开始，随着生物学的不断发展，分子人类学开始诞生，也就是通过人体的DNA来研究人群之间的关系。人有46条染色体，其中44条为常染色体，X、Y两条为性染色体。XY组合的为男性，XX组合的为女性，Y染色体只能父子相传，而女性线粒体DNA只能母女相传，通过研究Y染色体，可以比较清晰的发现人群的迁徙和发展，并追踪人类的谱系。1987年，美国加利福尼亚大学伯克利分校的丽贝卡-L-卡恩(Rebecca L.Cann)和艾伦-C-威尔逊(Allan C.Wilson)基于线粒体DNA的分析结果，发表了一篇震惊世界的论文：两位科学家在论文中指出，由于线粒体DNA只会由母亲遗传给后代，他们经过研究发现，所有人的祖先都可追踪到一位女性身上。那位现代人类的祖先就是 “夏娃”。2000年11月，韦尔斯等20多位学者应用新的寻找Y染色体的技术，在《自然遗传学》上发表的研究结果让我们所有的人，特别是人类学家和考古学家们都大吃一惊，我们现代人最早的男性祖先也只有一位，那就是“亚当”。领导全球-人类迁徙遗传地理图谱计划的人类基因组科学家斯宾赛-威尔斯说：我们都曾属于同一个祖先，仅仅是随着时间的流逝而被分离开来。他认为，世界上所有的现代人，无论是非洲人、亚洲人、美洲人、欧洲人，都是都是由同一祖先开始繁衍，并向世界各地扩散。我国分子人类学权威，复旦大学生命科学学院博士教授李辉说。“DNA中的遗传密码让亚当、夏娃离开了神话世界，变成了有血有肉的人。他们成了包括中国人在内的所有人的祖先”。基因检测发现，全世界男性由一位“亚当”而来，全世界女性由一位“夏娃”而来，这完全符合圣经的记载。

二、闪含雅弗族群原始单倍体基因的推测。根据人类的Y染色体的基因检测与谱系追踪，发现早期出现突变的单倍体分别有M168、M130、M96、M89、M9等，其中M130和M96从M168分支而来。M9之前有M89，M89之前有M168。它们都位于人类Y染色体谱系树的根部，现今所有人类的Y染色体单倍体类型都是在他们的基础上突变发展而来。根据圣经记载，洪水审判世界之后，全地的人都被洪水所灭，只有挪亚一家八口得以存活。人类有了第二次的开始。从此全世界人口全部由挪亚三个儿子繁衍而来。按照男性基因遗传，应该有三大基因族群，闪族、含族、雅弗族。按全世界人口基因检测结果，如果要把人类分为三大族群，那么这三大族群的突变基因应该是M168、M89和M9。

M168族群主要分布于非洲，这与圣经记载含的子孙分布区域相符。圣经上记载（创10:6）含的儿子是古实、麦西、弗、迦南。古实的原义是“黑”的意思，居住地是埃提阿伯，即现今的埃塞俄比亚；麦西的原文是“埃及”，为双数的名词，因有上埃及和下埃及之分，但通常都特指下埃及而言；弗的意义不明，可能是指埃及西区，即现今的利比亚之地；迦南的原义是“低地”的意思，所指的是约但河西沿地中海的低地。根据这些地理分布，可以推测M168族群是含的后代。M168是最古老的族群，包含A到E的单倍体遗传标记。

M89族群主要分布于中东、两河流域，包含F到J的单倍体遗传标记。犹太人的基因检测就是属于其中分支J单倍体，可以肯定M89族群就是闪的后代，因为犹太人属于希伯来民族，就是闪的后代。圣经上记载（创10:21-22）雅弗的哥哥闪，是希伯子孙之祖，他也生了儿子。闪的儿子是以拦、亚述、亚法撒、路德、亚兰。以拦的原义是“年岁”或“隐藏”的意思，居住地是在波斯湾的北部地区；亚述的原义是“平原”的意思，在底格里斯河西岸；亚法撒的原义是“迦勒底的坚堡”，是迦勒底人的祖先，居住地则可能在底格里斯河中游的东边，即在尼尼微和利鲜的东面；亚兰的原义是“高地”的意思，原本是居住在叙利亚北部、幼发拉底河东北区高地的民族。根据这些地理分布，可以推测M89族群是闪的后代。闪可能是含的弟弟，在M89突变前就带有M168。

M9族群的分布在非洲中东非常少见，主要在欧洲等其他区域，这与圣经所记载雅弗的子孙分布的区域相符。圣经上记载（创10:2）雅弗的儿子是歌篾、玛各、玛代、雅完、土巴、米设、提拉。歌篾的原义是“完全”或“热”的意思，居住地似在小亚细亚的东北部；玛各的原义是“北边的地方”的意思，居住地大概在高加索的东南部；玛代的原义是“中间的国”或“我的衣服”的意思，居住地是现今的伊朗；雅完的原义是“泥土”或“起泡”的意思，为希腊的古称；土巴的原义是“繁殖”或“传播”的意思，在亚兰的西北、歌篾的东南偏东，即今土耳其的东部；米设的原义是“被抽出”或“所有物”的意思，在歌篾的南方，即今塞蒲路斯岛北边对面海的大陆南端之地；提拉的原义是“欲望”的意思，地点不详，但一般都认为是在希腊北端的东欧之地。根据雅弗子孙居住地的地理分布，可以推测M9族群就是雅弗的后代。雅弗是闪的弟弟，在M9突变标记之前，已经带有M89和M168标记。圣经记载挪亚子孙闪含雅弗分布图，根据地理分布推测到的闪含雅弗的突变单倍体标记。

三、按照肤色判断闪含雅弗子孙的错误。人们判断闪含雅弗子孙，常常简单又错误地划分为黑种人、黄种人、白种人。人类的种族不能单单按肤色来判定。肤色基本上是种族中仅有的生物学差异。科学还不能肯定是什么原因引起了色素沉着，他们不能肯定是细胞色素结构的差异，这一表面的区别成为了人种划分的基础。但事实上，我们所有人都是同一肤色，只不过有些人肤色更深一些。肤色变化是由于皮肤中称为黑色素的物质，黑色素增多，肤色越深。我们并不是生来就有遗传性的固定数量的黑色素，相反地是因为对阳光照射的反应，使黑色素的数量不断增加。这就是高加索人种在长期暴晒太阳后成棕褐色的原因；混血儿的肤色可以很黑、很白，也可能是中间型的任何一种，在自由混种的个体中突出的变化应该是褐色。事实显示，一对中等程度褐色的父母可能产出所有已知的肤色，有的很白、有的很黑。2005年4月出生的霍奇森家双胞胎Remee和Kian，2006年7月出生的理查森家双胞胎Layton和Kaydon（见下面照片），均出现“白种与黑种混合”的双胞胎；更不可思议的是杜拉家族的Alison和Dean竟生下两对混种双胞胎，他们第一对双胞胎出生于2001年，第二对生于2008年11月（见照片）。Hodgson Twins霍奇森家双胞胎、Richardson Twins理查森家双胞胎 Durrant Twins (times two) 杜拉家两对双胞胎。

黑、白、黄种人与家族的Y染色体单倍体无关，肤色相同的，可能Y染色体单倍体不同；相反的，肤色不同Y染色体单倍体也有可能相同。因为肤色等性状不是有y染色体决定的，而是有其他常染色体决定的。也就是说，肤色等特性并非一定由男性祖先而来，是由男女基因组合混杂所决定的。肤色等特性也不能肯定的由男性传给子孙后代，能肯定传给后代的只有Y染色体的单倍体突变。昆塔纳-默齐说：“在我看来，世界上并没有种族之分，只有地域限制。从遗传学来说，不论是欧洲人还是亚洲人，爱尔兰人还是日本人，都没有非常明显的差异。”圣经的观点中并没有白种人、黑种人、黄种人等等的存在。我们不能按照白种人、黑种人、黄种人来区分闪、含、雅弗的后代。不同的是，有三种特征差异明显的三个家族，之后形成了最古老的民族谱表。关于现今世界人口的起源和洪水后人口的扩散，圣经创世纪10章的记载是完全可信的描述，其本身就是历史文献。这里我们学习了人类的真正划分，显示了现代世界的人口是如何而来的。这里挪亚后代的列表，更多的是神学意义上的，而不是遗传方面的，所有我们必须知道，挪亚后代的存在是由于他是义人。

四、按基因判定闪含雅弗后代的地理分布。为了研究Y染色体的单倍体类型，科学家们绘制了人类Y染色体谱系树，我们按着Y染色体单倍体的不同把全人类（包括非洲）分为18个类型（用从A到R18个字母代表），出现频率高，数量多的类型单独列出（如O、N），把小概率出现的类型列入上级母类（如F、P）。M168下游包含了A-E的单倍体类型；M89下游包含了F-J的单倍体类型；M9下游包含了K-R的单倍体类型。根据他们各自下游单倍体类型的地理分布，我们就知道闪含雅弗后代各自在现今世界的地理分布。

1、按基因判定含的后代地理分布：含的M168单倍体下游包含了A-E的单倍体类型，根据他们的地理分布，就知道现今世界含的后代的地理分布。

A*：Y染色体最古老的分支，只分布在非洲。

B-M60：只分布在非洲，如俾格米人。

C-M130：较早期到达东亚的人群，高频于阿尔泰语系的蒙古、满、哈萨克斯坦等族及澳大利亚土著等，汉人中通常5-10%。

D-M174：较早期到达东亚的人群，在西藏、日本等地将近一半，在汉族和南方少数民族也有较低比例分布。

D1-M15：藏族及周边民族较高频、汉族及南方部分少数民族有较低比例分布。

D2-M55：仅分布于日本，占日本40%以上，绳文人的主要成分。

D3-P99：青藏高原东部（康区）、白马人及纳西族等高频。

E：非洲高频，南欧及中东有一定分布，中国极少。

根据含的后代各单倍体类型的分布可知，现今世界中含的后代主要还是分布于非洲，其他较多分布的地方有阿尔泰语系的蒙古、满、哈萨克斯坦等族及澳大利亚土著，青藏高原东部（康区）、白马人及纳西族等，在西藏、日本等地将近一半，汉人中也有10%，南欧及中东也有一定分布。如果您的Y染色体单倍体类型属于A-E类型范围内，您就属于含的后裔了。

2、按基因判断闪的后代地理分布：

F*-M89（G至T的祖群）：中国零星分布，个别少数民族高频。

G：土耳其、高加索、哈萨克斯坦斯坦西部高频，中国零星分布。

H：印度次大陆，中国极少。

I：主要分布在欧洲，北欧和巴尔干高频，中国极少。

J：阿拉伯、犹太人等高频，中国零星分布，回族中有一定比例。

3、按基因判定雅弗的后代地理分布：

K*-M9（L至T的祖群）：中国零星分布，个别少数民族高频。

L：西亚至南亚低频分布。

M：新几内亚土著和美拉尼西亚。

N-M231：较晚期到达东亚的人群。阿尔泰语系、芬兰人等中高频分布，在中国广泛分布，汉人中通常10%以下，部分少数民族中较高频。

N1c-Tat：乌拉尔语系的标志性单倍群，中国少量分布。

O-M175：较晚期到达东亚的人群，广泛高频分布于东亚，占汉族75%以上。

O1a-M119：中国东南沿海、壮侗族群、台湾原住民分布较集中，东南亚岛屿也有广泛分布。

O2-M268：汉族中5%以上。

O2a1-M95：华南、南方少数民族、中南半岛及印度Munda人群分布较多。

O2b-M176：最主要集中于朝鲜半岛、朝鲜族和日本弥生人，越南和汉族也有少量分布。

O3-M122：中国最常见的单倍群，遍及整个东亚和东南亚，占汉族50-60%左右。

O3a1c-002611：汉族常见类型，占汉族15%以上。

O3a2b-M7：苗瑶族群特征类型，通常占汉族5%以下。

O3a2c1-M134：汉族30%左右，广泛分布于东亚、东南亚。

O3a2c1a-M117：汉族和藏缅语族的特征类型，汉族15%以上。

P*-M45（Q和R的祖群）：很少见。

Q-M242：印第安人的绝大部分，北亚一些群体高频，汉族2%左右。

R-M207：印欧语系的主要群体，高频分布于欧洲至中亚、南亚，汉族2%左右，中国部分少数民族较高。

五、世界语系的产生人类大迁徙

1、闪。闪-含语系：主要分布在西亚和北非地区，主要使用者是阿拉伯和埃及人，包括两个语族：闪语族和含语族。前者包括希伯来语、阿拉伯语等；后者包括古埃及语、豪萨语等。闪-含语系：E3、J1。

高加索语系：这一语系的语言分布在高加索一带，主要的语言有格鲁吉亚语、车臣语等。高加索语系：G，格鲁吉亚单倍群。

达罗毗荼语系：又称南印度语系，主要分布在印度东南部和斯里兰卡的北部地区。主要有泰米尔语、马拉亚兰语、卡纳雷语、泰卢固语等二十种语言。达罗毗荼语系：H。

2、含。阿尔泰语系：主要分布在中亚和中国的东北、西北地区，以及土耳其、阿富汗、哈萨克斯坦、蒙古等国。起源于蒙古的阿尔泰山脉的阿尔泰语系：C3。阿尔泰语系包括3个语族：突厥语族（新疆）：R1a、R1b、J2；蒙古语族：C3；通古斯-满洲语族：C3c+O2b。

马来语系：又称南岛语系，主要分布在太平洋群岛、东南亚地区和中国的台湾等地。包括4个语族：印度尼西亚语族、美拉尼西亚语族、密克罗尼西亚语族和玻里尼西亚语族。马来语系：C2、C4、M、S。

3、雅弗。印欧语系：最大的语系，使用人口约占世界人口的一半。下分印度、伊朗、日耳曼、拉丁、斯拉夫、波罗的海等语族。印欧语系：R。印度语族（包括梵语、印地语、巴利语等）：R1a、R2；日耳曼语族（包括英语、德语、荷兰语、斯堪的纳维亚半岛各主要语言）：R1b。拉丁语族（包括法语、意大利语、西班牙语、葡萄牙语和罗马尼亚语）：拉丁语族，其实该是I2才对，把拉丁语规划印欧语系是错误的；波罗的海语族（包括拉脱维亚语和立陶宛语）：R1a。伊朗语族包括波斯语、阿富汗语等；斯拉夫语族（俄语、保加利亚语、波兰语）。

汉藏语系：分布在亚洲东南部，使用人口有十几亿。包括汉语、藏语、缅甸语、克伦语、壮语、苗语、瑶语等。汉藏语系：O3、O2、O1。

乌拉尔语系：主要分布在芬兰、匈牙利、捷克、前苏联和前南斯拉夫境内。包括两个语族：芬兰-乌戈尔语族和撒莫狄语族。乌拉尔语系：N1、N1a、N1b、N1c。

南亚语系。主要分布在缅甸、柬埔寨、印度东北部和中国的云南一带。包括两个语族：孟-高棉语族和蒙达语族。南亚语系：02+01。

北美印第安诸语言：QM3。中南美印第安诸语言：Q1。

非洲尼日尔-刚果语系：E1；科伊桑语系科伊桑语系：A。

后一篇：转发《晚期智人在中国出现的时间应不晚于西亚和南非》

新浪BLOG意见反馈留言板　欢迎批评指正

转发《Y-D与线粒体N系在东亚的分布（兰海陈致勇）》

社会

兰海：Y染色体单倍群D在东亚的分布及其意义 -道客巴巴

单倍群C(线粒体DNA单倍群C)_百度百科

单倍群D(Y染色体DNA单倍群D)_百度百科

莫如波：从分子人类学图表分析日本人的起源

转发一些人类学文章之一_HSBSJL_新浪博客

转发一些人类学文章十七_HSBSJL_新浪博客

转发一些古代黑色人种的文章_HSBSJL_新浪博客

杨洋：东亚人群线粒体N系单倍群的迁徙分化.word

科学网：川西羌语支人群的遗传结构 -王传超的博文

杰青最新文章解析人类分子遗传学 -Y-染色体|单倍群

人类Y染色体DNA单倍型类群_圣教傳統復興_新浪博客

严实：Y染色体携带的历史-访谈-生物探索

人類學雜記（严实）共47篇_polyhedron_新浪博客

Polyhedron（严实）的人类学杂记_James_新浪博客

Polyhedron（严实）的人类学杂记（再续）_James_新浪博客

Polyhedron（严实）的人类学杂记（再再续）_James_新浪博客

Y染色体DNA单倍型类群\人类线粒体DNA单倍型类群_新浪博客

【兰海人类学】2《史前文化迁徙的环境思考》_牛宝宝的文章

香港\印度支那母系mt-DNA分布图：mt-M7是第一大单倍群_分子人类学

林雪晶：作为东亚人群遗传底层代表的白马人的母系遗传谱系分析 -豆丁网

转发《Y-D与线粒体N系在东亚的分布（兰海陈致勇） 》

社会

【兰海人类学】2《史前文化迁徙的环境思考》_牛宝宝的文章

转发《Y-D与线粒体N系在东亚的分布（兰海陈致勇）》