[转载]人類學雜記——36. “天下x姓是一家”是眞的麼？_李沣的博客

http://blog.sina.com.cn/u/1710207843

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

[转载]人類學雜記——36. “天下x姓是一家”是眞的麼？

(2018-11-02 09:06:34)

标签：

转载

分类：史学讨论

用自然科学的方法研究姓氏很有必要.

原文地址：人類學雜記——36. “天下x姓是一家”是眞的麼？作者：polyhedron

（溫馨提示：簡化字版本見後。）

我們經常能看到“天下x姓是一家”、“漢後無二劉”之類的說法，有時候這只是一種套近乎的說法，但還是有一些人確實相信有某個姓的人都有同一個祖先，或者至少大多數人都是從同一個祖先下來的。自然，從文獻上來看，大多數姓氏都有多種得姓來源，收養、入贅等情況也會有的，但同時也可能有一些文獻上有的來源實際上絕後了。那到底一個姓的人有多少生物學意義上的同宗呢？本文從實際數據出發，定量地檢査一下。

先說怎麼定義同宗。因爲理論上講，現代任意兩個男人的父系往上推，總有某一代是有個共同的爺爺的，但問題在於這個最近的共同祖先是6万年前的還是600年前的。如果兩個人是6万年前的共祖，自然不能算同宗了，否則全中國的人都是同宗了。這裏我們可以取一個界線，比如2000年，因爲先秦時是古姓（姬、姜、嬴、芈、子、嬀、風……等等）的系統，姓下再別氏，而到了秦以後姓氏合一，很多以前的氏成了後來的姓。也就是現在的姓主要形成的年代應該就在2000年前左右（盡管不排除更早或更晚的）。最近共祖在先秦或更遠的，在本文裏就先不算同宗了。這樣，按我平時的分類，分屬不同大單倍羣的，都分開上万年了，都不算同宗。再比如，如果兩個人都是五大超級祖先中其中一個的後代，因爲這五簇的形成也至少是4000年，所以不同簇的人不屬同宗，同簇但在簇下直接分開的也不屬同宗，只有同小支的人纔可能是同宗。

再說同宗度的計算。定義就是：從一個羣體（比如一個姓氏）裏面隨機揪兩個人出來，看他們有多大的概率是同宗的。比如有10個人，他們都屬於同一個類羣，那麼同宗度就是1，就是100%同宗，而如果每個人所屬的類羣均不相同，那麼同宗度就是0。如果10個人裏包含兩類，各5個人，那麼同宗度是(5*4+5*4)/(10*9) = 0.44。而如果10個人裏有9個人都一樣，只有一個不同，那麼同宗度是(9*8+1*0)/(10*9) = 0.80。也就是說，即使類羣數固定，同宗度也是隨分佈而變的，越是一個種類獨大，同宗度越高。通用的計算公式是：

其中，l就是同宗度，R是類羣數，n_i是第i個種類的樣本數，N是樣本總數。如果只有兩個樣本，同宗度只能是1（兩個人同宗）或0（兩個人不同宗）。但當樣本數加大，採樣又滿足隨機的話，同宗度會逐漸趨近於一個穩定值。

因爲我們實驗室在做曹操後代的硏究中採集了大量曹姓樣本，且結果已經公開過了，我這裏列舉一些樣本量達到5個的村子的結果：

安徽亳州某村曹姓：樣本量8，同宗度0.75；

安徽亳州某村曹姓：樣本量5，同宗度0.20；

安徽舒城某村曹姓：樣本量20，同宗度1；

安徽舒城某村曹姓：樣本量6，同宗度0.67；

安徽歙縣某村曹姓：樣本量5，同宗度1；

安徽績谿某村曹姓：樣本量5，同宗度0.60；

江西大庾某村曹姓：樣本量12，同宗度1；

江西南昌縣某村曹姓：樣本量7，同宗度0.71；

廣東南雄某村曹姓：樣本量5，同宗度0.20；

遼寧鐵嶺某村曹姓：樣本量5，同宗度1；

湖南瀏陽某村曹姓：樣本量7，同宗度0.19；

山東東阿某村曹姓：樣本量5，同宗度1；

山東菏澤某村曹姓：樣本量5，同宗度1；

浙江富陽某村曹姓：樣本量9，同宗度0.78；

浙江義烏某村曹姓：樣本量6，同宗度0.27；

浙江義烏某村曹姓：樣本量9，同宗度1；

浙江金華某村曹姓：樣本量6，同宗度0.40；

浙江浦江某村曹姓：樣本量10，同宗度0.47。

基本來說，結果是比較一致的，很多村子做出來的結果都是完全一致的，有不全一致的，多數也是有一個主體類型，偶爾有一兩個跟主體不一致的，這樣一般同宗度會在0.4以上。而這些村子的建村年代普遍是明朝初年，距今600餘年了。18個村子裏只有4個村子的同宗度小於0.4，也就是類型比較雜、沒有主體類型的。後來，我也在一些其他姓氏裏見過一些樣本量達到5，但同宗度爲0的不幸情況，但這種還是很罕見的。

如果是到一個縣級範圍，情況就有很大變化了。因爲我們比較難做到在一個縣的範圍內隨機採樣，很可能是以一兩個村爲主，這裏的數據僅供參攷：

安徽舒城曹姓（採樣村較集中）：樣本量62，類羣10，同宗度0.41；

湖南瀏陽曹姓（採樣村較集中）：樣本量19，類羣10，同宗度0.08；

湖南龍山土家族彭姓（採樣分散）：樣本量16，類羣7，同宗度0.31；

湖南鳳凰苗族龍姓（採樣分散）：樣本量13，類羣4，同宗度0.58；

湖南鳳凰苗族吳姓（採樣分散）：樣本量5，類羣2，同宗度0.60；

湖南會同侗族楊姓（採樣分散）：樣本量6，類羣5，同宗度0.07；

大理白族楊姓（採樣分散）：樣本量7，類羣6，同宗度0.05。

也就是說，當範圍從村擴大到縣，就經常能見到不同的類別了，同宗度也大爲下降了，尤其漢、侗、白族等的同宗度很低了（舒城曹的同宗度高有一定原因是採樣村集中，但不同鄉鎭之閒仍然常見同宗的情形）。但有一些，如龍山土家彭，以及鳳凰苗族的龍姓和吳姓，即使在全縣的範圍，同宗度仍然很高。

至於樣本擴大到全國，統計難度就很大了，尤其經常見到17 STR差五六步的，不細測SNP沒法說算兩千年以內還是以上的。但大家從我公佈的 #每周一姓# 至少能計算出一個同宗度的最大值。舉例來說，本周公佈的漢族黃姓，總樣本量37，分佈爲C: 2, N: 4, O1: 2, O2*: 1, O2a: 4, O3*: 1, O3a1*: 1, O3a1c: 8, O3a2*: 1, O3a2b: 1, O3a2c1*: 6, O3a2c1a: 5, Q: 1。那麼即使每一大類都算同宗，同宗度也只有0.10，實際上仔細看STR，同宗度還遠低於這個值。

劉姓裏有一些對於測Y染色體非常積極的人士通過QQ羣宣傳和積累了大量劉姓結果，稱目前“劉姓356人中測出43個不同支”，而且其中完全看不出某一支能占劉姓的主體。其實各個大中型的姓氏全都是如此，全國勻着採，樣本量大於10還能有0.1以上的同宗度就很不錯了。目前在全國測了幾個省的樣本還能夠完全同宗的仍只有一個操（讀去聲）姓。

既然如此，很多人也不必擔心測Y染色體會造成同姓氏的分裂了，因爲反正本來就只有很低的概率眞的是同宗。除非是同村的同姓，可能測出來不一樣會不太方便。反而，如果通過測Y染色體，碰巧能找到失聯的遠房同宗，不是意外之喜麼？（本人剛巧有實際成功經歷。）

===============以下是簡化字版本=================

我们经常能看到“天下x姓是一家”、“汉后无二刘”之类的说法，有时候这只是一种套近乎的说法，但还是有一些人确实相信有某个姓的人都有同一个祖先，或者至少大多数人都是从同一个祖先下来的。自然，从文献上来看，大多数姓氏都有多种得姓来源，收养、入赘等情况也会有的，但同时也可能有一些文献上有的来源实际上绝后了。那到底一个姓的人有多少生物学意义上的同宗呢？本文从实际数据出发，定量地检查一下。

先说怎么定义同宗。因为理论上讲，现代任意两个男人的父系往上推，总有某一代是有个共同的爷爷的，但问题在于这个最近的共同祖先是6万年前的还是600年前的。如果两个人是6万年前的共祖，自然不能算同宗了，否则全中国的人都是同宗了。这里我们可以取一个界线，比如2000年，因为先秦时是古姓（姬、姜、嬴、芈、子、妫、风……等等）的系统，姓下再别氏，而到了秦以后姓氏合一，很多以前的氏成了后来的姓。也就是现在的姓主要形成的年代应该就在2000年前左右（尽管不排除更早或更晚的）。最近共祖在先秦或更远的，在本文里就先不算同宗了。这样，按我平时的分类，分属不同大单倍群的，都分开上万年了，都不算同宗。再比如，如果两个人都是五大超级祖先中其中一个的后代，因为这五簇的形成也至少是4000年，所以不同簇的人不属同宗，同簇但在簇下直接分开的也不属同宗，只有同小支的人才可能是同宗。

再说同宗度的计算。定义就是：从一个群体（比如一个姓氏）里面随机揪两个人出来，看他们有多大的概率是同宗的。比如有10个人，他们都属于同一个类群，那么同宗度就是1，就是100%同宗，而如果每个人所属的类群均不相同，那么同宗度就是0。如果10个人里包含两类，各5个人，那么同宗度是(5*4+5*4)/(10*9) = 0.44。而如果10个人里有9个人都一样，只有一个不同，那么同宗度是(9*8+1*0)/(10*9) = 0.80。也就是说，即使类群数固定，同宗度也是随分布而变的，越是一个种类独大，同宗度越高。通用的计算公式是：

其中，l就是同宗度，R是类群数，n_i是第i个种类的样本数，N是样本总数。如果只有两个样本，同宗度只能是1（两个人同宗）或0（两个人不同宗）。但当样本数加大，采样又满足随机的话，同宗度会逐渐趋近于一个稳定值。

因为我们实验室在做曹操后代的硏究中采集了大量曹姓样本，且结果已经公开过了，我这里列举一些样本量达到5个的村子的结果：

安徽亳州某村曹姓：样本量8，同宗度0.75；

安徽亳州某村曹姓：样本量5，同宗度0.20；

安徽舒城某村曹姓：样本量20，同宗度1；

安徽舒城某村曹姓：样本量6，同宗度0.67；

安徽歙县某村曹姓：样本量5，同宗度1；

安徽绩溪某村曹姓：样本量5，同宗度0.60；

江西大庾某村曹姓：样本量12，同宗度1；

江西南昌县某村曹姓：样本量7，同宗度0.71；

广东南雄某村曹姓：样本量5，同宗度0.20；

辽宁铁岭某村曹姓：样本量5，同宗度1；

湖南浏阳某村曹姓：样本量7，同宗度0.19；

山东东阿某村曹姓：样本量5，同宗度1；

山东菏泽某村曹姓：样本量5，同宗度1；

浙江富阳某村曹姓：样本量9，同宗度0.78；

浙江义乌某村曹姓：样本量6，同宗度0.27；
浙江义乌某村曹姓：样本量9，同宗度1；

浙江金华某村曹姓：样本量6，同宗度0.40；

浙江浦江某村曹姓：样本量10，同宗度0.47。

基本来说，结果是比较一致的，很多村子做出来的结果都是完全一致的，有不全一致的，多数也是有一个主体类型，偶尔有一两个跟主体不一致的，这样一般同宗度会在0.4以上。而这些村子的建村年代普遍是明朝初年，距今600余年了。18个村子里只有4个村子的同宗度小于0.4，也就是类型比较杂、没有主体类型的。后来，我也在一些其他姓氏里见过一些样本量达到5，但同宗度为0的不幸情况，但这种还是很罕见的。

如果是到一个县级范围，情况就有很大变化了。因为我们比较难做到在一个县的范围内随机采样，很可能是以一两个村为主，这里的数据仅供参考：

安徽舒城曹姓（采样村较集中）：样本量62，类群10，同宗度0.41；

湖南浏阳曹姓（采样村较集中）：样本量19，类群10，同宗度0.08；

湖南龙山土家族彭姓（采样分散）：样本量16，类群7，同宗度0.31；

湖南凤凰苗族龙姓（采样分散）：样本量13，类群4，同宗度0.58；

湖南凤凰苗族吴姓（采样分散）：样本量5，类群2，同宗度0.60；

湖南会同侗族杨姓（采样分散）：样本量6，类群5，同宗度0.07；

大理白族杨姓（采样分散）：样本量7，类群6，同宗度0.05。

也就是说，当范围从村扩大到县，就经常能见到不同的类别了，同宗度也大为下降了，尤其汉、侗、白族等的同宗度很低了（舒城曹的同宗度高有一定原因是采样村集中，但不同乡镇之间仍然常见同宗的情形）。但有一些，如龙山土家彭，以及凤凰苗族的龙姓和吴姓，即使在全县的范围，同宗度仍然很高。

至于样本扩大到全国，统计难度就很大了，尤其经常见到17 STR差五六步的，不细测SNP没法说算两千年以内还是以上的。但大家从我公布的 #每周一姓# 至少能计算出一个同宗度的最大值。举例来说，本周公布的汉族黄姓，总样本量37，分布为C: 2, N: 4, O1: 2, O2*: 1, O2a: 4, O3*: 1, O3a1*: 1, O3a1c: 8, O3a2*: 1, O3a2b: 1, O3a2c1*: 6, O3a2c1a: 5, Q: 1。那么即使每一大类都算同宗，同宗度也只有0.10，实际上仔细看STR，同宗度还远低于这个值。

刘姓里有一些对于测Y染色体非常积极的人士通过QQ群宣传和积累了大量刘姓结果，称目前“刘姓356人中测出43个不同支”，而且其中完全看不出某一支能占刘姓的主体。其实各个大中型的姓氏全都是如此，全国匀着采，样本量大于10还能有0.1以上的同宗度就很不错了。目前在全国测了几个省的样本还能够完全同宗的仍只有一个操（读去声）姓。

既然如此，很多人也不必担心测Y染色体会造成同姓氏的分裂了，因为反正本来就只有很低的概率真的是同宗。除非是同村的同姓，可能测出来不一样会不太方便。反而，如果通过测Y染色体，碰巧能找到失联的远房同宗，不是意外之喜么？（本人刚巧有实际成功经历。）

首發於2014.11.16，新浪博客

阅读┊ 收藏 ┊转载原文 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：[转载]伯夷至姜太公世系多系伪造

后一篇：梅兰芳故居

新浪BLOG意见反馈留言板　欢迎批评指正