加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

[转载]人類學雜記——36. “天下x姓是一家”是眞的麼?

(2018-11-02 09:06:34)
标签:

转载

分类: 史学讨论
用自然科学的方法研究姓氏很有必要.
(溫馨提示:簡化字版本見後。)

我們經常能看到“天下x姓是一家”、“漢後無二劉”之類的說法,有時候這只是一種套近乎的說法,但還是有一些人確實相信有某個姓的人都有同一個祖先,或者至少大多數人都是從同一個祖先下來的。自然,從文獻上來看,大多數姓氏都有多種得姓來源,收養、入贅等情況也會有的,但同時也可能有一些文獻上有的來源實際上絕後了。那到底一個姓的人有多少生物學意義上的同宗呢?本文從實際數據出發,定量地檢査一下。

先說怎麼定義同宗。因爲理論上講,現代任意兩個男人的父系往上推,總有某一代是有個共同的爺爺的,但問題在於這個最近的共同祖先是6万年前的還是600年前的。如果兩個人是6万年前的共祖,自然不能算同宗了,否則全中國的人都是同宗了。這裏我們可以取一個界線,比如2000年,因爲先秦時是古姓(姬、姜、嬴、芈、子、嬀、風……等等)的系統,姓下再別氏,而到了秦以後姓氏合一,很多以前的氏成了後來的姓。也就是現在的姓主要形成的年代應該就在2000年前左右(盡管不排除更早或更晚的)。最近共祖在先秦或更遠的,在本文裏就先不算同宗了。這樣,按我平時的分類,分屬不同大單倍羣的,都分開上万年了,都不算同宗。再比如,如果兩個人都是五大超級祖先中其中一個的後代,因爲這五簇的形成也至少是4000年,所以不同簇的人不屬同宗,同簇但在簇下直接分開的也不屬同宗,只有同小支的人纔可能是同宗。

再說同宗度的計算。定義就是:從一個羣體(比如一個姓氏)裏面隨機揪兩個人出來,看他們有多大的概率是同宗的。比如有10個人,他們都屬於同一個類羣,那麼同宗度就是1,就是100%同宗,而如果每個人所屬的類羣均不相同,那麼同宗度就是0。如果10個人裏包含兩類,各5個人,那麼同宗度是(5*4+5*4)/(10*9) = 0.44。而如果10個人裏有9個人都一樣,只有一個不同,那麼同宗度是(9*8+1*0)/(10*9) = 0.80。也就是說,即使類羣數固定,同宗度也是隨分佈而變的,越是一個種類獨大,同宗度越高。通用的計算公式是:
[转载]人類學雜記——36. <wbr>“天下x姓是一家”是眞的麼?
其中,l就是同宗度,R是類羣數,ni是第i個種類的樣本數,N是樣本總數。如果只有兩個樣本,同宗度只能是1(兩個人同宗)或0(兩個人不同宗)。但當樣本數加大,採樣又滿足隨機的話,同宗度會逐漸趨近於一個穩定值。

因爲我們實驗室在做曹操後代的硏究中採集了大量曹姓樣本,且結果已經公開過了,我這裏列舉一些樣本量達到5個的村子的結果:
安徽亳州某村曹姓:樣本量8,同宗度0.75;
安徽亳州某村曹姓:樣本量5,同宗度0.20;
安徽舒城某村曹姓:樣本量20,同宗度1;
安徽舒城某村曹姓:樣本量6,同宗度0.67;
安徽歙縣某村曹姓:樣本量5,同宗度1;
安徽績谿某村曹姓:樣本量5,同宗度0.60;
江西大庾某村曹姓:樣本量12,同宗度1;
江西南昌縣某村曹姓:樣本量7,同宗度0.71;
廣東南雄某村曹姓:樣本量5,同宗度0.20;
遼寧鐵嶺某村曹姓:樣本量5,同宗度1;
湖南瀏陽某村曹姓:樣本量7,同宗度0.19;
山東東阿某村曹姓:樣本量5,同宗度1;
山東菏澤某村曹姓:樣本量5,同宗度1;
浙江富陽某村曹姓:樣本量9,同宗度0.78;
浙江義烏某村曹姓:樣本量6,同宗度0.27;
浙江義烏某村曹姓:樣本量9,同宗度1;
浙江金華某村曹姓:樣本量6,同宗度0.40;
浙江浦江某村曹姓:樣本量10,同宗度0.47。

基本來說,結果是比較一致的,很多村子做出來的結果都是完全一致的,有不全一致的,多數也是有一個主體類型,偶爾有一兩個跟主體不一致的,這樣一般同宗度會在0.4以上。而這些村子的建村年代普遍是明朝初年,距今600餘年了。18個村子裏只有4個村子的同宗度小於0.4,也就是類型比較雜、沒有主體類型的。後來,我也在一些其他姓氏裏見過一些樣本量達到5,但同宗度爲0的不幸情況,但這種還是很罕見的。

如果是到一個縣級範圍,情況就有很大變化了。因爲我們比較難做到在一個縣的範圍內隨機採樣,很可能是以一兩個村爲主,這裏的數據僅供參攷:
安徽舒城曹姓(採樣村較集中):樣本量62,類羣10,同宗度0.41;
湖南瀏陽曹姓(採樣村較集中):樣本量19,類羣10,同宗度0.08;
湖南龍山土家族彭姓(採樣分散):樣本量16,類羣7,同宗度0.31;
湖南鳳凰苗族龍姓(採樣分散):樣本量13,類羣4,同宗度0.58;
湖南鳳凰苗族吳姓(採樣分散):樣本量5,類羣2,同宗度0.60;
湖南會同侗族楊姓(採樣分散):樣本量6,類羣5,同宗度0.07;
大理白族楊姓(採樣分散):樣本量7,類羣6,同宗度0.05。

也就是說,當範圍從村擴大到縣,就經常能見到不同的類別了,同宗度也大爲下降了,尤其漢、侗、白族等的同宗度很低了(舒城曹的同宗度高有一定原因是採樣村集中,但不同鄉鎭之閒仍然常見同宗的情形)。但有一些,如龍山土家彭,以及鳳凰苗族的龍姓和吳姓,即使在全縣的範圍,同宗度仍然很高。

至於樣本擴大到全國,統計難度就很大了,尤其經常見到17 STR差五六步的,不細測SNP沒法說算兩千年以內還是以上的。但大家從我公佈的 #每周一姓# 至少能計算出一個同宗度的最大值。舉例來說,本周公佈的漢族黃姓,總樣本量37,分佈爲C: 2, N: 4, O1: 2, O2*: 1, O2a: 4, O3*: 1, O3a1*: 1, O3a1c: 8, O3a2*: 1, O3a2b: 1, O3a2c1*: 6, O3a2c1a: 5, Q: 1。那麼即使每一大類都算同宗,同宗度也只有0.10,實際上仔細看STR,同宗度還遠低於這個值。

劉姓裏有一些對於測Y染色體非常積極的人士通過QQ羣宣傳和積累了大量劉姓結果,稱目前“劉姓356人中測出43個不同支”,而且其中完全看不出某一支能占劉姓的主體。其實各個大中型的姓氏全都是如此,全國勻着採,樣本量大於10還能有0.1以上的同宗度就很不錯了。目前在全國測了幾個省的樣本還能夠完全同宗的仍只有一個操(讀去聲)姓。

既然如此,很多人也不必擔心測Y染色體會造成同姓氏的分裂了,因爲反正本來就只有很低的概率眞的是同宗。除非是同村的同姓,可能測出來不一樣會不太方便。反而,如果通過測Y染色體,碰巧能找到失聯的遠房同宗,不是意外之喜麼?(本人剛巧有實際成功經歷

===============以下是簡化字版本=================

我们经常能看到“天下x姓是一家”、“汉后无二刘”之类的说法,有时候这只是一种套近乎的说法,但还是有一些人确实相信有某个姓的人都有同一个祖先,或者至少大多数人都是从同一个祖先下来的。自然,从文献上来看,大多数姓氏都有多种得姓来源,收养、入赘等情况也会有的,但同时也可能有一些文献上有的来源实际上绝后了。那到底一个姓的人有多少生物学意义上的同宗呢?本文从实际数据出发,定量地检查一下。

先说怎么定义同宗。因为理论上讲,现代任意两个男人的父系往上推,总有某一代是有个共同的爷爷的,但问题在于这个最近的共同祖先是6万年前的还是600年前的。如果两个人是6万年前的共祖,自然不能算同宗了,否则全中国的人都是同宗了。这里我们可以取一个界线,比如2000年,因为先秦时是古姓(姬、姜、嬴、芈、子、妫、风……等等)的系统,姓下再别氏,而到了秦以后姓氏合一,很多以前的氏成了后来的姓。也就是现在的姓主要形成的年代应该就在2000年前左右(尽管不排除更早或更晚的)。最近共祖在先秦或更远的,在本文里就先不算同宗了。这样,按我平时的分类,分属不同大单倍群的,都分开上万年了,都不算同宗。再比如,如果两个人都是五大超级祖先中其中一个的后代,因为这五簇的形成也至少是4000年,所以不同簇的人不属同宗,同簇但在簇下直接分开的也不属同宗,只有同小支的人才可能是同宗。

再说同宗度的计算。定义就是:从一个群体(比如一个姓氏)里面随机揪两个人出来,看他们有多大的概率是同宗的。比如有10个人,他们都属于同一个类群,那么同宗度就是1,就是100%同宗,而如果每个人所属的类群均不相同,那么同宗度就是0。如果10个人里包含两类,各5个人,那么同宗度是(5*4+5*4)/(10*9) = 0.44。而如果10个人里有9个人都一样,只有一个不同,那么同宗度是(9*8+1*0)/(10*9) = 0.80。也就是说,即使类群数固定,同宗度也是随分布而变的,越是一个种类独大,同宗度越高。通用的计算公式是:
[转载]人類學雜記——36. <wbr>“天下x姓是一家”是眞的麼?
其中,l就是同宗度,R是类群数,ni是第i个种类的样本数,N是样本总数。如果只有两个样本,同宗度只能是1(两个人同宗)或0(两个人不同宗)。但当样本数加大,采样又满足随机的话,同宗度会逐渐趋近于一个稳定值。

因为我们实验室在做曹操后代的硏究中采集了大量曹姓样本,且结果已经公开过了,我这里列举一些样本量达到5个的村子的结果:
安徽亳州某村曹姓:样本量8,同宗度0.75
安徽亳州某村曹姓:样本量5,同宗度0.20
安徽舒城某村曹姓:样本量20,同宗度1
安徽舒城某村曹姓:样本量6,同宗度0.67
安徽歙县某村曹姓:样本量5,同宗度1
安徽绩溪某村曹姓:样本量5,同宗度0.60
江西大庾某村曹姓:样本量12,同宗度1
江西南昌县某村曹姓:样本量7,同宗度0.71
广东南雄某村曹姓:样本量5,同宗度0.20
辽宁铁岭某村曹姓:样本量5,同宗度1
湖南浏阳某村曹姓:样本量7,同宗度0.19
山东东阿某村曹姓:样本量5,同宗度1
山东菏泽某村曹姓:样本量5,同宗度1
浙江富阳某村曹姓:样本量9,同宗度0.78
浙江义乌某村曹姓:样本量6,同宗度0.27
浙江义乌某村曹姓:样本量9,同宗度1
浙江金华某村曹姓:样本量6,同宗度0.40
浙江浦江某村曹姓:样本量10,同宗度0.47

基本来说,结果是比较一致的,很多村子做出来的结果都是完全一致的,有不全一致的,多数也是有一个主体类型,偶尔有一两个跟主体不一致的,这样一般同宗度会在0.4以上。而这些村子的建村年代普遍是明朝初年,距今600余年了。18个村子里只有4个村子的同宗度小于0.4,也就是类型比较杂、没有主体类型的。后来,我也在一些其他姓氏里见过一些样本量达到5,但同宗度为0的不幸情况,但这种还是很罕见的。

如果是到一个县级范围,情况就有很大变化了。因为我们比较难做到在一个县的范围内随机采样,很可能是以一两个村为主,这里的数据仅供参考
安徽舒城曹姓(采样村较集中):样本量62,类群10,同宗度0.41
湖南浏阳曹姓(采样村较集中):样本量19,类群10,同宗度0.08
湖南龙山土家族彭姓(采样分散):样本量16,类群7,同宗度0.31
湖南凤凰苗族龙姓(采样分散):样本量13,类群4,同宗度0.58
湖南凤凰苗族吴姓(采样分散):样本量5,类群2,同宗度0.60
湖南会同侗族杨姓(采样分散):样本量6,类群5,同宗度0.07
大理白族杨姓(采样分散):样本量7,类群6,同宗度0.05

也就是说,当范围从村扩大到县,就经常能见到不同的类别了,同宗度也大为下降了,尤其汉、侗、白族等的同宗度很低了(舒城曹的同宗度高有一定原因是采样村集中,但不同乡镇之间仍然常见同宗的情形)。但有一些,如龙山土家彭,以及凤凰苗族的龙姓和吴姓,即使在全县的范围,同宗度仍然很高。

至于样本扩大到全国,统计难度就很大了,尤其经常见到17 STR差五六步的,不细测SNP没法说算两千年以内还是以上的。但大家从我公布的 #每周一姓# 至少能计算出一个同宗度的最大值。举例来说,本周公布的汉族黄姓,总样本量37,分布为C: 2, N: 4, O1: 2, O2*: 1, O2a: 4, O3*: 1, O3a1*: 1, O3a1c: 8, O3a2*: 1, O3a2b: 1, O3a2c1*: 6, O3a2c1a: 5, Q: 1。那么即使每一大类都算同宗,同宗度也只有0.10,实际上仔细看STR,同宗度还远低于这个值。

刘姓里有一些对于测Y染色体非常积极的人士通过QQ群宣传和积累了大量刘姓结果,称目前“刘姓356人中测出43个不同支”,而且其中完全看不出某一支能占刘姓的主体。其实各个大中型的姓氏全都是如此,全国匀着采,样本量大于10还能有0.1以上的同宗度就很不错了。目前在全国测了几个省的样本还能够完全同宗的仍只有一个操(读去声)姓。

既然如此,很多人也不必担心测Y染色体会造成同姓氏的分裂了,因为反正本来就只有很低的概率真的是同宗。除非是同村的同姓,可能测出来不一样会不太方便。反而,如果通过测Y染色体,碰巧能找到失联的远房同宗,不是意外之喜么?(本人刚巧有实际成功经历

首發於2014.11.16,新浪博客

0

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有