加载中…
个人资料
polyhedron
polyhedron 新浪个人认证
  • 博客等级:
  • 博客积分:0
  • 博客访问:513,407
  • 关注人气:1,469
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

人類學雜記——52.父母系和語言的不對稱相關性

(2018-09-04 16:39:44)
标签:

語言

y染色體

線粒體

語音

分类: 人類學雜記
終於在學術雜誌上又發出了一篇我有重要參與的文章,文章已經確定被NSR(National Science Review,中國《國家科學評論》)接收。文章的作者都是復旦大學金力院士團隊的,包括金院士,還有張夢翰、我和鄭鴻翔三個博士。文章的主筆人是張夢翰博士,他是數學背景出身,統計學功底很好,在潘悟雲敎授門下讀了語言學的博士,畢業以後又到了現代人類學實驗室作了博後。我是主要做Y染色體的,同時也是語言學愛好者。而鄭鴻翔博士是線粒體方面的專家。硏究人類歷史,語言和遺傳都是重要的硏究材料,我們這樣一個團隊也就正好湊夠了人來硏究,人類的語言和遺傳到底有什麼樣的關聯。

我們的文章鏈接在這裏:http://dx.doi.org/10.1093/nsr/nwy083
中文新聞稿在這裏: http://life.fudan.edu.cn/Data/View/3079 

關於我們硏究的內容,比較正式的說法看文章的摘要就可以,看新聞稿也行,而我這裏是自媒體,可以從自己的角度多說一些。

文章大意是說,一個人習得的第一語言稱作“母語”(mother tougue),而且很多人確實是由母親主要養育並敎會說話的。然而有了分子生物學以來,很多硏究都發現,和語言分類關聯比較密切的是Y染色體也就是父系,很多語系或者語支都能和Y染色體的單倍羣相聯繫,比如漢藏語系的Oα-F8(即中國新石器時期五大超級祖先之一的“農民甲”,在O2a2b1a1-M117下游)多,印歐語部分語族的R1a1a-M17多,苗瑤語的O2a2a1b1a1b-N5(在O2a2a1b-M7下游)多,烏拉爾語的N1b1-M178多,等等,而一個人羣的語言屬性和線粒體支系並沒有明顯聯繫。我自己在湖南的採樣,整體也顯出了不同民族之閒Y染色體組成很不同,但線粒體組成基本一致的現象。由此有人提出了“父語假說”(father tongue hypothesis),即父親決定了孩子用什麼語言。

但我們發現,很多語言特徵並不與語言譜系緊密聯繫,反而是地理相近的地方,即使屬於不同譜系分類的語言也有很多共同特徵。脫離開語言譜系來硏究這些特徵稱作語言類型學(typology)。比如說北部灣周圍,不論屬仡臺語系(Tai-Kadai,或者稱僮侗語系)的僮語、黎語和臨高話,屬漢藏語系的一些廣西和海南的漢語方言,還是屬南亞語系的越南語等等,普遍都有內爆音/ɓ ɗ/等(範圍北到上海郊區,南到泰國都有)。同屬苗瑤語系,偏東的勉語就和地理接近的漢語粵、客、閩方言類似,有豐富的韻尾/m n ŋ p t k/等,而偏西的苗語就更像彝語一樣,韻尾簡化、開音節明顯占多數而聲母複雜。像這種地理接近則語言特徵相近的情況,和母系有些相似,於是我們就試着看了一下語言是否和母系也相關。

不過之前也有人嘗試過這個硏究,說母系和語言之閒的關聯遠弱於父系和語言的關聯。但之前對語言的分類都是建立在譜系分類(phylogeny)的基礎上,就是看同一個語系或者同一個語族的語言,其分類和父系、母系之閒的關聯。但前面說的語音方面的類型學特徵明顯就被忽略了。我們換了一種辦法:拋開現成的語言譜系分類,直接從基礎的詞彙、語音數據來比較不同的語言,即不管兩種語言是否譜系上相近,我們直接來看它們有多少詞彙是同源的,以及語音上相似到什麼程度,即有多少音素是共有的。看看英語的例子:雖然英語屬日耳曼語族,和德語一樣,而法語屬羅曼語族,但英語詞彙中卻有一大半是從法語借來的,英語和法語的同源詞(這裏指生物學語境的同源即homologous或語言學的“關係詞”,或者說廣義的cognate,只要包含有共同來源的詞根(etymon)都算,包含複製詞(doublet)和借詞(loan word))數量比英語和德語的同源詞多。判斷一個語言的譜系分類,除了看同源詞哪個多,還牽撦到一個對“正根兒”的判斷。一般來說,基礎詞比高等級詞更能夠反映語言的譜系分類,我們採用了Michael Dunn等人的一個基於Swadesh 200核心詞的詞表,這個詞表也是一個富集了印歐語系基礎詞的詞表。拋開譜系分類,直接比較詞彙、語音的異同,我們就可以建立起語言之閒兩兩詞彙距離和語音距離的矩陣。

我們硏究的是人羣之閒的關係,語言是一方面,父系、母系也照着算距離矩陣,只不過父系、母系是按照人羣裏面單倍羣的比例來算距離的。因爲不同的文獻用的支系詳略很不一樣,比如說,有的文獻可能只測了一個O-M175,而有的文獻就能把O分成十幾類,爲了能把不同文獻裏的羣體數據相互比較,如果我們想多保留一些羣體,就只能把一些分得細的小支系合併,反之如果想盡量細,就只能扔一些文獻。我們最終把Y染色體和線粒體各分成了十幾類(單倍羣或者旁系羣),這些類別都是形成年代在一万年以上的,雖然比較麤略,但有一個好處,一個人和他的父系祖先、後代在新石器時代以來(即至少一万年前以來)恒屬於同一個Y染色體分類,母系也是一樣,這樣我們不用攷慮近期的DNA突變,只攷慮人羣混合就行了。

最終我們挑了講印歐語系語言的34個人羣。爲什麼只有34個呢?因爲需要每一個人羣都有其對應語言的詞彙、語音的數據庫,同時分子人類學文獻裏還要有足夠樣本量及分類精度的父系、母系數據。四類數據都能湊齊的人羣就這麼多了。既然我們只比較詞彙和語音,不管譜系分類,爲什麼只用印歐語系語言,而不把芬蘭語、匈牙利語、土耳其語、巴斯克語等等也一起放進去比呢?因爲沒有哪個數據庫裏面把這些跨語系語言的同源詞(借詞)放一起標註了。而我們沒用中國的語言或者漢語方言,也是因爲好的同源詞標註數據庫有限,加上對應的人羣不都正好有足夠的Y染色體及線粒體數據。

我們把這些語言的詞彙、語法、父系、母系的數據搜集到了一起(這個工作量其實挺大的,因爲每篇文章裏的數據格式、詳略都不統一,很多都靠人手工把pdf裏的數據敲到excel裏,還要把語言和遺傳數據對應的人羣對到一起),來看他們之閒的相互關聯,用的是Mantel test的方法。結果發現詞彙、語音、父系、母系四組特徵的六個相互關係都是有顯著正相關的,就是比如說,當兩種語言的父系組成越相近,則他們語音裏相同的音素也更多,等等。我們攷慮到因爲地理上的相近會造成遺傳特徵和語言學特徵都更容易相互傳遞,所以我們想了個辦法以去掉地理距離因素。辦法就是計算了每個人羣之閒的地理距離矩陣,用地理矩陣作爲控制變量,再來對前述這些特徵的兩兩關係做Mantel test,即partial Mantel test。結果發現,攷慮了地理距離以後,四組特徵閒的六個關係只剩下了父系組成和詞彙,以及母系組成和語音,這兩個仍然是顯著相關的,其餘的兩兩特徵之閒都看不出相關性了。也就是說,攷慮到了人口的地理遷移以後,發現是父系帶着詞彙跑,而母系帶着語音跑。這就是這篇文章主要的結果。

可以說,這篇文章用的數據都是已有文章和數據庫裏的數據,並沒有加入我們自己的新測數據。統計方法也不算複雜。文章主要的特色就是跳出了語系-語族這種單線的譜系分類框架,而是直接使用了語言數據本身來比較。同時也是跳出了樹形的分類,留出了語言特徵的橫向交流的空閒,我們對語言的演化關係就可以用一個网狀來描述了(提到樹形,文章裏也做了Neighbor-Net的网絡圖,同時量化了一下每種特徵與樹形的符合程度,發現是詞彙最符合樹形)。我個人也認爲語言的樹形演化分類硏究已經把比較可靠的分類都硏究差不多了,今後的語言分類和演化硏究也必然需要跳出樹形的桎梏,更多討論不同語言之閒的橫向影響。文章的另外一個特色就是我們採用了詞彙和語音兩個系統來分別做,如果只用詞彙,則和傳統上的語系-語族分類很一致了(因爲對語言的譜系分類最主要的依據就是基礎詞彙),而語音提供了一個完全不同的故事。

我們通過統計的手法證實了關聯,後面就是討論,爲什麼會形成父系和詞彙相關,而母系和語音相關的現象。這個其實是見仁見智,我們也只能提出一些可能的原因,且可能也不容易支持這些假說。我們想象一些比較極端的情景:如果一個人羣的男女帶着他們的語言遷往遠方建立了一個新的殖民地,一開始的時候,父系、母系、語音、詞彙都和原先的羣體相同,那麼按照我們的統計方法,排除地理因素之後,四個特徵的六個關係應該都是相互關聯的;如果是一個羣體的男性到遷徙到了遠處,娶了當地的女性爲妻,形成的新人羣都講男方的語言,則父系、語音、詞彙三者應該相關而和母系不相關;如果新的人羣完全採用了當地的語言,則應該是母系、語音、詞彙相關,而和父系不相關。現在既然有了父系-詞彙和母系-語音這兩組相關,說明一定是不單人羣發生了混合,而且語言特徵也發生了語音和詞彙相分離的傳承。

這裏我們提出一種可能的圖景,僅供參攷:人羣混合時,大多數情況是男性是長距離遷徙的一方(比如因爲軍事征服、做官、經商、敎書、工匠等),常常其原羣體的女性不能跟隨遷來,於是外來男性和當地女性組成新的家庭,這種情況達到一定數量的時候也就可能產生了新的人羣。對於遷入男性處於弱勢地位的情況下,一來男性可能留不下太多後代,二來也不會對當地語言產生太大影響。而當遷入男性處於強勢時,新羣體中的父系就能明顯偏向遷出地,而母系偏向本地。不論東亞還是印歐語系區域,主流都是父系社會,即父系占有一個地域並繼承給其子,而女性會在不同家庭、不同族羣之閒互相嫁而拉平一個地區內的母系組成。父系社會會造成同一父系以及同一來源父系的人聚居在一起,從而在小範圍內的社會內(例如一個同姓村或者一個軍屯)採用男方而非女方的語言,因爲女性來源可能並不相同,同時在經濟、社會地位上較爲弱勢。也就是說,在這個新形成的小社會中,嫁入的女性要學習使用其丈夫的語言,敎小孩子講其父親的語言。但這時有一個問題:學語言的時候,轉用這種語言的詞彙容易,但口音很難改,也就是說自己母語的語言如果沒有哪個音,學外語時就比較難把這個音發準,而經常會把習得的語言裏自己母語裏沒有的音往母語上套。就比如我們學英語,通過幾年學習可以比較容易地學成不夾雜漢語詞彙的英語。但多數以漢語爲母語的人學的時候經常會把英語的濁塞音/b d g/之類都學成漢語裏的不送氣清音[p t k],而學英語/ʃ/的時候,可能北方的學成[ʂ],南方的學成[ɕ]或者[s]。如此,女方學了男方的語言以後,家庭內交流障礙就不大了,但發音仍然不能像男方一樣地道。這種帶有女方口音的男方語言就會被媽媽敎給孩子,短短一兩代內,就可能在家庭及一個小社會內形成了帶有當地口音和外來詞彙的新語言,而在大尺度上,就會表現出父系和詞彙相關性更強,而母系和語音相關性更強了。換句話說,原因是媽媽把帶有自己母語口音的爸爸的語言敎給了孩子。另一種可能,不說家庭,而更多攷慮社會因素的話(因爲一些語言學家認爲孩子的語言更多是從社會而非父母處習得的),只要外來的人(以男性爲主)在社會中占有了一定的文化優勢,當地社會就可能在保持自己語言語音框架的情況下,從外來人的語言中借入更多的詞彙(如英語從法語借詞或日語從漢語借詞),如果人羣混合和語言借用是相伴進行的,也可能形成父系-詞彙和母系-語音的相關性。

歡迎大家批評指正,以及提出對我們今後硏究的建議。

polyhedron
2018.09.04 首發於新浪博客

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有