殷才湧 復旦大學生命科學學院博士,師從金力院士、李士林教授。在上一章節中,我們通過公開數據庫中的中國人群Y-STR數據進行了人群數據庫模擬?,F階段,增加Y-STR基因座和增加Y-SNP單倍群決定位點分型都可以對相似單倍型的情況進行進一步判斷。這兩者的側重點有所不同,但相輔相成。Y-STR基因座的增加需要考慮中國人群的遺傳背景,即panel所涵蓋基因座的雜合度(haplotype diversity)、突變率(mutation rate)和整體突變率(overallmutation rate)。因此,設計并完成符合實戰需求的Y-STR家系課題可以有效改善Y-STR基因座數量大幅增加后仍無法得出有效結論的疑問。而Y-SNP作為一種群體遺傳學中很成熟的父系遺傳標記,其定義的Y染色體單倍群(Y-DNA haplogroup)可以對不同的男性家系進行根本定義,進一步從群體遷移和歷史演化的角度為其提供科學合理的解釋。
由于Y-SNP的突變率和回復突變發生的可能性很低,根據Y-SNP構建的遺傳進化結構非常穩定,這也為判斷未知個體和目標家系的從屬關系提供了可靠工具。上世紀80年代,DNA測序手段首先運用在多拷貝和長度短的線粒體上,科學家推斷現代人類的祖先約于10萬年前走出非洲。由于Y染色體回文序列很多,測序難度大,直到本世紀初科學家們才借助變性高效液相色譜手段獲得相關遺傳信息,且Y-SNP的結論與線粒體DNA高度一致[1]。而在本世紀初,本實驗室金力院士團隊在Science發文,首次揭示了東亞人群的非洲起源,推斷出的時間段為3-8萬年前[2]。這些研究都是在大規模人群分型遺傳標記后觀察共性特征,根據共有的突變體進行遺傳結構定義。在本世紀初,Jobling等人對Y-DNA單倍群進行了綜述,總結了如圖1所示的遺傳結構樹[3]。隨著研究深入,國際遺傳譜系學會(ISOGG,International Society of Genetic Genealogy)成立,其主要的任務是向遺傳學家推廣Y-SNP遺傳標記,提供研究解決方案。詳細的遺傳結構樹可以參考該學會子網站─https://isogg.org/tree/index.html。

圖1 遺傳結構樹,引用自Mark A. Jobling等人工作
在Y-SNP單倍群遺傳結構樹基礎上,通過比較Y-STR的步長差異可以計算相應的單倍群分化時間,以O單倍群為例,其共祖時間約為3-4萬年前,即現代社會所有屬于O單倍群的男性個體在3-4年前來自同一家系。以此類推,O單倍群下的各個細支也有各自的出現時間,如O1出現在約23400年前;O2出現在約24700年前[4]。近期,經過對Y-SNP在法醫遺傳學的實戰應用探索,作者所在課題組總結出了如圖所示的應用策略(圖2)。首先,(1)根據Y-SNP單倍群和Y-STR單倍型之間的高度連鎖性,我們研發了一款名為“EA-YPredictor”軟件,可以對未知樣本的Y-SNP單倍群進行預測[5];(2)結合預測的Y-SNP單倍群信息和前期已調查出的單倍群地理分布,可圈定出目標個體所在家系的來源地范圍;(3)以ARMS、SNaPshot和毛細管電泳等測序技術對樣本的Y-SNP單倍群信息進行實驗驗證;(4)研發了一款家系標記系統panel(Y-SNP Pedigree Tagging System),為數據庫Y-STR單倍型添加單倍群標簽,提高家系篩選的可靠性[6]。
圖2 Y-SNP應用策略總結
EA-YPredictor軟件的工作原理如圖3所示。根據Yfiler中包含的17個Y-STR單倍型數據,計算未知個體與數據庫中513個已知個體的單倍型遺傳距離,隨后選出遺傳距離最低的兩個樣本并以其Y-SNP單倍群對未知個體的單倍群進行推測。該軟件雖然尚未開源,但本課題組對于案件需求的使用持開放態度。2019年,受江蘇省某地警方邀請,本課題組對某積案的嫌疑人樣本進行推斷,推測結果為O2a2b1a2-F444分支,該單倍群主要分布在黃河中下游,集中分布在山東省和江蘇省等東部沿海地區,具有“東部為最高、北高南低”的分布特征。2020年初,在多方努力下,該案件破獲并證實個體來自江蘇省某市,且其家系旁支在山東省也有分布。

圖3 EA-YPredictor軟件算法流程圖
在Y-SNP實驗驗證層面,本課題基于兩點考慮:已廣泛建立的DNA實驗室學習并掌握了成熟的STR基因座分型技術;SNP分型技術中SNaPshot技術耗時較長,NGS技術成本相對較高。突變擴增系統(ARMS,amplification refractory mutation system),又稱為等位基因特異性擴增法(ASA,allele specific amplification)可以將Y-SNP分型需求嫁接到現有的常規STR檢測平臺,每批次測序時間為4.5h。第一代系統所選擇的24個Y-SNP位點如圖4所示。該panel既能覆蓋大多數Y進化樹大支,以確保獲取單倍群分布概況,也針對中國人群占主體的O大支,均勻地增加了一些高分辨率的位點,提高其實戰應用價值。

圖4 Y-SNP Pedigree Tagging System panel
此外,該系統也可在數據庫建設中發揮不可替代的作用。在Y-STR數據庫比對中,我們常常會遇到相似單倍型的情況,缺乏可靠的科學證據以佐證已確定的家系排查范圍。如圖5,我們將所有中華男性家系類比為一棵大樹,其各個枝干就是不同的單倍群分支,而分支上的每片樹葉即為男性家系。當我們只比對出與目標Y-STR單倍型相似的若干個家系,這些家系有時可能位于大樹的不同分支。而Y-SNP家系標記系統的數據庫應用正是為了解決該問題。理論上,Y進化樹上的每片樹葉(男性家系)都擁有特征性單倍群信息,在Y-SNP單倍群精細分支相關的數據庫已建立和Y-SNP分型方法成熟的雙重前提下,未知個體的家系確定可靠性和科學性將得以實現,從而實現未知個體在全國范圍的精確家系搜索(圖6)。需要強調的是,這個數據庫建設的設想應建立在具有代表性的父系群體單倍群數據被廣泛積累和高通量分型技術高度成熟并經濟適用的前提下。

圖5 Y-STR數據庫比對類比

圖6 未知個體的全國家系搜索策略
【1】Cann, R. L., Stoneking, M., & Wilson, A. C. (1987).Mitochondrial DNA and human evolution. Nature, 325, 31-36. doi:10.1038/325031a0;Vigilant L, Stoneking M, Harpending H, Hawkes K,Wilson AC. African populations and the evolution of human mitochondrial DNA.Science. 1991;253(5027):1503-1507. doi:10.1126/science.1840702;【2】Ke Y, Su B, Song X, et al. African origin of modern humans in EastAsia: a tale of 12,000 Y chromosomes. Science. 2001;292(5519):1151-1153.doi:10.1126/science.1060011;【3】Jobling MA, Tyler-Smith C. The human Y chromosome: an evolutionarymarker comes of age. Nat Rev Genet. 2003;4(8):598-612. doi:10.1038/nrg1124;【4】Yan S, Wang CC, Zheng HX, et al. Y chromosomes of 40% Chinesedescend from three Neolithic super-grandfathers. PLoS One. 2014;9(8):e105691.Published 2014 Aug 29. doi:10.1371/journal.pone.0105691;【5】YINCaiyong, SUN Hui, ZHOU Huaigu, JIN Li, LI Shilin. EA-YPredictor: One NewSoftware Developed to Predict Pedigree Haplogroup Based on Y-STR Haplotypes.Forensic Science And Technology, 2020, 45(2): 117-124;【6】Yin C, Ren Y, Adnan A, et al. Title: Developmental validation of Y-SNP pedigreetagging system: A panel via quick ARMS PCR. Forensic Sci Int Genet. 2020;46:102271;