(Image from gnomAD website)
上一篇文章著重討論 The Genome Aggregation Database (gnomAD) v3 版內容介紹,本文將介紹去年11月更新之gnomAD v4 (以及部分今年4月更新之 v4.1)。
樣本收集
下表整理不同版本間使用的樣本數與參考序列,最大的更新為: v4 增收 416,555 UK Biobank WES data
version | reference | (type)sample size |
---|---|---|
gnomAD v2.1 | GRCh37 | (WES) 125,748 ; (WGS) 15,708 |
gnomAD-SV v2.1 | GRCh37 | (WGS) 10,847 |
gnomAD v3.1 | GRCh38 | (WGS) 76,156 |
gnomAD v4.0 | GRCh38 | (WES) 730,947 ; (WGS) 76,215 |
gnomAD-SV v4.0 | GRCh38 | (WGS) 63,046 |
gnomAD-CNV v4.0 | GRCh38 | (WES) 464,297 |
從官網的統計圖表可清楚了解族群數量分布,由於UK Biobank 樣本以 European 為大宗,合併至 v4 使 European Ancestry比例偏高接近80% 另外值得注意的是 EAS 樣本數有大進展,從前幾版的不到萬人增至2萬初,能協助修正 allele frequency 的預估結果

v4 與 v3 差異
取消 subset 釋出
過去v3樣本來自多種cohort,為提供研究者作為疾病研究的control,gnomAD v3 有釋出多種subsets,如: non-cancer subset 為排除罹患癌症或從相關 cohort study收集來的樣本群(更多介紹可參考前篇文章)。 在v4版本僅有釋出non-UKBB subset,且僅提供allele frequency資訊給研究者做累加使用。下面文字截自gnomAD v4 SNV chrY VCF檔的INFO field,可以看到每個population都有拆分另外一組non-UKB的(prefix: non_ukb) 數據:
|
|
此外若有使用註解 gnomAD 資料庫的工具如 dbnsfp,則可以明顯看到在資料庫版本更新後,就不會有 gnomAD_exomes_non_cancer
類似欄位產生,只會剩下 gnomAD_exomes_non_ukb
等欄位
而v4取消製作subset原因包含:
- 研究特定疾病如cancer、neuro-disease等,這些疾病的盛行率並不會過高到需要透過(乾淨的?) subsets 來做比對與分析,建議直接使用 gnomAD metadata 來協助研究
- 新加入的 UK Biobank 或是部分 cohort samples 並沒有完整 phenotype 資料,無法明確的區分樣本的疾病狀態
filtering allele frequency (FAF)
將 WES 和 WGS 的 allele count 合併計算之 allele frequency,稱作 filtering allele frequency
v4 exome 分析流程
(WGS 流程可參照 gnomAD v3版作法) 由於 v4 最大進展在於 exome callset 樣本數的提升,因此後續分析流程也有些更新:
- joint callset 由原本的 gVCF 格式轉為 VariantDataset (VDS) 格式儲存
- 增加 interval QC 以確保目標區段擁有足夠的深度判別變異: 官網提供一組 interval list,左右延伸(padding) 50bp 後計算每個樣本在這些區段的平均深度。最後將 >85% 樣本擁有 >20X 深度的區段定義為 high coverage intervals
- 為 sample QC 定義 high qulaity site:為判斷樣本族群來源、親緣關係或定序品質,gnomAD v4從幾個資料集挑選 high quality sites (n = 175,043) 協助樣本QC:
- 屬於 autosomal, biallelic, single nucleotide variants (SNVs)
- 位於 gnomAD v3, CCDG, 以及 UK Biobank dataset 的位點紀錄
- sample QC: 使用上面這些high quality site進行以下幾個重點QC
- hard filters: 使用新工具從 genotype data 預估 contamination 而非重新拿raw read 分析。其他也用DP, Het/Hom ratio 等數值去篩
- PCA clustering for exome capture platform: 由於樣本來源多樣,使用PCA區分出20種定序平台,label上潛在差異
- sex karyotypes
- relatedness between v4 exomes and genomes, and identified pairs of first and second degree relatives
- genetic ancestry groups
- QC metrics
- variant QC by VQSR (和 v3 一樣拿大型計劃的位點做模型訓練並應用類似的篩選條件)
v4 SV
和前版 v2.1相比,除了樣本數從一萬初增加至超過六萬、偵測位點數增加,參考序列也從 hg19/GRCh37 改成擁有 alternative contigs 的 GRCh38做為參考序列。 偵測流程使用相同的 GATK-SV pipeline,並增進變異註解(annotation)的結果。gnomAD-SV v4 從63,046個WGS樣本中找到超過一百萬個 high-quality SVs,SV特徵的趨勢與前版本相同,多為短片段(median size 360bp)的罕見位點(96% SVs AF < 1%)。
gnomAD-SV v4 的結果已公開至網站,可先行查詢利用;至於技術細節等內容,等研究論文發表後再來更新,根據之前使用v2.1版資料的經驗,可以再拿新的East Asian AF 來做 correlation plot,不過中間需要針對變異座標進行liftover轉換,等有空再來嘗試看看。
v4 CNV
gnomAD v4第一次釋出 CNV callset。也代表未來關於致病位點的研究,可往大片段缺失的偵測目標前進,並擁有 general population 資訊可參考。目前收錄從 464,297 WES data 找到之 rare ( AF <1% ) autosomal coding copy number variants (CNVs),使用 GATK-gCNV (Babadi et al. Nat Genet, 2023) 流程偵測變異。
簡單順一下分析流程,主要利用比對至參考序列的BAM/CRAM作為input,並計算每個 protein-coding region (target interval) 的 read count (CNV 主要以深度差異來判斷) 接著使用這些數值做 clustering ,將特徵接近的樣本歸類至同一批次(batch)做後續分析。
CNV流程需要baseline來比較深度差異,通常來自 panel of normal (PoN,在somatic偵測代表tumor相對應的正常樣本) 的結果,而gnomAD 無針對特殊疾病,所以採隨機挑選200樣本作為Pon,之後經由QC篩選,normalization等等,最終以read depth, read count 等特徵判定基因體內的CNV events。
CNV偵測流程的可信度,透過一組同時具有WES(default input), WGS (IGV validation) 和 microarray 的樣本來驗證,透過和不同開源工具比較,詳細工具的演算法與使用差異,有機會再細看比較。
CNV 註釋
在變異註釋方面,現今工具主要在短片段如SNV/indel方面詮釋較佳,如ensembl VEP, AnnotSv等,而CNV宜由於變異跨度大,對於現行臨床ACMG準則來說難以完整判定,且多以基因為單位個別做註釋,整體影響預測尚未完全,而gnomAD作為可能的reference dataset,也針對變異作了以下註釋:
- 基本的GENCODE 註釋,並以overlap的比例判斷是否給註釋
- 長度與exon, interval範圍跨度
- 集合與分族群統計的AF: site count (SC), site number (SN), and site frequency (SF)
CNV subsets
和 gnomADv4 不同,由於大片段的罕見CNV位點與精神疾病有關連性,gnomAD CNV 有釋出兩組subsets:
Due to the known enrichment of large, rare CNVs that confer substantial relative risk in neuropsychiatric phenotype neuropsychiatric conditions: bipolar, epilepsy, schizophrenia, psychosis, and general psychiatric conditions
- non-neuro (n = 418,924): 非精神疾病相關cohort樣本(neuropsychiatric conditions),以及 biobank 樣本
- non-neuro-control(n = 269,919): 不同cohort內標示為control的樣本,或是biobank樣本
References
https://gnomad.broadinstitute.org/news/2023-11-gnomad-v4-0/ https://gnomad.broadinstitute.org/news/2023-11-v4-structural-variants/ https://gnomad.broadinstitute.org/news/2023-11-v4-copy-number-variants/ https://gnomad.broadinstitute.org/news/2019-10-gnomad-v3-0/