Featured image of post 生資系列: gnomAD v3 database 介紹

生資系列: gnomAD v3 database 介紹

(Image from gnomAD website)

上一篇文章著重討論 The Genome Aggregation Database (gnomAD) v3 版內容介紹,本文將介紹去年11月更新之gnomAD v4 (以及部分今年4月更新之 v4.1)。

樣本收集

下表整理不同版本間使用的樣本數與參考序列,最大的更新為: v4 增收 416,555 UK Biobank WES data

version reference (type)sample size
gnomAD v2.1 GRCh37 (WES) 125,748 ; (WGS) 15,708
gnomAD-SV v2.1 GRCh37 (WGS) 10,847
gnomAD v3.1 GRCh38 (WGS) 76,156
gnomAD v4.0 GRCh38 (WES) 730,947 ; (WGS) 76,215
gnomAD-SV v4.0 GRCh38 (WGS) 63,046
gnomAD-CNV v4.0 GRCh38 (WES) 464,297

從官網的統計圖表可清楚了解族群數量分布,由於UK Biobank 樣本以 European 為大宗,合併至 v4 使 European Ancestry比例偏高接近80% 另外值得注意的是 EAS 樣本數有大進展,從前幾版的不到萬人增至2萬初,能協助修正 allele frequency 的預估結果

v4 與 v3 差異

取消 subset 釋出

過去v3樣本來自多種cohort,為提供研究者作為疾病研究的control,gnomAD v3 有釋出多種subsets,如: non-cancer subset 為排除罹患癌症或從相關 cohort study收集來的樣本群(更多介紹可參考前篇文章)。 在v4版本僅有釋出non-UKBB subset,且僅提供allele frequency資訊給研究者做累加使用。下面文字截自gnomAD v4 SNV chrY VCF檔的INFO field,可以看到每個population都有拆分另外一組non-UKB的(prefix: non_ukb) 數據:

1
2
3
4
AC_afr_XY=0;AN_afr_XY=0;nhomalt_afr_XY=0;AC_afr=0;AN_afr=0;nhomalt_afr=0;...
AC_eas_XY=0;AN_eas_XY=0;nhomalt_eas_XY=0;...
AC_non_ukb_afr_XY=0;AN_non_ukb_afr_XY=0;nhomalt_non_ukb_afr_XY=0;AC_non_ukb_afr=0;AN_non_ukb_afr=0;nhomalt_non_ukb_afr=0;...
AC_non_ukb_eas_XY=0;AN_non_ukb_eas_XY=0;nhomalt_non_ukb_eas_XY=0;AC_non_ukb_eas=0;AN_non_ukb_eas=0;nhomalt_non_ukb_eas=0;...

此外若有使用註解 gnomAD 資料庫的工具如 dbnsfp,則可以明顯看到在資料庫版本更新後,就不會有 gnomAD_exomes_non_cancer 類似欄位產生,只會剩下 gnomAD_exomes_non_ukb 等欄位

而v4取消製作subset原因包含:

  • 研究特定疾病如cancer、neuro-disease等,這些疾病的盛行率並不會過高到需要透過(乾淨的?) subsets 來做比對與分析,建議直接使用 gnomAD metadata 來協助研究
  • 新加入的 UK Biobank 或是部分 cohort samples 並沒有完整 phenotype 資料,無法明確的區分樣本的疾病狀態

filtering allele frequency (FAF)

將 WES 和 WGS 的 allele count 合併計算之 allele frequency,稱作 filtering allele frequency

v4 exome 分析流程

(WGS 流程可參照 gnomAD v3版作法) 由於 v4 最大進展在於 exome callset 樣本數的提升,因此後續分析流程也有些更新:

  • joint callset 由原本的 gVCF 格式轉為 VariantDataset (VDS) 格式儲存
  • 增加 interval QC 以確保目標區段擁有足夠的深度判別變異: 官網提供一組 interval list,左右延伸(padding) 50bp 後計算每個樣本在這些區段的平均深度。最後將 >85% 樣本擁有 >20X 深度的區段定義為 high coverage intervals
  • 為 sample QC 定義 high qulaity site:為判斷樣本族群來源、親緣關係或定序品質,gnomAD v4從幾個資料集挑選 high quality sites (n = 175,043) 協助樣本QC:
    • 屬於 autosomal, biallelic, single nucleotide variants (SNVs)
    • 位於 gnomAD v3, CCDG, 以及 UK Biobank dataset 的位點紀錄
  • sample QC: 使用上面這些high quality site進行以下幾個重點QC
    • hard filters: 使用新工具從 genotype data 預估 contamination 而非重新拿raw read 分析。其他也用DP, Het/Hom ratio 等數值去篩
    • PCA clustering for exome capture platform: 由於樣本來源多樣,使用PCA區分出20種定序平台,label上潛在差異
    • sex karyotypes
    • relatedness between v4 exomes and genomes, and identified pairs of first and second degree relatives
    • genetic ancestry groups
    • QC metrics
  • variant QC by VQSR (和 v3 一樣拿大型計劃的位點做模型訓練並應用類似的篩選條件)

v4 SV

和前版 v2.1相比,除了樣本數從一萬初增加至超過六萬、偵測位點數增加,參考序列也從 hg19/GRCh37 改成擁有 alternative contigs 的 GRCh38做為參考序列。 偵測流程使用相同的 GATK-SV pipeline,並增進變異註解(annotation)的結果。gnomAD-SV v4 從63,046個WGS樣本中找到超過一百萬個 high-quality SVs,SV特徵的趨勢與前版本相同,多為短片段(median size 360bp)的罕見位點(96% SVs AF < 1%)。

gnomAD-SV v4 的結果已公開至網站,可先行查詢利用;至於技術細節等內容,等研究論文發表後再來更新,根據之前使用v2.1版資料的經驗,可以再拿新的East Asian AF 來做 correlation plot,不過中間需要針對變異座標進行liftover轉換,等有空再來嘗試看看。

v4 CNV

gnomAD v4第一次釋出 CNV callset。也代表未來關於致病位點的研究,可往大片段缺失的偵測目標前進,並擁有 general population 資訊可參考。目前收錄從 464,297 WES data 找到之 rare ( AF <1% ) autosomal coding copy number variants (CNVs),使用 GATK-gCNV (Babadi et al. Nat Genet, 2023) 流程偵測變異。

簡單順一下分析流程,主要利用比對至參考序列的BAM/CRAM作為input,並計算每個 protein-coding region (target interval) 的 read count (CNV 主要以深度差異來判斷) 接著使用這些數值做 clustering ,將特徵接近的樣本歸類至同一批次(batch)做後續分析。

CNV流程需要baseline來比較深度差異,通常來自 panel of normal (PoN,在somatic偵測代表tumor相對應的正常樣本) 的結果,而gnomAD 無針對特殊疾病,所以採隨機挑選200樣本作為Pon,之後經由QC篩選,normalization等等,最終以read depth, read count 等特徵判定基因體內的CNV events。

CNV偵測流程的可信度,透過一組同時具有WES(default input), WGS (IGV validation) 和 microarray 的樣本來驗證,透過和不同開源工具比較,詳細工具的演算法與使用差異,有機會再細看比較。

CNV 註釋

在變異註釋方面,現今工具主要在短片段如SNV/indel方面詮釋較佳,如ensembl VEP, AnnotSv等,而CNV宜由於變異跨度大,對於現行臨床ACMG準則來說難以完整判定,且多以基因為單位個別做註釋,整體影響預測尚未完全,而gnomAD作為可能的reference dataset,也針對變異作了以下註釋:

  • 基本的GENCODE 註釋,並以overlap的比例判斷是否給註釋
  • 長度與exon, interval範圍跨度
  • 集合與分族群統計的AF: site count (SC), site number (SN), and site frequency (SF)

CNV subsets

和 gnomADv4 不同,由於大片段的罕見CNV位點與精神疾病有關連性,gnomAD CNV 有釋出兩組subsets:

Due to the known enrichment of large, rare CNVs that confer substantial relative risk in neuropsychiatric phenotype neuropsychiatric conditions: bipolar, epilepsy, schizophrenia, psychosis, and general psychiatric conditions

  • non-neuro (n = 418,924): 非精神疾病相關cohort樣本(neuropsychiatric conditions),以及 biobank 樣本
  • non-neuro-control(n = 269,919): 不同cohort內標示為control的樣本,或是biobank樣本

References

https://gnomad.broadinstitute.org/news/2023-11-gnomad-v4-0/ https://gnomad.broadinstitute.org/news/2023-11-v4-structural-variants/ https://gnomad.broadinstitute.org/news/2023-11-v4-copy-number-variants/ https://gnomad.broadinstitute.org/news/2019-10-gnomad-v3-0/

comments powered by Disqus