生資系列： gnomAD v3 database 介紹

(Image from gnomAD website)

上一篇文章著重討論 The Genome Aggregation Database (gnomAD) v3 版內容介紹，本文將介紹去年11月更新之gnomAD v4 (以及部分今年4月更新之 v4.1)。

樣本收集

下表整理不同版本間使用的樣本數與參考序列，最大的更新為: v4 增收 416,555 UK Biobank WES data

version	reference	(type)sample size
gnomAD v2.1	GRCh37	(WES) 125,748 ; (WGS) 15,708
gnomAD-SV v2.1	GRCh37	(WGS) 10,847
gnomAD v3.1	GRCh38	(WGS) 76,156
gnomAD v4.0	GRCh38	(WES) 730,947 ; (WGS) 76,215
gnomAD-SV v4.0	GRCh38	(WGS) 63,046
gnomAD-CNV v4.0	GRCh38	(WES) 464,297

從官網的統計圖表可清楚了解族群數量分布，由於UK Biobank 樣本以 European 為大宗，合併至 v4 使 European Ancestry比例偏高接近80% 另外值得注意的是 EAS 樣本數有大進展，從前幾版的不到萬人增至2萬初，能協助修正 allele frequency 的預估結果

v4 與 v3 差異

取消 subset 釋出

過去v3樣本來自多種cohort，為提供研究者作為疾病研究的control，gnomAD v3 有釋出多種subsets，如: non-cancer subset 為排除罹患癌症或從相關 cohort study收集來的樣本群(更多介紹可參考前篇文章)。 在v4版本僅有釋出non-UKBB subset，且僅提供allele frequency資訊給研究者做累加使用。下面文字截自gnomAD v4 SNV chrY VCF檔的INFO field，可以看到每個population都有拆分另外一組non-UKB的(prefix: non_ukb) 數據:

1
2
3
4


AC_afr_XY=0;AN_afr_XY=0;nhomalt_afr_XY=0;AC_afr=0;AN_afr=0;nhomalt_afr=0;...
AC_eas_XY=0;AN_eas_XY=0;nhomalt_eas_XY=0;...
AC_non_ukb_afr_XY=0;AN_non_ukb_afr_XY=0;nhomalt_non_ukb_afr_XY=0;AC_non_ukb_afr=0;AN_non_ukb_afr=0;nhomalt_non_ukb_afr=0;...
AC_non_ukb_eas_XY=0;AN_non_ukb_eas_XY=0;nhomalt_non_ukb_eas_XY=0;AC_non_ukb_eas=0;AN_non_ukb_eas=0;nhomalt_non_ukb_eas=0;...

此外若有使用註解 gnomAD 資料庫的工具如 dbnsfp，則可以明顯看到在資料庫版本更新後，就不會有 gnomAD_exomes_non_cancer 類似欄位產生，只會剩下 gnomAD_exomes_non_ukb 等欄位

而v4取消製作subset原因包含:

研究特定疾病如cancer、neuro-disease等，這些疾病的盛行率並不會過高到需要透過(乾淨的?) subsets 來做比對與分析，建議直接使用 gnomAD metadata 來協助研究
新加入的 UK Biobank 或是部分 cohort samples 並沒有完整 phenotype 資料，無法明確的區分樣本的疾病狀態

filtering allele frequency (FAF)

將 WES 和 WGS 的 allele count 合併計算之 allele frequency，稱作 filtering allele frequency

v4 exome 分析流程

(WGS 流程可參照 gnomAD v3版作法) 由於 v4 最大進展在於 exome callset 樣本數的提升，因此後續分析流程也有些更新:

joint callset 由原本的 gVCF 格式轉為 VariantDataset (VDS) 格式儲存
增加 interval QC 以確保目標區段擁有足夠的深度判別變異: 官網提供一組 interval list，左右延伸(padding) 50bp 後計算每個樣本在這些區段的平均深度。最後將 >85% 樣本擁有 >20X 深度的區段定義為 high coverage intervals
為 sample QC 定義 high qulaity site:為判斷樣本族群來源、親緣關係或定序品質，gnomAD v4從幾個資料集挑選 high quality sites (n = 175,043) 協助樣本QC:
- 屬於 autosomal, biallelic, single nucleotide variants (SNVs)
- 位於 gnomAD v3, CCDG, 以及 UK Biobank dataset 的位點紀錄
sample QC: 使用上面這些high quality site進行以下幾個重點QC
- hard filters: 使用新工具從 genotype data 預估 contamination 而非重新拿raw read 分析。其他也用DP, Het/Hom ratio 等數值去篩
- PCA clustering for exome capture platform: 由於樣本來源多樣，使用PCA區分出20種定序平台，label上潛在差異
- sex karyotypes
- relatedness between v4 exomes and genomes, and identified pairs of first and second degree relatives
- genetic ancestry groups
- QC metrics
variant QC by VQSR (和 v3 一樣拿大型計劃的位點做模型訓練並應用類似的篩選條件)

v4 SV

和前版 v2.1相比，除了樣本數從一萬初增加至超過六萬、偵測位點數增加，參考序列也從 hg19/GRCh37 改成擁有 alternative contigs 的 GRCh38做為參考序列。偵測流程使用相同的 GATK-SV pipeline，並增進變異註解(annotation)的結果。gnomAD-SV v4 從63,046個WGS樣本中找到超過一百萬個 high-quality SVs，SV特徵的趨勢與前版本相同，多為短片段(median size 360bp)的罕見位點(96% SVs AF < 1%)。

gnomAD-SV v4 的結果已公開至網站，可先行查詢利用；至於技術細節等內容，等研究論文發表後再來更新，根據之前使用v2.1版資料的經驗，可以再拿新的East Asian AF 來做 correlation plot，不過中間需要針對變異座標進行liftover轉換，等有空再來嘗試看看。

v4 CNV

gnomAD v4第一次釋出 CNV callset。也代表未來關於致病位點的研究，可往大片段缺失的偵測目標前進，並擁有 general population 資訊可參考。目前收錄從 464,297 WES data 找到之 rare ( AF <1% ) autosomal coding copy number variants (CNVs)，使用 GATK-gCNV (Babadi et al. Nat Genet, 2023) 流程偵測變異。

簡單順一下分析流程，主要利用比對至參考序列的BAM/CRAM作為input，並計算每個 protein-coding region (target interval) 的 read count (CNV 主要以深度差異來判斷) 接著使用這些數值做 clustering ，將特徵接近的樣本歸類至同一批次(batch)做後續分析。

CNV流程需要baseline來比較深度差異，通常來自 panel of normal (PoN，在somatic偵測代表tumor相對應的正常樣本) 的結果，而gnomAD 無針對特殊疾病，所以採隨機挑選200樣本作為Pon，之後經由QC篩選，normalization等等，最終以read depth, read count 等特徵判定基因體內的CNV events。

CNV偵測流程的可信度，透過一組同時具有WES(default input), WGS (IGV validation) 和 microarray 的樣本來驗證，透過和不同開源工具比較，詳細工具的演算法與使用差異，有機會再細看比較。

CNV 註釋

在變異註釋方面，現今工具主要在短片段如SNV/indel方面詮釋較佳，如ensembl VEP, AnnotSv等，而CNV宜由於變異跨度大，對於現行臨床ACMG準則來說難以完整判定，且多以基因為單位個別做註釋，整體影響預測尚未完全，而gnomAD作為可能的reference dataset，也針對變異作了以下註釋:

基本的GENCODE 註釋，並以overlap的比例判斷是否給註釋
長度與exon, interval範圍跨度
集合與分族群統計的AF: site count (SC), site number (SN), and site frequency (SF)

CNV subsets

和 gnomADv4 不同，由於大片段的罕見CNV位點與精神疾病有關連性，gnomAD CNV 有釋出兩組subsets:

Due to the known enrichment of large, rare CNVs that confer substantial relative risk in neuropsychiatric phenotype neuropsychiatric conditions: bipolar, epilepsy, schizophrenia, psychosis, and general psychiatric conditions

non-neuro (n = 418,924): 非精神疾病相關cohort樣本(neuropsychiatric conditions)，以及 biobank 樣本
non-neuro-control(n = 269,919): 不同cohort內標示為control的樣本,或是biobank樣本

References

https://gnomad.broadinstitute.org/news/2023-11-gnomad-v4-0/ https://gnomad.broadinstitute.org/news/2023-11-v4-structural-variants/ https://gnomad.broadinstitute.org/news/2023-11-v4-copy-number-variants/ https://gnomad.broadinstitute.org/news/2019-10-gnomad-v3-0/