Featured image of post 生資系列:確校資料集 Benchmarking truth set

生資系列:確校資料集 Benchmarking truth set

當團隊開發一套新工具,要如何評估工具的準確度?這時需要一組可信度高的正確資料集來協助衡量(benhcmark)工具表現,以下介紹在人類基因體常用的資料集來源。

GIAB

Genome In A Bottle Consotrium 由美國國家標準與技術研究所 (NIST) 主持的計畫,主要提供人類基因體相關的標準品與正確資料集(truth set):

標準品主要從NIGMS Human Genetic Cell Repository挑選cell line 來產生,共有7個樣本(HG001-HG007),標準品的編號和族群、家族關係等整理如下表:

(table collected from Coriell Institute for medical research)

製作正確資料集首先需要不同定序平台與偵測工具的檔案來源、在生資分析上也需要做好品質篩選(QC)、變異的比對合併(merging)以及基因型計算(genotyping)過程可說耗費精力。GIAB不僅提供多個標準品的正確資料集,也致力於提供不同種變異類型/參考序列的資料集,目前官網有提到以下幾種:

Structural variants: Currently available for HG002 on GRCh37 and in Challenging Medically Relevant Gene benchmark below

Small variants in more difficult regions: v4.2.1 is available for all 7 GIAB samples on GRCh37 and GRCh38 (manuscript).

MHC: Included in v4.2.1 small variant benchmark for HG001-HG007 (Manuscript describing MHC benchmark)

273 Challenging Medically Relevant Genes small variant and SV benchmarks in HG002 and Preliminary benchmark for T2T-CHM13v1.0

v1.0 TR benchmark for HG002 indels and SVs >=5bp in tandem repeats on GRCh38 (preprint)

v1.0 XY benchmark for HG002 small variants in chromosomes X and Y on GRCh38 (preprint)

GIAB團隊以令人驚訝的速度前進,久沒關注竟然有針對tandem repeat跟性染色體的truth set,目前僅先釋出資料集給研究者,論文似乎還在preprint階段

資料下載

如果想要truth set,可以直接從ftp網站找檔案下載使用: https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/release/ 或是去 GitHub 查看感興趣的標準品目前有沒有對應的 truth set: https://github.com/genome-in-a-bottle/giab_latest_release 兩個路徑都行,反正最後都會引導到相同的地方

實際找個HG002 SNV/indel GRCh38 truth set來看,透過層層資料夾點選,最終找到目標VCF檔:

如果想要看開源的標準品fastq, bam 等檔案,以拿來當作測試工具的input,可以至以下網站查詢: https://github.com/genome-in-a-bottle/giab_data_indexes

網站也是先依族群分標準品,然後分定序平台和檔案類型:

Somatic truth set

上述可能針對human germline variant 為主,而想做somatic caller benchmarking 的話該如何?最近找到一個Biostar的討論,裡面有提到兩篇釋出somatic truth set的文章,一個是WGS, 一個針對panel,最近準備來讀:

Fang, L.T., Zhu, B., Zhao, Y. et al. Establishing community reference samples, data and call sets for benchmarking cancer mutation detection using whole-genome sequencing. Nat Biotechnol 39, 1151–1160 (2021). https://doi.org/10.1038/s41587-021-00993-6

Jones, W., Gong, B., Novoradovskaya, N. et al. A verified genomic reference sample for assessing performance of cancer panels detecting small variants of low allele frequency. Genome Biol 22, 111 (2021). https://doi.org/10.1186/s13059-021-02316-z

討論

過去在沒有資料及整合釋出前,會使用模擬資訊來作為正確答案;之後可能會使用同時具有WGS, WES等不同定序結果的樣本,透過不同層級的證據來驗證變異真實存在,或是使用sanger sequencing等實驗做驗證,但缺點為無法一次比較出結果,且驗證樣本的品質等因素也會影響評估結果。

若對truth set 流變和其他團隊製作的truth set感興趣的話,可閱讀2023年這篇 review paper:

Majidian, S., Agustinho, D.P., Chin, CS. et al. Genomic variant benchmark: if you cannot measure it, you cannot improve it. Genome Biol 24, 221 (2023). https://doi.org/10.1186/s13059-023-03061-1

文章的corresonding author Fritz J. Sedlazeck 和 Medhat Mahmoud 都是 GIAB 的團隊領導,也參與美國許多定序計畫如All of US, T2T consortium 等

不過雖然說是truth set,其製作過程也是將不同平台與工具偵測的結果經由比對,篩選留下的consensus cell-set,若未來隨著定序技術進步,如PacBio, Nanopore等long-read定序資料占比提高,一定會有更多位點被偵測到,或是篩掉某些位點;另外不同參考序列的取捨,也會影響留在truth set的位點資訊,如從GRCh37 truth set 經由座標轉換(liftover)至 GRCh38 後,拿來benchmark GRCh38 detected test set 就會有一些潛在無法比對的區域,導致false positive 數量增加。

而有正確解答和代測檔案,就可以找做benchmarking的工具了,如 snv/indel比對的hap.py等,有機會可以寫一篇來介紹。

comments powered by Disqus