AGD Research ID: agd0023.v1

 

研究内容の概要

目的: 難病やがんを対象としたゲノム医療の推進のため、全ゲノムシークエンス解析が進められている。疾患ゲノム解析の遂行には、疾患群の対照となるコントロール群の全ゲノム解析データも必要である。国内の5つの国立高度専門医療研究センター(ナショナルセンター[National Centers: NC])のバイオバンクにおいて収集し、地域性を考慮した検体から難病やがんに対するコントロール群を選定の上、全ゲノム解析を実施することで、コントロール群のゲノムデータベースを構築する。

方法: 本研究の目的に適したDNAサンプルを各バイオバンクから選定し、受託解析機関で全ゲノムシークエンス(Whole genome sequencing:WGS)解析を実施する。WGS解析はPCRフリープロトコルによりライブラリを調整し、NovaSeq 6000シークエンサーにてリードを取得することで、最低90Gbの出力を得る。解析で得られたfastq形式のリードデータは研究代表機関(国立国際医療研究センター)において情報解析(マッピング・バリアントコール)を行い、バリアント情報を含むデータをデータベース化する。

対象: 難病やがん研究のコントロール群として利用可能な健常者(難病やがんを罹患していない生活習慣病を持つ人を含む) の9830例のDNA検体

URL: https://ncbiobank.org/

       https://ncbiobank.org/cbs/

 

データID内容制限公開日
AGDS_000015 NGS(WGS) 制限共有(Type II) 2023/06/22

※リリース情報はこちら

※制限共有データの利用にあたっては、利用申請が必要です。申請方法はこちら

 

分子データ

AGDS_000015

対象 健常者(難病やがんを罹患していない生活習慣病を持つ人を含む)(ICD10:Z006):9830名
規模 WGS
対象領域(Target Captureの場合) -
Platform Illumina [NovaSeq 6000]
ソース 各バイオバンクから選定した健常者の末梢血から抽出したDNA
検体情報(購入の場合) -
ライブラリ作製方法(キット名) TruSeq DNA PCR-Free HT Library Prep Kit
断片化の方法 超音波断片化
ライブラリ構築方法 Paired-end
リード長(除:バーコード、アダプタ、プライマー、リンカー) 150 bp
クオリティコントロール方法

以下の条件で全ゲノムシークエンス解析を実施

- ライブラリサイズが400bp-750bpであることを確認

- QV30以上の塩基の割合が75%以上

- FASTQCによる重複リード除去後の総塩基数が900億塩基以上

 

アライメントとバリアントコール後に以下のサンプルを解析から除外した

- Depthおよびマップ率が異常値を示すサンプル

- 性染色体のDepthが臨床情報の性別と矛盾するサンプル

- KINGプログラムで2親等以内と判定されたサンプルのいずれか

 

バリアントコールの結果は以下のフィルタリングを実行した

- GQ<20またはDP<11またはDP>64またはヘテロ接合体コールにおいてマイナーアリルの割合が25%未満のジェノタイプはno callに設定

- VQSRの結果をVCFのFILTERフィールドにセット

- コール率95%未満のバリアントにはFILTERにLowCRをセット

- Hardy-Weinberg平衡検定のP値が10-6未満のバリアントにはFILTERにHWEをセット

重複するリードの除去方法 MarkDuplicates(GATK4.1.0)互換アルゴリズム(Parabricks 3.1.0 fq2bam)
リアライメントおよびベースクオリティのキャリブレーション -
マッピング方法 bwa mem(v0.7.15)互換アルゴリズム(Parabricks 3.1.0 fq2bam)
マッピングクオリティ MQによるハードフィルタリングは未実施
マッピングの際のリファレンス配列 GRCh38 (+HLA+decoy)
平均カバー率(Depth) 34.0(常染色体)
変異検出方法 HaplotypeCaller(GATK4.1.0)互換アルゴリズム(Parabricks 3.1.0 haplotypecaller)
SNV数(QC後)

153,554,029(常染色体)

6,325,046(X染色体)

INDEL数(QC後)

18,899,392(常染色体)

836,126(X染色体)

Amed Genome group sharing Database Dataset ID AGDD_000019
総データ量 869 TiB(fastq、CRAM、gVCF)
コメント(利用にあたっての制限事項) AGD policy および agd0023 Policy

 

提供者情報

研究代表者: 徳永 勝士

所 属 機 関: 国立国際医療研究センター ゲノム医科学プロジェクト

プロジェクト/研究グループ名: ナショナルセンターバイオバンクネットワーク

科研費/助成金(Research Project Number):

科研費・助成金名タイトル研究課題番号
日本医療研究開発機構・臨床ゲノム情報統合データベース整備事業 ゲノム医療の実装に資する臨床ゲノム情報統合データベースの整備と我が国の継続的なゲノム医療実施体制の構築 JP19kk0205012

 

関連論文

タイトルDOIデータID
1
2