AGD Research ID: agd0023.v1

研究内容の概要

目的： 難病やがんを対象としたゲノム医療の推進のため、全ゲノムシークエンス解析が進められている。疾患ゲノム解析の遂行には、疾患群の対照となるコントロール群の全ゲノム解析データも必要である。国内の５つの国立高度専門医療研究センター（ナショナルセンター[National Centers: NC]）のバイオバンクにおいて収集し、地域性を考慮した検体から難病やがんに対するコントロール群を選定の上、全ゲノム解析を実施することで、コントロール群のゲノムデータベースを構築する。

方法： 本研究の目的に適したDNAサンプルを各バイオバンクから選定し、受託解析機関で全ゲノムシークエンス（Whole genome sequencing：WGS）解析を実施する。WGS解析はPCRフリープロトコルによりライブラリを調整し、NovaSeq 6000シークエンサーにてリードを取得することで、最低90Gbの出力を得る。解析で得られたfastq形式のリードデータは研究代表機関（国立国際医療研究センター）において情報解析（マッピング・バリアントコール）を行い、バリアント情報を含むデータをデータベース化する。

対象： 難病やがん研究のコントロール群として利用可能な健常者（難病やがんを罹患していない生活習慣病を持つ人を含む）の9830例のDNA検体

URL： https://ncbiobank.org/

　　 https://ncbiobank.org/cbs/

データID	内容	制限	公開日
AGDS_000015	NGS（WGS）	制限共有（Type II）	2023/06/22

※リリース情報はこちら

※制限共有データの利用にあたっては、利用申請が必要です。申請方法はこちら。

分子データ

AGDS_000015


対象	健常者（難病やがんを罹患していない生活習慣病を持つ人を含む）（ICD10：Z006）：9830名
規模	WGS
対象領域（Target Captureの場合）	-
Platform	Illumina [NovaSeq 6000]
ソース	各バイオバンクから選定した健常者の末梢血から抽出したDNA
検体情報（購入の場合）	-
ライブラリ作製方法（キット名）	TruSeq DNA PCR-Free HT Library Prep Kit
断片化の方法	超音波断片化
ライブラリ構築方法	Paired-end
リード長（除：バーコード、アダプタ、プライマー、リンカー）	150 bp
クオリティコントロール方法	以下の条件で全ゲノムシークエンス解析を実施 - ライブラリサイズが400bp-750bpであることを確認 - QV30以上の塩基の割合が75%以上 - FASTQCによる重複リード除去後の総塩基数が900億塩基以上アライメントとバリアントコール後に以下のサンプルを解析から除外した - Depthおよびマップ率が異常値を示すサンプル - 性染色体のDepthが臨床情報の性別と矛盾するサンプル - KINGプログラムで２親等以内と判定されたサンプルのいずれかバリアントコールの結果は以下のフィルタリングを実行した - GQ<20またはDP<11またはDP＞64またはヘテロ接合体コールにおいてマイナーアリルの割合が25%未満のジェノタイプはno callに設定 - VQSRの結果をVCFのFILTERフィールドにセット - コール率95%未満のバリアントにはFILTERにLowCRをセット - Hardy-Weinberg平衡検定のP値が10-6未満のバリアントにはFILTERにHWEをセット
重複するリードの除去方法	MarkDuplicates（GATK4.1.0）互換アルゴリズム（Parabricks 3.1.0 fq2bam）
リアライメントおよびベースクオリティのキャリブレーション	-
マッピング方法	bwa mem（v0.7.15）互換アルゴリズム（Parabricks 3.1.0 fq2bam）
マッピングクオリティ	MQによるハードフィルタリングは未実施
マッピングの際のリファレンス配列	GRCh38 (+HLA+decoy)
平均カバー率（Depth）	34.0（常染色体）
変異検出方法	HaplotypeCaller（GATK4.1.0）互換アルゴリズム（Parabricks 3.1.0 haplotypecaller）
SNV数（QC後）	153,554,029（常染色体） 6,325,046（X染色体）
INDEL数（QC後）	18,899,392（常染色体） 836,126（X染色体）
Amed Genome group sharing Database Dataset ID	AGDD_000019
総データ量	869 TiB（fastq、CRAM、gVCF）
コメント（利用にあたっての制限事項）	AGD policy および agd0023 Policy

提供者情報

研究代表者： 徳永勝士

所属機関： 国立国際医療研究センターゲノム医科学プロジェクト

プロジェクト/研究グループ名： ナショナルセンターバイオバンクネットワーク

科研費/助成金（Research Project Number）：

科研費・助成金名	タイトル	研究課題番号
日本医療研究開発機構・臨床ゲノム情報統合データベース整備事業	ゲノム医療の実装に資する臨床ゲノム情報統合データベースの整備と我が国の継続的なゲノム医療実施体制の構築	JP19kk0205012

研究内容の概要

分子データ

提供者情報

関連論文