コンテンツにスキップ
biolearnexacta09o1px9nix9mrx9n8x9o3x9m8

マッピングとは何か

この記事で学ぶこと

  • マッピングがリードを参照配列上の位置へ対応づける処理であることを説明できる
  • マッピング率、複数位置への対応、マッピング品質の意味を理解する
  • マッピング結果を生物学的な結論と区別して読めるようになる

マッピングは、シーケンサーで得られた短い配列を、リファレンスゲノムや転写産物などの参照配列上の位置へ対応づける解析です。

FASTQに入っているリードは、それだけではゲノム上のどこから来たのか分かりません。マッピングでは、リードの配列と参照配列を比べ、もっともらしい由来位置を推定して後続解析の土台を作ります。

短いリードが長い参照配列の対応する位置に並べられ、重なりから解析の土台ができる様子を示す教材イラスト
マッピングはリードを参照配列へ位置づける処理 リードの位置づけは、発現量推定、カバレッジ確認、バリアント検出などの前提になります。

なぜマッピングの視点が重要か

Section titled “なぜマッピングの視点が重要か”

マッピングは、シーケンスデータをゲノム上の位置や遺伝子に結びつける工程です。どの位置に何本のリードが対応したかが分かることで、発現量、カバレッジ、ピーク、バリアント候補などを計算できます。

一方で、マッピング結果は「このリードが必ずここから来た」と証明するものではありません。似た配列や反復配列が多い領域では、複数の位置に対応し得るため、マッピングの不確かさを意識して結果を読みます。

ゲノム解析では、DNA由来のリードをリファレンスゲノムに対応づけます。RNA-seqでは、ゲノムに対応づける方法と、転写産物配列へ対応づける方法があります。スプライシングをまたぐリードを扱うため、RNA-seq用の手法ではイントロンをまたぐ対応も考えます。

短いリードのマッピングでは、完全一致だけでなく、ミスマッチや小さな挿入・欠失を許して対応づけることがあります。長いリードでは、長い配列の中に誤りや構造の違いが含まれることも考えて位置づけます。

マッピングでは、リードをリファレンスゲノムや転写産物配列に対応づけ、位置、向き、対応の質などを記録します。結果はSAM/BAMのような形式で保存されることが多く、ゲノムブラウザで見たり、カウントやバリアントコールへ渡したりします。

品質確認では、マッピング率、重複率、挿入サイズ、カバレッジ、複数位置へ対応したリードの扱いなどを確認します。どのリファレンスやアノテーションを使ったかも、結果の解釈に関わります。

マッピングの違いは何につながるか

Section titled “マッピングの違いは何につながるか”

同じFASTQでも、リファレンスの版、アノテーション、許すミスマッチ、マルチマップリードの扱いによって、後続の結果が変わることがあります。RNA-seqでは遺伝子ごとのカウントに影響し、ゲノム解析ではバリアント候補やカバレッジ評価に影響します。

反復配列や類似遺伝子が多い領域では、リードを一意に位置づけにくくなります。そのような領域の結果は、周辺の配列文脈や品質指標を合わせて慎重に読みます。

論文や実験ではどう出てくるか

Section titled “論文や実験ではどう出てくるか”

Methodsでは、使ったマッピングツール、リファレンスゲノムの版、アノテーション、パラメータ、除外条件が説明されます。ResultsやSupplementaryでは、マッピング率、重複率、カバレッジ、遺伝子ごとのカウントなどとして現れます。

Figureでは、ゲノムブラウザのトラックとしてリードの積み重なりが表示されることがあります。RNA-seqでは、マッピング後に作られたカウント行列や差次的発現解析の結果が図になります。

  • マッピングとアラインメント: アラインメントは配列同士の対応づけを広く指し、マッピングは参照配列上の位置づけを強調します。
  • マッピング率とデータの良さ: マッピング率は重要な指標ですが、それだけで実験全体の質や結論の強さは決まりません。
  • リファレンスとサンプル配列: リファレンスは基準であり、サンプルそのものの完全な配列ではありません。
  • マッピングされた位置を、常に唯一の由来位置だと考えない。
  • 反復配列や相同な遺伝子では、リードの対応が曖昧になることを意識します。
  • ツールやリファレンスの違いを確認せず、別の解析結果を単純比較しないようにします。
日本語 英語 略語 説明
マッピング mapping - リードなどの配列を参照配列上の位置へ対応づける解析。
アラインメント alignment - 配列同士の対応する位置をそろえて並べる処理。
リード read - シーケンサーで読み取られた短い配列断片。
リファレンスゲノム reference genome - 配列解析やゲノム表示で基準として使う代表的なゲノム配列。
カバレッジ coverage - ある領域がシーケンシングでどれくらい読まれているかを表す指標。
確認問題

読み終えた内容を、1問ずつ選択式で確認します。

未回答

4 最高記録なし 復習なし

確認問題

確認問題

1/4