SAM/BAMとは何か
この記事で学ぶこと
Section titled “この記事で学ぶこと”この記事で学ぶこと
- SAM/BAMがマッピング後のリード情報を保存する形式であることを説明できる
- 位置、向き、マッピング品質、CIGARなどの情報が何を支えるか理解する
- BAMを最終結論ではなく後続解析の中間データとして読めるようになる
SAM/BAMは、マッピング後のリードが参照配列のどこに、どのように対応したかを保存する代表的なファイル形式です。
SAMは人が読めるテキスト形式、BAMは同じ情報を圧縮したバイナリ形式です。実際の解析ではBAMがよく使われ、リードの位置情報からカバレッジ、発現量、バリアント候補などを計算します。
なぜSAM/BAMの視点が重要か
Section titled “なぜSAM/BAMの視点が重要か”FASTQはリード配列と品質を持つ入口のファイルですが、SAM/BAMはマッピング後の位置づけを持つ中間データです。どのリードがどこに対応したかが分かることで、ゲノム上の深さや遺伝子ごとのカウントを調べられます。
SAM/BAMを理解すると、ゲノムブラウザで見えるリードの積み重なりや、バリアントコールの前提を読みやすくなります。解析結果の表だけを見るより、元になったリード配置を確認できる場面が増えます。
SAM/BAMにはどんな情報があるか
Section titled “SAM/BAMにはどんな情報があるか”SAM/BAMには、リード名、参照配列名、位置、向き、マッピング品質、CIGAR文字列、塩基配列、品質スコアなどが含まれます。CIGARは、リードが参照配列に対して一致、挿入、欠失、スキップなどをどう含むかを表す情報です。
BAMは大きなデータを効率よく扱うために使われ、通常は座標順に並べ替えたり、インデックスを作ったりして使います。インデックスがあると、特定の染色体や領域だけを素早く表示できます。
SAM/BAMはどう確認・処理するか
Section titled “SAM/BAMはどう確認・処理するか”まず、期待したサンプルに対応するBAMか、使ったリファレンスの版が合っているかを確認します。次に、総リード数、マッピング率、重複率、挿入サイズ、染色体ごとの分布、カバレッジなどを見ます。
ゲノムブラウザでは、BAMを読み込むことで特定領域のリード配置を確認できます。RNA-seqでは遺伝子領域にリードがどのように集まるか、ゲノム解析では候補変異の周辺にどのようなリードがあるかを見ます。
SAM/BAMの作り方の違いは何につながるか
Section titled “SAM/BAMの作り方の違いは何につながるか”同じFASTQから作ったBAMでも、マッピングツール、リファレンス、重複リードの扱い、並べ替えやフィルタ条件によって後続結果が変わることがあります。バリアントコールや発現量推定では、どのBAMを使ったかが重要な前提になります。
カバレッジが低い領域では、変異候補や発現量の推定が不安定になることがあります。反対に、リードが多く見えても、重複やマッピングの曖昧さが原因の場合があります。
論文や実験ではどう出てくるか
Section titled “論文や実験ではどう出てくるか”Methodsでは、BAMはマッピング後のファイルとして、ソート、重複処理、フィルタリング、インデックス作成などと一緒に説明されることがあります。データ公開では、FASTQに加えてBAMが提供される場合もあります。
Resultsでは、BAMそのものよりも、ゲノムブラウザ図、カバレッジトラック、ピーク、カウント、VCFなどの形で結果が示されます。図の元データがBAMであることを知っておくと、リード配置に戻って確認できます。
どんな点でつまずきやすいか
Section titled “どんな点でつまずきやすいか”似た用語との区別
Section titled “似た用語との区別”- SAMとBAM: SAMはテキスト形式、BAMは圧縮されたバイナリ形式です。情報の種類はほぼ対応します。
- FASTQとBAM: FASTQはマッピング前の配列と品質、BAMはマッピング後の位置情報を持ちます。
- マッピング品質と塩基品質: マッピング品質はリードの位置づけの確からしさ、塩基品質は各塩基の読み取りの確からしさです。
解釈の落とし穴
Section titled “解釈の落とし穴”- BAMにリードが積み重なっているだけで、その領域の機能や変異の意味を断定しない。
- インデックスやソート状態が合っていないと、表示や解析がうまく進まないことがあります。
- リファレンスの版が違うBAMと注釈ファイルを組み合わせると、座標の解釈がずれることがあります。
| 日本語 | 英語 | 略語 | 説明 |
|---|---|---|---|
| SAM/BAM | Sequence Alignment/Map and Binary Alignment/Map | SAM/BAM | マッピング後のリード配置と関連情報を保存するファイル形式。 |
| マッピング | mapping | - | リードなどの配列を参照配列上の位置へ対応づける解析。 |
| カバレッジ | coverage | - | ある領域がシーケンシングでどれくらい読まれているかを表す指標。 |
| 品質スコア | quality score | Q score | 塩基の読み取りがどれくらい信頼できるかを表す指標。 |
読み終えた内容を、1問ずつ選択式で確認します。
未回答