コンテンツにスキップ
biolearnexact1xoe1bbx9mfx9ocx9m9x9o3x9mhx9mvx9ocx9mn

シーケンスデータとは何か

この記事で学ぶこと

  • シーケンスデータが塩基配列を読んだ結果であることを理解する
  • リード、品質スコア、リファレンスゲノムの意味を知る
  • 実験データを解析可能な形にする流れを説明できる

シーケンスデータは、DNAやRNA由来の塩基配列を読み取って得られるデータです。

シーケンサーは試料から作ったライブラリを読み取り、多数の短い配列情報を出力します。このデータはゲノム解析やRNA-seq解析の入口になりますが、品質確認や前処理を通してから解釈します。

シーケンサーから短いリードが得られ、品質確認を経て参照ゲノムに対応づけられる様子を示す教材イラスト
シーケンスデータは多くの短いリードから始まる 読み取られた配列は品質を確認し、必要な前処理を行ってから参照配列などに対応づけます。

なぜシーケンスデータの視点が重要か

Section titled “なぜシーケンスデータの視点が重要か”

シーケンスデータは、現代のゲノム解析やRNA-seq解析の出発点です。DNARNAを読んだ結果は、まず多数のリードとして得られます。

生のリードは、そのまま結論ではありません。品質、アダプター配列、マッピング率、リファレンスの選び方などが結果に影響します。データの性質を知ることで、解析結果を過信せずに読めます。

どんなシーケンスデータがあるか

Section titled “どんなシーケンスデータがあるか”

DNA由来のデータでは、ゲノム配列、変異、カバレッジなどを調べます。RNA由来のデータでは、遺伝子発現や転写産物の情報を調べます。どちらも、まずリードという短い断片として得られる点は共通しています。

FASTQファイルには、リードの塩基配列と品質スコアが含まれます。マッピング後にはSAM/BAM、変異検出後にはVCF、発現解析ではカウント行列のように、解析段階に応じて形式が変わります。

シーケンスデータはどう調べるか

Section titled “シーケンスデータはどう調べるか”

解析では、リード数、塩基ごとの品質、アダプター混入、GC含量、重複、マッピング率などを確認します。必要に応じて、低品質部分やアダプター配列を除き、リファレンスゲノムや転写産物へ対応づけます。

品質スコアは、各塩基の読み取りがどれくらい信頼できるかを示す手がかりです。低品質なリードが多いと、マッピングや変異検出、発現量推定に影響することがあります。

シーケンスデータの品質は何につながるか

Section titled “シーケンスデータの品質は何につながるか”

品質の低いデータでは、リードが正しい位置に対応づきにくくなったり、誤った変異候補が出たり、発現量推定が不安定になったりします。一方で、品質が高くても、実験設計やサンプル情報が不十分なら解釈は難しくなります。

データの性質を理解しておくと、解析結果の限界も見えやすくなります。リード数、カバレッジ、品質、参照配列の選び方は、結果の信頼性を考える入口です。

論文や実験ではどう出てくるか

Section titled “論文や実験ではどう出てくるか”

シーケンスデータは、FASTQ、BAM、VCF、カウント行列などの形式で扱われます。論文では、リード数、マッピング率、カバレッジ、品質管理図、データベース登録番号として示されることがあります。

Methodsでは、シーケンシングの方法、リード長、ペアエンドかどうか、使用した参照配列、前処理ツールなどが書かれます。Resultsでは処理後の図や表として現れることが多いです。

  • シーケンシングとシーケンスデータ: シーケンシングは配列を読む実験・技術で、シーケンスデータはその結果として得られるデータです。
  • リードとゲノム: リードは短い断片で、ゲノムは遺伝情報全体です。
  • 品質スコアと生物学的な信頼性: 品質スコアは読み取りの信頼度であり、結果の生物学的解釈そのものを保証するものではありません。
  • シーケンスデータをそのまま答えとして読まない。
  • すべてのリードが同じ信頼度を持つと考えない。
  • ファイル形式だけを見て、どの解析段階のデータかを確認し忘れない。
日本語 英語 略語 説明
シーケンスデータ sequence data - DNAやRNAの塩基配列を読み取って得られるデータ。
リード read - シーケンサーで読み取られた短い配列断片。
品質スコア quality score Q score 各塩基の読み取り信頼度を表す数値。
リファレンスゲノム reference genome - 読み取った配列を比較、配置する基準となるゲノム配列。
確認問題

読み終えた内容を、1問ずつ選択式で確認します。

未回答

4 最高記録なし 復習なし

確認問題

確認問題

1/4