コンテンツにスキップ
biolearnexact11l2prex34x2rx2pxwx34x30x33x38

PCA plotの読み方

この記事で学ぶこと

  • PCA plotで点が何を表すか確認できる
  • サンプルのまとまりや外れ値を読める
  • PC1/PC2の割合を確認する理由を理解する

PCA plotは、多数の変数を持つデータで、サンプル同士の全体的な似ている・違うを可視化するFigureです。RNA-seqなどの大規模データで、群分けや外れたサンプルを確認するときによく使われます。

読むときは、点の近さを「全体の違いを要約した地図」として扱います。なぜ近いのか、なぜ離れているのかは、メタデータや追加解析に戻って考えます。

PCA plotで条件ごとのサンプルがまとまり、外れ値を確認する概念図
PCA plotはサンプル同士の全体的な違いを見る 点の単位、条件ごとのまとまり、外れ値、PC1/PC2の説明割合を確認します。

このFigureでは、1つの点が何を表すか、色分けが何に対応するか、PC1/PC2の説明割合、外れ値、バッチの影響を確認します。点の近さを読む前に、点とメタデータの対応を押さえます。

  • 点: 多くの場合、各サンプルを表します。
  • PC1/PC2: データのばらつきを大きく説明する方向です。
  • 説明割合: 軸ラベルの%で、2次元図がどの程度の情報を表すかを見ます。
  • 色や形: 条件、バッチ、サンプル種別、時間点などを示します。
  • 外れ値: 他から離れた点は品質やメタデータを確認します。
  1. 点がサンプル、細胞、遺伝子のどれを表すか確認します。
  2. 色や形がどの条件に対応するかを見ます。
  3. 条件ごとにまとまるか、外れた点がないか確認します。
  4. PC1/PC2の説明割合を見て、2次元図の限界を意識します。
  5. 離れた理由を、品質、バッチ、実験条件、解析方法に戻して確認します。

PCA plotは次元削減とは何かとつながります。RNA-seqで出てきた場合は、RNA-seqとは何かバッチ効果に戻ると、点のまとまりの理由を考えやすくなります。

  • PCAの近さを、特定の1遺伝子だけの近さとして読む。
  • 2次元で離れている理由を、追加情報なしに断定する。
  • クラスタが分かれているだけで、原因が証明されたと考える。
  • PC1/PC2の説明割合を見ずに、図全体を強く解釈する。
確認問題

読み終えた内容を、1問ずつ選択式で確認します。

未回答

4 最高記録なし 復習なし

確認問題

確認問題

1/4