biolearnexact11l2prex34x2rx2pxwx34x30x33x38
PCA plotの読み方
この記事で学ぶこと
- PCA plotで点が何を表すか確認できる
- サンプルのまとまりや外れ値を読める
- PC1/PC2の割合を確認する理由を理解する
PCA plotは、多数の変数を持つデータで、サンプル同士の全体的な似ている・違うを可視化するFigureです。RNA-seqなどの大規模データで、群分けや外れたサンプルを確認するときによく使われます。
読むときは、点の近さを「全体の違いを要約した地図」として扱います。なぜ近いのか、なぜ離れているのかは、メタデータや追加解析に戻って考えます。
このFigureで何を見るか
Section titled “このFigureで何を見るか”このFigureでは、1つの点が何を表すか、色分けが何に対応するか、PC1/PC2の説明割合、外れ値、バッチの影響を確認します。点の近さを読む前に、点とメタデータの対応を押さえます。
図の構成要素
Section titled “図の構成要素”- 点: 多くの場合、各サンプルを表します。
- PC1/PC2: データのばらつきを大きく説明する方向です。
- 説明割合: 軸ラベルの%で、2次元図がどの程度の情報を表すかを見ます。
- 色や形: 条件、バッチ、サンプル種別、時間点などを示します。
- 外れ値: 他から離れた点は品質やメタデータを確認します。
- 点がサンプル、細胞、遺伝子のどれを表すか確認します。
- 色や形がどの条件に対応するかを見ます。
- 条件ごとにまとまるか、外れた点がないか確認します。
- PC1/PC2の説明割合を見て、2次元図の限界を意識します。
- 離れた理由を、品質、バッチ、実験条件、解析方法に戻して確認します。
PCA plotは次元削減とは何かとつながります。RNA-seqで出てきた場合は、RNA-seqとは何かやバッチ効果に戻ると、点のまとまりの理由を考えやすくなります。
よくある誤解
Section titled “よくある誤解”- PCAの近さを、特定の1遺伝子だけの近さとして読む。
- 2次元で離れている理由を、追加情報なしに断定する。
- クラスタが分かれているだけで、原因が証明されたと考える。
- PC1/PC2の説明割合を見ずに、図全体を強く解釈する。
確認問題
読み終えた内容を、1問ずつ選択式で確認します。
未回答
4問
最高記録なし 復習なし