コンテンツにスキップ
biolearnexact1fpyg7exl5txg1vxg96xlqz

次元削減とは何か

この記事で学ぶこと

  • 次元削減が多数の特徴を少ない軸に圧縮する方法だと説明できる
  • PCA、UMAP、t-SNEの位置づけを区別できる
  • 可視化の距離や形を読みすぎない注意点を理解する

次元削減は、多数の特徴量を持つデータを、少ない軸で見やすく表現する方法です。

single-cell RNA-seqでは、1つの細胞が数千から数万の遺伝子発現量を持ちます。次元削減は、そのような高次元データを要約し、全体像やばらつきを見やすくするために使います。

多数の遺伝子発現量を少ない軸に圧縮し、2次元の点群として表示する次元削減の概念図
次元削減は高次元データを見やすい形に圧縮する PCA、UMAP、t-SNEは全体像を見る助けになりますが、図の形をそのまま生物学的距離として読みすぎないようにします。

高次元データをそのまま眺めても、サンプルや細胞のまとまりは分かりにくいです。次元削減を使うと、品質の問題、バッチ効果、条件差、細胞集団の候補を図として確認しやすくなります。

一方で、次元削減は情報を圧縮するため、元データのすべてをそのまま保っているわけではありません。論文を読むときは、どの特徴量を使ったか、前処理やバッチ補正をどう行ったか、図の距離や形をどこまで解釈できるかを確認します。

PCAは、データの大きなばらつきを説明する軸を見つける方法です。UMAPやt-SNEは、細胞どうしの近さを2次元の図として見やすくするためによく使われます。

たとえば、処理群と対照群がPCAで分かれるか、細胞集団がUMAP上でまとまるかを確認します。

入力に使ったデータ、正規化、選んだ特徴量、バッチ補正の有無、色分けの意味を確認します。PCAでは軸がどれくらいのばらつきを説明しているか、UMAPやt-SNEでは点や色の単位を見ます。

次元削減図は、解析の入口として異常やまとまりを見るのに役立ちます。ただし、図上の距離や島の形だけで、細胞型や機能を決めることはできません。

次元削減の違いは何につながるか

Section titled “次元削減の違いは何につながるか”

使う遺伝子、正規化、バッチ補正、パラメータが変わると、点の配置や見えるまとまりが変わることがあります。次元削減の図は、後続のクラスタリングや細胞タイプ注釈の見え方にも影響します。

PCAで条件ごとに分かれて見える場合は、条件差だけでなく、バッチ効果やサンプル品質の違いも考えます。UMAPで島が分かれて見える場合も、マーカー遺伝子や注釈の根拠を合わせて確認します。

論文や実験ではどう出てくるか

Section titled “論文や実験ではどう出てくるか”

論文では、PCA plot、UMAP、t-SNEとして出てきます。QC、バッチ効果の確認、細胞タイプの可視化、サンプル間の違いの把握に使われます。

読むときは、入力データ、前処理、色分けの意味、軸や近さの解釈範囲を確認します。

  • 次元削減とクラスタリング: 次元削減は表示や要約、クラスタリングはグループ分けです。
  • 距離の見た目と定量的な差: 2次元図上の距離が、元データのすべての関係を正確に表すとは限りません。
  • UMAPの島と細胞タイプ: 島のように見えても、注釈やマーカー確認が必要です。
  • UMAPで近い点は、必ず同じ細胞状態だと読まない。
  • 2次元図に見えている形が、元データのすべてを表していると思わない。
  • 前処理や使った遺伝子の選び方を確認する。
  • PCA、UMAP、t-SNEを同じ意味の図として扱わない。
日本語 英語 略語 説明
次元削減 dimensionality reduction - 多数の特徴量を少ない軸に要約し、全体像を見やすくする方法。
PCA principal component analysis PCA データの大きなばらつきを説明する軸を見つける次元削減法。
UMAP Uniform Manifold Approximation and Projection UMAP 高次元データの近さを2次元などに配置して可視化する方法。
クラスタリング clustering - 似た特徴を持つデータ点を解析上のまとまりに分ける処理。
確認問題

読み終えた内容を、1問ずつ選択式で確認します。

未回答

4 最高記録なし 復習なし

確認問題

確認問題

1/4