コンテンツにスキップ
biolearnexacttdfv5yx39x31x2px34

UMAPとは何か

この記事で学ぶこと

  • UMAPが高次元データを見やすく配置する可視化手法だと説明できる
  • 点、色、クラスタ、注釈の意味を区別できる
  • UMAPの形や距離を読みすぎない注意点を理解する

UMAPは、高次元データを2次元などに配置し、全体のまとまりやクラスタを見やすくする可視化手法です。

single-cell RNA-seqでは、各細胞が多数の遺伝子発現量を持つため、そのままでは全体像を見にくくなります。UMAPは細胞どうしの近さを図として表示し、クラスタやサンプル差を確認する入口になります。

single-cell解析で細胞をUMAP上に配置し、色でクラスタや細胞型を示す概念図
UMAPは細胞のまとまりを見やすくする地図 点、色、クラスタ名、サンプル由来を確認し、距離や形を読みすぎないようにします。

UMAPはsingle-cell解析の概要図として頻繁に使われます。細胞のまとまり、クラスタ、条件差、マーカー遺伝子の発現を一枚で見せられるため、論文の主張の入口になりやすい図です。

ただし、UMAPは便利な地図のような図ですが、距離や形をそのまま生物学的距離として読むものではありません。クラスタ名や細胞型名は、マーカー遺伝子、注釈方法、Methodsの設定と合わせて解釈します。

single-cell RNA-seqでは、UMAPを使って細胞を2次元に配置し、細胞タイプ、サンプル、処理条件、遺伝子発現量で色分けします。似た発現パターンの細胞は近くに置かれやすくなります。

UMAP図では、1つの点が1つの細胞を表すことが多く、色はクラスタ、細胞型、サンプル条件、遺伝子発現量などを表します。まず、点の単位と色の意味を確認します。

どのデータからUMAPを作ったか、どの前処理やバッチ補正を行ったか、何で色分けしているかを確認します。クラスタ色、細胞タイプ色、サンプル色、遺伝子発現色は意味が違います。

たとえばT細胞、B細胞、単球がUMAP上で別々の領域に見えることがあります。その場合も、マーカー遺伝子や注釈方法が別に示されているかを確認します。

UMAPの配置は、入力データ、正規化、特徴量選択、近傍設定、バッチ補正などで変わることがあります。したがって、島の形や距離だけで細胞型、分化方向、時間的順序を決めることはできません。

UMAPは仮説を立てる助けになりますが、主張を支えるには、マーカー遺伝子、細胞数、サンプル数、統計解析、別の図や実験との整合性が必要です。

論文や実験ではどう出てくるか

Section titled “論文や実験ではどう出てくるか”

論文では、single-cell解析の概要図として頻繁に出てきます。細胞タイプラベル、サンプル由来、処理条件、マーカー遺伝子発現を重ねて表示することがあります。

読むときは、何で色分けしているか、どのデータからUMAPを作ったか、クラスタリングや注釈の根拠が別に示されているかを確認します。

  • UMAPとクラスタリング: UMAPは可視化のための次元削減で、クラスタリングそのものではありません。
  • UMAP上の距離と実際の時間: 近さは発現パターンの近さの手がかりで、時間や系譜を直接示すとは限りません。
  • 島の数と細胞タイプ数: 見た目のまとまりが、そのまま正しい細胞タイプ数とは限りません。
  • UMAPで離れていれば、必ず別の細胞型だと読まない。
  • UMAP上の島の形を、生物学的な形や距離として解釈しない。
  • 色がクラスタなのか、細胞型なのか、条件なのかを確認する。
  • 細胞数が多く見えることを、独立サンプル数が多いことと混同しない。
日本語 英語 略語 説明
UMAP Uniform Manifold Approximation and Projection UMAP 高次元データを2次元などに配置し、全体のまとまりを見やすくする方法。
次元削減 dimensionality reduction - 多数の特徴量を少ない軸に要約し、全体像を見やすくする方法。
クラスタリング clustering - 似た特徴を持つデータ点を解析上のまとまりに分ける処理。
マーカー遺伝子 marker gene - 細胞タイプや状態を見分ける手がかりになる遺伝子。
確認問題

読み終えた内容を、1問ずつ選択式で確認します。

未回答

4 最高記録なし 復習なし

確認問題

確認問題

1/4