クラスタリングとは何か
この記事で学ぶこと
Section titled “この記事で学ぶこと”この記事で学ぶこと
- クラスタリングが似たデータをまとめる解析だと説明できる
- クラスタが自動的に細胞型を意味するわけではないと理解する
- 解像度や前処理で結果が変わることを説明できる
クラスタリングは、特徴が似ているデータ点をグループに分ける探索的な解析です。
single-cell解析では、発現パターンが似ている細胞をまとめ、細胞集団や状態の候補を探すために使います。クラスタはデータ上のまとまりであり、細胞型名そのものではありません。
なぜクラスタリングの視点が重要か
Section titled “なぜクラスタリングの視点が重要か”クラスタリングを理解すると、single-cell Figureでよく出てくるクラスタ番号や色分けを、解析上の結果として読めるようになります。クラスタが分かれて見えることと、生物学的に別の細胞型であることは同じではありません。
細胞型として解釈するには、マーカー遺伝子、既知の知識、サンプル条件、Methodsの注釈方法を合わせて確認します。クラスタリングは、答えを確定する工程というより、候補を見つけて整理する工程です。
どんなクラスタリングがあるか
Section titled “どんなクラスタリングがあるか”single-cell RNA-seqでは、発現パターンが似ている細胞をクラスタリングし、UMAP上で色分けします。似た細胞が同じクラスターに入りやすいため、細胞タイプや細胞状態の候補を見つける入口になります。
遺伝子発現データでは、似た発現変化を示す遺伝子をまとめるために使うこともあります。
クラスタリングはどう確認するか
Section titled “クラスタリングはどう確認するか”クラスタがどの前処理、どの特徴量、どのパラメータから得られたかを確認します。single-cell解析では、近傍グラフや解像度パラメータの設定によって、クラスタの細かさが変わります。
クラスタを細胞型として読むには、マーカー遺伝子、既知の細胞生物学、サンプル由来、必要に応じて参照データとの照合を見ます。UMAP上の色だけで判断しないことが大切です。
クラスタリング結果の違いは何につながるか
Section titled “クラスタリング結果の違いは何につながるか”クラスタリング結果は前処理、使う遺伝子、次元削減、近傍の設定、解像度などで変わります。論文を読むときは、クラスタがいくつあるかだけでなく、どの条件で分けたか、分け方が主張にどう使われているかを確認します。
細かく分けすぎると似た細胞状態を別クラスタとして読みすぎることがあり、粗すぎると重要な少数集団を見逃すことがあります。
論文や実験ではどう出てくるか
Section titled “論文や実験ではどう出てくるか”論文では、UMAPやt-SNE上の色分け、クラスターごとのマーカー遺伝子、細胞タイプ注釈として出てきます。Methodsでは、使ったアルゴリズム、解像度パラメータ、前処理が重要です。
読むときは、クラスターがどのデータ処理から得られたか、マーカーや既知知識でどう解釈されたかを確認します。
どんな点でつまずきやすいか
Section titled “どんな点でつまずきやすいか”似た用語との区別
Section titled “似た用語との区別”- クラスターと細胞タイプ: クラスターは解析結果で、細胞タイプ名はその後の解釈です。
- クラスタリングと次元削減: 次元削減は見やすく配置する処理、クラスタリングは似たものをグループ化する処理です。
- クラスター数と真の分類数: パラメータによってクラスター数は変わるため、唯一の正解とは限りません。
解釈の落とし穴
Section titled “解釈の落とし穴”- クラスタが分かれていれば、必ず別の細胞型だと読まない。
- クラスタ番号を、細胞型名や生物学的な順序だと考えない。
- UMAP上で離れている距離を、そのまま定量的な距離として解釈しない。
- 解像度や前処理の影響を確認せず、クラスタ数だけを比較しない。
| 日本語 | 英語 | 略語 | 説明 |
|---|---|---|---|
| クラスタリング | clustering | - | 似た特徴を持つデータ点を解析上のまとまりに分ける処理。 |
| クラスター | cluster | - | クラスタリングで得られたデータ上のまとまり。 |
| 次元削減 | dimensionality reduction | - | 多数の特徴量を少ない軸に要約し、全体像を見やすくする方法。 |
| マーカー遺伝子 | marker gene | - | 細胞タイプや状態を見分ける手がかりになる遺伝子。 |
読み終えた内容を、1問ずつ選択式で確認します。
未回答