コンテンツにスキップ
biolearnexact4qyjsix9m3x9lyx9o3x9mwxqx8xg7r

カウント行列とは何か

この記事で学ぶこと

  • カウント行列が何を表す表か説明できる
  • bulk RNA-seqとsingle-cell RNA-seqで行列の単位が変わることを理解する
  • カウントをそのまま比較しない理由を説明できる

カウント行列は、遺伝子ごとに観測されたリードや分子の数を、サンプルまたは細胞ごとに並べた表です。

RNA-seqやsingle-cell RNA-seqでは、この表が多くの解析の出発点になります。行と列が何を表すかを確認すると、正規化、次元削減、差次的発現解析の意味が見えやすくなります。

遺伝子を行、細胞またはサンプルを列にしたカウント行列の概念図
カウント行列は遺伝子と細胞・サンプルの表 RNA-seqやsingle-cell解析では、この表を出発点に正規化、次元削減、クラスタリングへ進みます。

なぜカウント行列の視点が重要か

Section titled “なぜカウント行列の視点が重要か”

カウント行列は、生のシーケンスデータと解析結果の間にある重要な中間データです。ここで何が行、何が列、何が値かを理解していないと、その後の発現量、クラスタ、差次的発現の図を読み違えやすくなります。

カウントは解析の出発点ですが、そのまま発現量として単純比較するものではありません。サンプルごとの総リード数、細胞ごとの検出効率、遺伝子長、技術的なばらつきなどの影響を受けるため、正規化品質管理とセットで扱います。

bulk RNA-seqでは、列がサンプル、行が遺伝子になることが多いです。single-cell RNA-seqでは、列が細胞やバーコード、行が遺伝子になることが多く、非常に大きく、値が0の多い表になります。

たとえばGene Aがサンプル1で100、サンプル2で300と数えられていても、ライブラリサイズや正規化を考えずに単純比較はできません。

RNA-seq解析では、シーケンサーから得られたリードを遺伝子や転写産物に対応づけ、遺伝子ごとの数を数えます。この数を表にしたものがカウント行列です。

single-cell RNA-seqでは、細胞バーコードやUMIを使って、どの細胞でどの遺伝子由来の分子が検出されたかを数えます。Methodsでは、どのツールやアノテーションで数えたかが重要です。

カウント行列の違いは何につながるか

Section titled “カウント行列の違いは何につながるか”

低品質細胞、低発現遺伝子、重複、マッピングの違いは、カウント行列の値に影響します。そのため、正規化前後、フィルタ前後、bulkかsingle-cellかを区別して読む必要があります。

single-cellではゼロが多くなりますが、ゼロは「本当に発現していない」場合と「検出できなかった」場合の両方を含みます。ゼロの多さは、次元削減やクラスタリングの見え方にも影響します。

論文や実験ではどう出てくるか

Section titled “論文や実験ではどう出てくるか”

論文では、カウント行列そのものはSupplementaryやデータリポジトリに置かれ、本文では正規化後の発現量、差次的発現、ヒートマップとして出てくることが多いです。

Methodsでは、どのツールでリードを数えたか、どの遺伝子アノテーションを使ったか、低発現遺伝子をどう扱ったかが重要です。

  • カウントと発現量: カウントは観測された数で、発現量として比較するには正規化が必要です。
  • 生データと解析済みデータ: カウント行列は中間データで、FASTQや図そのものとは違います。
  • ゼロと発現なし: 特にsingle-cellでは、検出できなかっただけのゼロもあります。
  • カウントが大きい遺伝子を、常に発現が高いと単純に読まない。
  • カウント行列の単位がサンプルなのか細胞なのかを確認する。
  • 正規化や品質管理の前後を区別せずに図を読まない。
日本語 英語 略語 説明
カウント行列 count matrix - 遺伝子ごとのカウントをサンプルまたは細胞ごとに並べた表。
リード read - シーケンサーで読み取られた短い配列断片。
正規化 normalization - サンプルや細胞間で比較しやすいように尺度を整える処理。
品質管理 quality control QC 解析に影響する低品質データや外れ値を確認する工程。
確認問題

読み終えた内容を、1問ずつ選択式で確認します。

未回答

4 最高記録なし 復習なし

確認問題

確認問題

1/4