コンテンツにスキップ
biolearnexactiitrwuxg7axikj

分布とは何か

この記事で学ぶこと

  • 分布が何を表すか説明できる
  • 平均だけでは見えない広がりや偏りを意識できる
  • 箱ひげ図、Violin plot、ヒストグラムの入口を理解する

分布は、データがどの値にどれくらい集まっているかを示す見方です。

平均やp値だけでは、値の広がり、外れ値、群内の多様性は見えにくいことがあります。分布を見ると、Figure上の点や箱ひげ図が示しているデータの形を読みやすくなります。

同じ平均でも狭い分布と広い分布があり、データの散らばり方が異なることを示す概念図
分布は値の集まり方を示す 平均だけでなく、広がり、偏り、外れ値を確認します。

同じ平均値を持つデータでも、値の散らばり方は大きく異なることがあります。平均の近くに集まる場合もあれば、広く散らばる場合、片側に長く伸びる場合、2つの山を持つ場合もあります。

分布を見ると、外れ値、ばらつき、群内の多様性、少数のサブグループに気づきやすくなります。特に細胞ごとの値やサンプル数が限られた実験では、平均だけでなく分布を見ることが大切です。

生命科学のデータでは、左右対称に近い分布だけでなく、片側に偏った分布、外れ値を含む分布、複数の山を持つ分布が出てきます。細胞ごとの遺伝子発現量は、少数の細胞だけ高い値を持つ偏った分布になることがあります。

タンパク質量や蛍光強度も、平均だけでは見えないばらつきを持つことがあります。同じ平均値でも、値が狭く集まっている場合と広く散らばっている場合では、結果の読み方が変わります。

分布は、点を重ねた図、箱ひげ図、Violin plot、ヒストグラム、density plotなどで観察します。表示形式によって見えやすい情報が異なるため、代表値だけでなく点の広がりや外れ値を合わせて見ます。

Methodsでは、何を1点として数えているか、外れ値をどう扱ったか、表示している値が生データか正規化後の値かを確認します。

分布の違いは、群内の多様性、測定のばらつき、サブグループの存在、外れ値の影響を考える入口になります。平均が似ていても、片方の群だけ大きく散らばっていれば、単純に「同じ」とは読み切れません。

ただし、分布の形だけから原因を断定することはできません。サンプル数、測定方法、実験条件、解析の前処理と合わせて考えます。

論文や実験ではどう出てくるか

Section titled “論文や実験ではどう出てくるか”

論文では、ヒストグラム、Violin plot、箱ひげ図、density plot、散布図として出てきます。統計検定の選択や外れ値の扱いにも関係します。

読むときは、代表値だけでなく、ばらつき、偏り、外れ値、サンプル数を合わせて確認します。箱ひげ図の読み方Violin plotの読み方では、分布をFigure上で直接読む練習ができます。

  • 分布と平均: 平均は分布の一部を要約した値で、全体の形を表すわけではありません。
  • 分布とヒストグラム: ヒストグラムは分布を表示する方法の一つです。
  • 正規分布とすべてのデータ: 生命科学データが常に正規分布に従うわけではありません。
  • 平均が同じなら分布も同じだと思うと、ばらつきや外れ値を見落とします。
  • 点の重なりや外れ値を見ずに、棒の高さだけで判断しないようにします。
  • 分布の形から原因まで一気に断定せず、実験条件とMethodsを確認します。
日本語 英語 略語 説明
分布 distribution - データがどの値にどれくらい集まっているかを示す見方。
外れ値 outlier - 他の値から大きく離れた値。
ばらつき variability - データがどれくらい散らばっているか。
ヒストグラム histogram - 値の範囲ごとの数を示し、分布の形を確認する図。
確認問題

読み終えた内容を、1問ずつ選択式で確認します。

未回答

4 最高記録なし 復習なし

確認問題

確認問題

1/4