バイオインフォマティクス
バイオインフォマティクスは、DNA配列、RNA発現、タンパク質などの生命科学データを計算機で扱う分野です。BioLearnでは、シーケンスデータ、FASTQ、マッピング、SAM/BAM、VCF、RNA-seq、差次的発現解析、single-cell解析を入口に、測定結果をデータとして読む考え方を学びます。
この分野で学ぶこと
Section titled “この分野で学ぶこと”- RNA-seqが何を測っている実験なのかを説明できる
- シーケンスデータを、DNAやRNA由来の配列情報として整理できる
- FASTQ、SAM/BAM、VCFのようなファイル形式が解析のどの段階にあるかを区別できる
- 差次的発現解析で、変化量と統計的な確からしさを分けて読める
- single-cell解析で、細胞ごとの発現量、クラスタ、細胞タイプ注釈を慎重に確認できる
目的別に選ぶ
Section titled “目的別に選ぶ”バイオインフォマティクスの記事は、解析手順を暗記するためではなく、論文中のデータ解析Figureを読むための前提として使います。先にFigureを読んでいて分からなくなった場合も、このカテゴリへ戻ると整理しやすくなります。
図の種類ごとの確認点だけを素早く見たい場合は Figure早見表 を使います。このカテゴリでは、早見表で見つけた疑問を、RNA-seq、single-cell解析、次元削減、クラスタリングなどの前提へ戻して学び直します。
ゲノム、変異、RNA-seq、single-cell解析、オミクスFigureを順番につなげて読みたい場合は、オミクス解析を読む を使います。
解析Figureの地図を作る
実験、データ、解析、解釈の流れを分け、バイオインフォマティクスの入口を確認します。
RNA-seq発現解析の入口をつかむ
RNA-seq、カウント行列、正規化、差次的発現解析の関係を確認します。
ファイル形式解析の途中データを読む
FASTQ、マッピング、SAM/BAM、VCFを、解析の流れの中で確認します。
single-cell細胞ごとの発現を読む
QC、バッチ効果、次元削減、クラスタリング、マーカー遺伝子、細胞タイプ注釈を順に確認します。
FigureオミクスFigureへ戻る
Volcano plot、ヒートマップ、PCA、UMAP、GSEAを、解析条件と統計表示に戻して読みます。
統計結果の強さを確認する
p値、多重検定補正、効果量、サンプル条件を分け、解析結果から言える範囲を見ます。
| 迷っていること | 入口 | Figureで戻る場所 |
|---|---|---|
| 解析Figureの全体像を知りたい | バイオインフォマティクス、シーケンスデータ | Figureを読めるようになる、Figure早見表 |
| オミクス解析を順番に学びたい | オミクス解析を読む | 論文Figureの読み方、論文読解演習 |
| FASTQやBAMなどの形式で迷う | FASTQ、マッピング、SAM/BAM、VCF | ゲノムブラウザ、Figure早見表 |
| RNA-seqが何を測るのか知りたい | RNA-seq、シーケンスデータ | Volcano plot、ヒートマップ |
| 発現差の結果を読みたい | カウント行列、正規化、差次的発現解析 | Volcano plot、GSEA plot |
| single-cell解析の流れを知りたい | single-cell RNA-seq、single-cell QC、バッチ効果 | UMAP / t-SNE、Violin plot |
| クラスタや細胞型の意味を確認したい | クラスタリング、マーカー遺伝子、細胞タイプ注釈 | UMAP / t-SNE、Figureと主張 |
| 解析の偏りや条件差が気になる | バッチ効果、次元削減 | PCA plot、多重検定補正、研究の限界 |
まず押さえる3つの考え方
Section titled “まず押さえる3つの考え方”- データは、実験で測った対象と方法を意識して読みます。
- RNA-seqの結果は、遺伝子発現の違いを調べる入口になります。
- single-cell解析では、UMAPの見た目だけでなく、品質管理、クラスタリング、注釈、バッチ効果を確認します。
解析の全体像とデータの入口
- バイオインフォマティクスとは何か
未学習
バイオインフォマティクス
バイオインフォマティクスを、生命科学データを計算で整理・解析・解釈する分野として説明します。
- シーケンスデータとは何か
未学習
バイオインフォマティクス
DNAやRNAの配列を読んで得られるデータの基本を説明します。
シーケンスデータの形式と前処理
- メタデータとは何か
未学習
バイオインフォマティクス
バイオインフォマティクスでサンプル情報や実験条件を読み解くためのメタデータを説明します。
- FASTQとは何か
未学習
バイオインフォマティクス
FASTQファイルに含まれるリード配列と品質スコアの基本を説明します。
- マッピングとは何か
未学習
バイオインフォマティクス
シーケンスリードをリファレンス配列上の位置へ対応づけるマッピングを説明します。
- SAM/BAMとは何か
未学習
バイオインフォマティクス
マッピング後のリード情報を保存するSAM/BAM形式の基本を説明します。
- VCFとは何か
未学習
バイオインフォマティクス
バリアント候補を記録するVCF形式の基本と読み方の注意点を説明します。
RNA-seq・カウント行列・発現解析
- RNA-seqとは何か
未学習
バイオインフォマティクス
RNA-seqを遺伝子発現を調べるシーケンス手法として説明します。
- カウント行列とは何か
未学習
バイオインフォマティクス
RNA-seqやsingle-cell RNA-seqで使うカウント行列を、細胞またはサンプルと遺伝子の表として説明します。
- 正規化とは何か
未学習
バイオインフォマティクス
RNA-seqやsingle-cell解析で、サンプル間の測定量を比較しやすく整える正規化を説明します。
- 差次的発現解析とは何か
未学習
バイオインフォマティクス
条件間で遺伝子発現が変わるかを調べる解析の基本を説明します。
- Pathway enrichmentとは何か
未学習
バイオインフォマティクス
変化した遺伝子リストから、経路や機能カテゴリの偏りを読むpathway enrichment解析を説明します。
- GSEAとは何か
未学習
バイオインフォマティクス
遺伝子全体のランキングから遺伝子セットの偏りを見るGSEAを説明します。
single-cellデータと品質を整える
- single-cell RNA-seqとは何か
未学習
バイオインフォマティクス
single-cell RNA-seqを、1細胞ごとの遺伝子発現を読み、細胞集団の違いを調べる解析として説明します。
- single-cell QCとは何か
未学習
バイオインフォマティクス
single-cell RNA-seqの品質管理を、低品質細胞、検出遺伝子数、ミトコンドリア比率、doublet確認の観点から説明します。
- バッチ効果とは何か
未学習
バイオインフォマティクス
バッチ効果を、実験日、試薬、測定機器などの違いによって生じる技術的な差として説明し、single-cell解析での注意点につなげます。
細胞集団を読み解く
- 次元削減とは何か
未学習
バイオインフォマティクス
次元削減を、多数の遺伝子や特徴量を少ない軸に圧縮して全体像を見やすくする方法として説明します。
- クラスタリングとは何か
未学習
バイオインフォマティクス
single-cell解析などで使われるクラスタリングを、似たデータ点をまとめる探索的な解析として説明します。
- UMAPとは何か
未学習
バイオインフォマティクス
UMAPを、高次元データを2次元などに配置してsingle-cell解析の全体像を見る可視化手法として説明します。
- マーカー遺伝子とは何か
未学習
バイオインフォマティクス
マーカー遺伝子を、特定の細胞型や状態を見分ける手がかりになる遺伝子として説明します。
- 細胞タイプ注釈とは何か
未学習
バイオインフォマティクス
single-cell解析でクラスタに細胞型名を付ける細胞タイプ注釈を、マーカー遺伝子と根拠確認の観点から説明します。
解析結果の偏りを確認する
- 解析ワークフローとは何か
未学習
バイオインフォマティクス
生データから図や表に至る解析手順として、解析ワークフローの役割と確認点を説明します。
- 解析ノートブックとは何か
未学習
バイオインフォマティクス
コード、説明、図表をまとめて記録する解析ノートブックの役割と読み方を説明します。
- 論文データの再解析とは何か
未学習
バイオインフォマティクス
公開データや論文付属データを使い、解析条件を確認しながら結果を再検討する再解析を説明します。
RNA-seqに進む前に、DNA、RNA、遺伝子発現、ゲノムの考え方を押さえておくと理解しやすくなります。カテゴリ内では、バイオインフォマティクスの全体像、シーケンスデータ、メタデータ、FASTQ、マッピング、SAM/BAM、VCFで配列データの流れを押さえます。次にRNA-seq、カウント行列、正規化、差次的発現解析、pathway enrichment、GSEAで発現解析の基本に進みます。その後single-cell RNA-seq、QC、バッチ効果、次元削減、クラスタリング、UMAP、マーカー遺伝子、細胞タイプ注釈へ進むのがおすすめです。解析の再現性や読み返し方は、最後に解析ワークフロー、解析ノートブック、再解析で確認します。