コンテンツにスキップ
biolearnexact1gmpbqfx9n4x9lwx9m2x9lwx9o3x9n9x9m1x9nix9mux9lvx9m7x9mh

バイオインフォマティクス

バイオインフォマティクスは、DNA配列、RNA発現、タンパク質などの生命科学データを計算機で扱う分野です。BioLearnでは、シーケンスデータ、FASTQ、マッピング、SAM/BAM、VCF、RNA-seq、差次的発現解析、single-cell解析を入口に、測定結果をデータとして読む考え方を学びます。

  • RNA-seqが何を測っている実験なのかを説明できる
  • シーケンスデータを、DNAやRNA由来の配列情報として整理できる
  • FASTQ、SAM/BAM、VCFのようなファイル形式が解析のどの段階にあるかを区別できる
  • 差次的発現解析で、変化量と統計的な確からしさを分けて読める
  • single-cell解析で、細胞ごとの発現量、クラスタ、細胞タイプ注釈を慎重に確認できる

バイオインフォマティクスの記事は、解析手順を暗記するためではなく、論文中のデータ解析Figureを読むための前提として使います。先にFigureを読んでいて分からなくなった場合も、このカテゴリへ戻ると整理しやすくなります。

図の種類ごとの確認点だけを素早く見たい場合は Figure早見表 を使います。このカテゴリでは、早見表で見つけた疑問を、RNA-seq、single-cell解析、次元削減、クラスタリングなどの前提へ戻して学び直します。

ゲノム、変異、RNA-seq、single-cell解析、オミクスFigureを順番につなげて読みたい場合は、オミクス解析を読む を使います。

迷っていること入口Figureで戻る場所
解析Figureの全体像を知りたいバイオインフォマティクスシーケンスデータFigureを読めるようになるFigure早見表
オミクス解析を順番に学びたいオミクス解析を読む論文Figureの読み方論文読解演習
FASTQやBAMなどの形式で迷うFASTQマッピングSAM/BAMVCFゲノムブラウザFigure早見表
RNA-seqが何を測るのか知りたいRNA-seqシーケンスデータVolcano plotヒートマップ
発現差の結果を読みたいカウント行列正規化差次的発現解析Volcano plotGSEA plot
single-cell解析の流れを知りたいsingle-cell RNA-seqsingle-cell QCバッチ効果UMAP / t-SNEViolin plot
クラスタや細胞型の意味を確認したいクラスタリングマーカー遺伝子細胞タイプ注釈UMAP / t-SNEFigureと主張
解析の偏りや条件差が気になるバッチ効果次元削減PCA plot多重検定補正研究の限界
  1. データは、実験で測った対象と方法を意識して読みます。
  2. RNA-seqの結果は、遺伝子発現の違いを調べる入口になります。
  3. single-cell解析では、UMAPの見た目だけでなく、品質管理、クラスタリング、注釈、バッチ効果を確認します。

解析の全体像とデータの入口

  1. バイオインフォマティクスとは何か 未学習 バイオインフォマティクス

    バイオインフォマティクスを、生命科学データを計算で整理・解析・解釈する分野として説明します。

  2. シーケンスデータとは何か 未学習 バイオインフォマティクス

    DNAやRNAの配列を読んで得られるデータの基本を説明します。

シーケンスデータの形式と前処理

  1. メタデータとは何か 未学習 バイオインフォマティクス

    バイオインフォマティクスでサンプル情報や実験条件を読み解くためのメタデータを説明します。

  2. FASTQとは何か 未学習 バイオインフォマティクス

    FASTQファイルに含まれるリード配列と品質スコアの基本を説明します。

  3. マッピングとは何か 未学習 バイオインフォマティクス

    シーケンスリードをリファレンス配列上の位置へ対応づけるマッピングを説明します。

  4. SAM/BAMとは何か 未学習 バイオインフォマティクス

    マッピング後のリード情報を保存するSAM/BAM形式の基本を説明します。

  5. VCFとは何か 未学習 バイオインフォマティクス

    バリアント候補を記録するVCF形式の基本と読み方の注意点を説明します。

RNA-seq・カウント行列・発現解析

  1. RNA-seqとは何か 未学習 バイオインフォマティクス

    RNA-seqを遺伝子発現を調べるシーケンス手法として説明します。

  2. カウント行列とは何か 未学習 バイオインフォマティクス

    RNA-seqやsingle-cell RNA-seqで使うカウント行列を、細胞またはサンプルと遺伝子の表として説明します。

  3. 正規化とは何か 未学習 バイオインフォマティクス

    RNA-seqやsingle-cell解析で、サンプル間の測定量を比較しやすく整える正規化を説明します。

  4. 差次的発現解析とは何か 未学習 バイオインフォマティクス

    条件間で遺伝子発現が変わるかを調べる解析の基本を説明します。

  5. Pathway enrichmentとは何か 未学習 バイオインフォマティクス

    変化した遺伝子リストから、経路や機能カテゴリの偏りを読むpathway enrichment解析を説明します。

  6. GSEAとは何か 未学習 バイオインフォマティクス

    遺伝子全体のランキングから遺伝子セットの偏りを見るGSEAを説明します。

single-cellデータと品質を整える

  1. single-cell RNA-seqとは何か 未学習 バイオインフォマティクス

    single-cell RNA-seqを、1細胞ごとの遺伝子発現を読み、細胞集団の違いを調べる解析として説明します。

  2. single-cell QCとは何か 未学習 バイオインフォマティクス

    single-cell RNA-seqの品質管理を、低品質細胞、検出遺伝子数、ミトコンドリア比率、doublet確認の観点から説明します。

  3. バッチ効果とは何か 未学習 バイオインフォマティクス

    バッチ効果を、実験日、試薬、測定機器などの違いによって生じる技術的な差として説明し、single-cell解析での注意点につなげます。

細胞集団を読み解く

  1. 次元削減とは何か 未学習 バイオインフォマティクス

    次元削減を、多数の遺伝子や特徴量を少ない軸に圧縮して全体像を見やすくする方法として説明します。

  2. クラスタリングとは何か 未学習 バイオインフォマティクス

    single-cell解析などで使われるクラスタリングを、似たデータ点をまとめる探索的な解析として説明します。

  3. UMAPとは何か 未学習 バイオインフォマティクス

    UMAPを、高次元データを2次元などに配置してsingle-cell解析の全体像を見る可視化手法として説明します。

  4. マーカー遺伝子とは何か 未学習 バイオインフォマティクス

    マーカー遺伝子を、特定の細胞型や状態を見分ける手がかりになる遺伝子として説明します。

  5. 細胞タイプ注釈とは何か 未学習 バイオインフォマティクス

    single-cell解析でクラスタに細胞型名を付ける細胞タイプ注釈を、マーカー遺伝子と根拠確認の観点から説明します。

解析結果の偏りを確認する

  1. 解析ワークフローとは何か 未学習 バイオインフォマティクス

    生データから図や表に至る解析手順として、解析ワークフローの役割と確認点を説明します。

  2. 解析ノートブックとは何か 未学習 バイオインフォマティクス

    コード、説明、図表をまとめて記録する解析ノートブックの役割と読み方を説明します。

  3. 論文データの再解析とは何か 未学習 バイオインフォマティクス

    公開データや論文付属データを使い、解析条件を確認しながら結果を再検討する再解析を説明します。

RNA-seqに進む前に、DNA、RNA、遺伝子発現、ゲノムの考え方を押さえておくと理解しやすくなります。カテゴリ内では、バイオインフォマティクスの全体像、シーケンスデータ、メタデータ、FASTQ、マッピング、SAM/BAM、VCFで配列データの流れを押さえます。次にRNA-seq、カウント行列、正規化、差次的発現解析、pathway enrichment、GSEAで発現解析の基本に進みます。その後single-cell RNA-seq、QC、バッチ効果、次元削減、クラスタリング、UMAP、マーカー遺伝子、細胞タイプ注釈へ進むのがおすすめです。解析の再現性や読み返し方は、最後に解析ワークフロー、解析ノートブック、再解析で確認します。