page076

第3章 生物配列解析

  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 配列データベース
    データベース(database; DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたもののことです。この場合は、塩基配列やアミノ酸配列の情報を集めたもののことです。
  • 配列(sequence)
    この場合は、塩基配列やアミノ酸配列のことを指します。
  • 相同性検索(homology search)
    リンク先は「相同性」です。調べたい配列(塩基配列またはアミノ酸配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • 相同性(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
  • 進化的類縁関係(evolutionary relationship)
    進化的な観点からみて、互いに近い関係にあることです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 遺伝子構造(gene structure)
    この場合は、ゲノム中のエクソン(exon)イントロン(intron)領域がどこかを知るような理解でよいです。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • 構造予測(structure prediction)
    リンク先は「タンパク質構造予測」です。タンパク質についてそのアミノ酸配列をもとに3次元構造(立体配座)を推定することであり、バイオインフォマティクスおよび計算化学における研究分野の1つです。
  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • プロファイル(profile)
    この場合は、アラインメントによって得られたそれぞれの位置における、塩基やアミノ酸の出現頻度や挿入・欠失の頻度をもとにパターンを表したものという理解でよいです。
  • 隠れマルコフモデル(Hidden Markov Model; HMM)
    確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • バイオインフォマティクス(bioinformatics)
    生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • モチーフ(motif)
    タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。

3.1 配列のアラインメント

  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 共通祖先(common descent)
    全生物種の系統樹を描いたときに、一番根っこ部分にある生物種のことだという理解でよいと思います。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 変異(mutation)
    リンク先は「突然変異」です。DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • ペアワイズアラインメント(pairwise alignment)
    リンク先は「シーケンスアラインメント」です。アラインメントは手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べることであり、その作業を2本の配列で行うのがペアワイズアラインメントです。3本以上の場合をマルチプルアラインメント(または多重配列アラインメント)といいます。

3.1.1 大域アラインメントと局所アラインメント

  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 大域アラインメント(global alignment)
    リンク先は「シーケンスアラインメント」です。全体的に類似した配列を比較する際に、配列全体のアラインメントをとることです。ほぼ同じ長さの配列間での比較に有効です。グローバルアラインメントともいいます。
  • 局所アラインメント(local alignment)
    リンク先は「シーケンスアラインメント」です。配列の類似部分が限定されている場合に、配列の一部である類似部分に限定してアラインメントをとることです。ローカルアラインメントともいいます。

3.1.2 配列一致度と類似度スコア

  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • 配列一致度(sequence identity)
    比較する2本の配列が似ている度合いを表す指標の1つです。配列のアラインメントをとったとき、対応する文字が一致する割合を示すものです。分子(numerator)が「対応する文字が一致する数」、分母(denominator)が「アラインメントの長さ」です。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 感度(sensitivityまたはrecall)
    この場合は、「文字の一致しか見ていないため、本当は進化的な類縁関係があるにもかかわらず、それを同定できないことが多い」といったイメージで理解するとよいです。

  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 類似度(similarity)
    どのくらい似ているかを表す指標です。
  • アラインされた配列
    「アラインメントをとった状態の配列」と同じという理解でよいです。
page077
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 式(3.1)
    \[ \begin{align} S(x^{\prime}, y^{\prime}) = \sum_{i=1}^Ls(x_i^{\prime}, y_i^{\prime}) \tag{3.1} \end{align} \] 以下は記号の説明です:
    • \(x, y\)
      アラインメントしたい2本の配列を表す記号のことです。
    • \(x^{\prime}, y^{\prime}\)
      アラインメントをとった状態の配列(ギャップを含む場合あり)のことです。
    • \(x_i^{\prime}, y_i^{\prime}\)
      \(x^{\prime}, y^{\prime}\)\(i\)番目の文字のことです。
    • \(s(x_i^{\prime}, y_i^{\prime})\)
      文字\(x_i^{\prime}, y_i^{\prime}\)の類似度のことです。
    • \(L\)
      アラインメントの長さです。アラインメント前の配列\(x, y\)の配列長をそれぞれ\(m, n\)とすると、どちらか長い方というのは\(\max(m, n)\)と表現できますので、\(L \geq \max(m, n)\)です。
    • \(S(x^{\prime}, y^{\prime})\)
      アラインメント後の2本の配列\(x^{\prime}, y^{\prime}\)の類似度のことです。

  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 類似度(similarity)
    どのくらい似ているかを表す指標です。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 類似度スコア(similarity score)
    進化における変異のしやすさなどをもとに定義される、ある文字(塩基または残基)と別のある文字がどれくらい似ているかを数値化したスコアのことです。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。

  • 配列一致度(sequence identity)
    比較する2本の配列が似ている度合いを表す指標の1つです。配列のアラインメントをとったとき、対応する文字が一致する割合を示すものです。分子(numerator)が「対応する文字が一致する数」、分母(denominator)が「アラインメントの長さ」です。
  • 配列類似度(sequence similarity)
    比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • W3.1
    アラインメントの場合の数に関する補足資料です。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。

3.1.3 ギャップのスコア

  • 相同性(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。

  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 挿入や欠失
    リンク先は「インデル」です。ゲノム上のある場所に1~数十塩基程度の塩基配列が組み込まれるのが挿入(insertion)、逆に元からあった1~数十塩基程度の領域がなくなるのが欠失(deletion)です。2つのイベントを総称してインデル(indel)ともいいます。
  • ギャップペナルティ(gap penalty)
    リンク先は「Gap penalty」です。相同性のある配列のアラインメントをとるとき、対応する文字がない場合に、類似度が低いとして与えるスコアのことです。ギャップをむやみに入れると文字の正しい対応関係が表せなくなってしまうため、ギャップにはマイナスになるようなスコアを与えるのが一般的です。これはギャップ自体が類似度を下げるような効果(つまりペナルティ)に相当しますので、ギャップペナルティとよばれます。
  • リニアギャップペナルティ(linear gap penalty)
    リンク先は「Gap penalty」です。\(k\)個の連続したギャップのペナルティの計算方法として、1文字あたりのギャップペナルティ \(‒d\) (\(d\) > 0)を\(k\)倍するやり方のことです。\(-dk\)または\(-kd\)で表されます。同様に、\(i\)個の連続したギャップペナルティは\(-id\)\(j\)個の連続したギャップペナルティは\(-jd\)と表すことができます。
  • アフィンギャップペナルティ(affine gap penalty)
    リンク先は「Gap penalty」です。\(k\)個の連続したギャップのペナルティの計算方法として、連続したギャップに1つ与えるペナルティ \(‒d\) (\(d\) > 0)のほかに、\(k\)に比例するペナルティ \(-e\) (\(e\) > 0)を別に定義し(\(d\) > \(e\))、\(‒d‒ke\)で計算するやり方のことです。

3.1.4 最適アラインメントの計算

  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
最適大域アラインメント
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • 大域アラインメント(global alignment)
    リンク先は「シーケンスアラインメント」です。全体的に類似した配列を比較する際に、配列全体のアラインメントをとることです。ほぼ同じ長さの配列間での比較に有効です。グローバルアラインメントともいいます。
  • Needleman-Wunsch法(Needleman-Wunsch algorithm)
    リンク先は「Needleman–Wunsch algorithm」です。動的計画法に基づいて、最適な大域アラインメントを行うアルゴリズムのことです。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。本文中では「配列\(x\) = \(x_1x_2...x_m\)\(y\) = \(y_1y_2...y_n\)」のように書いていますが、たとえば次ページで例示している\(x\) = AACCと\(y\) = ACCの場合は、\(x_1\) = A, \(x_2\) = A, \(x_3\) = C, \(x_4\) = C, \(y_1\) = A, \(y_2\) = C, \(y_3\) = Cだと理解すればよいです。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
page078
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • 部分配列(partial sequence)
    この場合は、アミノ酸配列や塩基配列の一部のことを指します。アラインメント前の配列\(x, y\)の配列長をそれぞれ\(m, n\)として、たとえば最適アラインメントを求めたい2つの塩基配列が\(x\) = AACCと\(y\) = ACCだとすると、\(m\) = 4, \(n\) = 3です。本文中の「部分配列\(x_1x_2...x_i\)\(y_1y_2...y_j\)」は、\(x\)の部分配列の長さ\(i\)\(m\)以下(つまり\(i \leq m\))、同様に\(y\)の部分配列の長さ\(j\)\(n\)以下(つまり\(j \leq n\))のように解釈します。たとえば\(i\) = 3, \(j\) = 2とすると、\(x\) = AAC, \(y\) = ACという部分配列の最適アラインメントを考えるのだと理解すればよいです。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
  • スコア行列(score matrix)
    部分配列の最適アラインメントスコア情報を保持した数値行列\(F\)のことです。
  • リニアギャップペナルティ(linear gap penalty)
    リンク先は「Gap penalty」です。\(k\)個の連続したギャップのペナルティの計算方法として、1文字あたりのギャップペナルティ \(‒d\) (\(d\) > 0)を\(k\)倍するやり方のことです。\(-dk\)または\(-kd\)で表されます。同様に、\(i\)個の連続したギャップペナルティは\(-id\)\(j\)個の連続したギャップペナルティは\(-jd\)と表すことができます。
  • \(F(i, j)\)
    長さ\(m\)の配列\(x\) = \(x_1x_2...x_m\)と長さ\(n\)の配列\(y\) = \(y_1y_2...y_n\)の最適アラインメントを動的計画法で求めるにあたり、それよりも短い部分配列\(x_1x_2...x_i\) (\(i \leq m\))と\(y_1y_2...y_j\) (\(j \leq n\))の最適アラインメントのスコアを記憶しておくためのスコア行列が\(F\)です。\(F\)は(\(i+1\))行\(\times\)(\(j+1\))列からなり、添え字は0からスタートします。つまり図3.1図3.2の各行列において、1番左上の要素は\(0\)\(\times 0\)列目として考えるということです。\(F(i, j)\)は、スコア行列\(F\)中の\(i\)\(\times j\)列目の要素のことです。
  • 漸化式(recurrence relation)
    項がそれ以前の項の関数として定まるという意味で、数列を再帰的に定める等式のことです。難解な印象を受けるかもしれませんが、今スコアを定めたいスコア行列\(F\)中の\(i\)\(\times j\)列の要素の値は、単に1つ手前の要素(上、左、左斜め上)の値に基づくのだと理解すればよいです。
  • 式(3.2)
    この式に関連する図3.1の各行列において、1番左上の要素は\(0\)\(\times 0\)列目として考えますのでご注意ください。
    \[ F(i, j) = \max \begin{cases} F(i-1, j-1) + s(x_i, y_j) \\ \tag{3.2} F(i-1, j) - d \\ F(i, j-1) - d \end{cases} \] 以下は記号の説明です:
    • \(F(i-1, j-1)\)
      スコア行列\(F\)中の(\(i-1\))行\(\times\)(\(j-1\))列目の要素のスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.1の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i-1, j-1)\)は、注目している\(F(i, j)\)の左上の要素に対応し、初期条件より\(F(0, 0)\) \(= 0\)です。
    • \(x_i\)
      アラインメント対象である配列\(x\)中の\(i\)番目の文字のことです。たとえば\(x\) = AAACとすると、1番目の文字は\(x_1\) = A, 2番目の文字は\(x_2\) = A, 3番目の文字は\(x_3\) = A, 4番目の文字は\(x_4\) = Cです。
    • \(y_j\)
      アラインメント対象である配列\(y\)中の\(j\)番目の文字のことです。たとえば\(y\) = ACCとすると、1番目の文字は\(y_1\) = A, 2番目の文字は\(y_2\) = C, 3番目の文字は\(y_3\) = Cです。
    • \(s(x_i, y_j)\)
      文字\(x_i\)\(y_i\)の類似度のことです。塩基配列の場合は、page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)としてスコアを定義しています(初期条件の要素を除く)。塩基配列で図3.1の(2)に相当する\(i = 1, j = 1\)の場合、\(x_1\) = A, \(y_1\) = Aと文字が一致していますので、\(s(x_i, y_j)\) \(= s(x_1, y_1)\) \(= +1\)です。図3.1の(2)において、\(0\)\(\times 0\)列目から\(1\)\(\times 1\)列目の要素へと右下方向に伸びている矢印の近くに見えている括弧内の\(+1\)という数値がこれに対応します。なお、アミノ酸配列の場合は、式(3.4)で定義された値になります。
    • \(F(i-1, j)\)
      スコア行列\(F\)中の(\(i-1\))行\(\times\)\(j\)列の要素のスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.1の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i-1, j)\)は、注目している\(F(i, j)\)のすぐ上の要素に対応し、初期条件より\(F(0, 1)\) \(= -2\)です。
    • \(-d\)
      ギャップペナルティのことです。アラインメントをとった際に、対応する文字がない場合に与える罰則に相当する低いスコアのようなものです。不一致と似た概念ではありますが、不一致は対応する文字がある点で異なります。\(d > 0\)として定義していますので、ギャップペナルティは\(-d\)として考えます。
    • \(F(i-1, j) - d\)
      スコア行列\(F\)中の(\(i-1\))行\(\times\)\(j\)列に対応する、配列\(x\)中の\(i\)番目の文字\(x_i\)に対して、配列\(y\)中の\(j\)番目の文字\(y_j\)の左側にギャップ(\(-d\))を割り当てたときのスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.1の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i-1, j)\)は、注目している\(F(i, j)\)のすぐ上の要素に対応し、初期条件より\(F(0, 1)\) \(= -2\)です。また、塩基配列の場合は、page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)としてスコアを定義しています(初期条件の要素を除く)。したがって、この場合は、\(F(i-1, j) - d\) \(= F(0, 1) - 2 = -4\)です。図3.1の(2)において、\(0\)\(\times 1\)列目の要素から\(1\)\(\times 1\)列目の要素へと下方向に伸びている矢印の近くに見えている括弧内の\(-2\)という数値がこれに対応します。「\(x\) = AAACの1番目の文字(つまり\(x_1\) = A)に対して、\(y\) = ACC中の文字ではなく、ギャップを与えてアラインメントをとった場合のスコア」だと理解すればよいです。
    • \(F(i, j-1)\)
      スコア行列\(F\)中の\(i\)\(\times\)(\(j-1\))列の要素のスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.1の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i, j-1)\)は、注目している\(F(i, j)\)のすぐ左の要素に対応し、初期条件より\(F(1, 0)\) \(= -2\)です。
    • \(F(i, j-1) - d\)
      スコア行列\(F\)中の\(i\)\(\times\)(\(j-1\))列に対応する、配列\(y\)中の\(j\)番目の文字\(y_j\)に対して、配列\(x\)中の\(i\)番目の文字\(x_i\)の左側にギャップ(\(-d\))を割り当てたときのスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.1の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i, j-1)\)は、注目している\(F(i, j)\)のすぐ左の要素に対応し、初期条件より\(F(1, 0)\) \(= -2\)です。また、塩基配列の場合は、page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)としてスコアを定義しています(初期条件の要素を除く)。したがって、この場合は、\(F(i, j-1) - d\) \(= F(1, 0) - 2 = -4\)です。図3.1の(2)において、\(1\)\(\times 0\)列目の要素から\(1\)\(\times 1\)列目の要素へと右方向に伸びている矢印の近くに見えている括弧内の\(-2\)という数値がこれに対応します。「\(y\) = ACCの1番目の文字(つまり\(y_1\) = A)に対して、\(x\) = AAAC中の文字ではなく、ギャップを与えてアラインメントをとった場合のスコア」だと理解すればよいです。

  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
  • 配列類似度(sequence similarity)
    比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。
  • バックトラック(backtrack)
    リンク先は「バックトラッキング」です。コンピュータで数学的な問題の解を探索するアルゴリズムです。制約充足問題の解を探索する戦略の一種で、力まかせ探索を改良したものです。この場合は、本文中の「maxで選択した過程を逆にたどること」という理解でよいです。

  • 図3.1
    最適大域アラインメントの計算例です。page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)として計算しています。なお、各行列の1番左上の要素は\(0\)\(\times 0\)列目として考えますのでご注意ください。初刷では右下のほうで「y-ACC」と書かれていますが、正しくは「y=-ACC」ですm(_ _)m
  • 大域アラインメント(global alignment)
    リンク先は「シーケンスアラインメント」です。全体的に類似した配列を比較する際に、配列全体のアラインメントをとることです。ほぼ同じ長さの配列間での比較に有効です。グローバルアラインメントともいいます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
page079
最適局所アラインメント
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • 最適局所アラインメント(optimal local alignment)
    配列類似度を最大にする局所アラインメント(配列の類似部分が限定されている場合に、配列の一部である類似部分に限定したアラインメント)のことです。
  • Smith-Waterman法(Smith–Waterman algorithm)
    リンク先は「Smith–Waterman algorithm」です。動的計画法に基づく、最適局所アラインメントを求める手法です。
  • 局所アラインメント(local alignment)
    リンク先は「シーケンスアラインメント」です。配列の類似部分が限定されている場合に、配列の一部である類似部分に限定してアラインメントをとることです。ローカルアラインメントともいいます。
  • リニアギャップペナルティ(linear gap penalty)
    リンク先は「Gap penalty」です。\(k\)個の連続したギャップのペナルティの計算方法として、1文字あたりのギャップペナルティ \(‒d\) (\(d\) > 0)を\(k\)倍するやり方のことです。\(-dk\)または\(-kd\)で表されます。同様に、\(i\)個の連続したギャップペナルティは\(-id\)\(j\)個の連続したギャップペナルティは\(-jd\)と表すことができます。
  • \(F(i, j)\)
    長さ\(m\)の配列\(x\) = \(x_1x_2...x_m\)と長さ\(n\)の配列\(y\) = \(y_1y_2...y_n\)の最適アラインメントを動的計画法で求めるにあたり、それよりも短い部分配列\(x_1x_2...x_i\) (\(i \leq m\))と\(y_1y_2...y_j\) (\(j \leq n\))の最適アラインメントのスコアを記憶しておくためのスコア行列が\(F\)です。\(F\)は(\(i+1\))行\(\times\)(\(j+1\))列からなり、添え字は0からスタートします。つまり図3.1図3.2の各行列において、1番左上の要素は\(0\)\(\times 0\)列目として考えるということです。\(F(i, j)\)は、スコア行列\(F\)中の\(i\)\(\times j\)列目の要素のことです。
  • 漸化式(recurrence relation)
    項がそれ以前の項の関数として定まるという意味で、数列を再帰的に定める等式のことです。難解な印象を受けるかもしれませんが、今スコアを定めたいスコア行列\(F\)中の\(i\)\(\times j\)列の要素の値は、単に1つ手前の要素(上、左、左斜め上)の値に基づくのだと理解すればよいです。
  • 式(3.3)
    この式に関連する図3.2の各行列において、1番左上の要素は\(0\)\(\times 0\)列目として考えますのでご注意ください。
    \[ F(i, j) = \max \begin{cases} 0 \\ \tag{3.3} F(i-1, j-1) + s(x_i, y_j) \\ F(i-1, j) - d \\ F(i, j-1) - d \end{cases} \] 以下は記号の説明です:
    • \(F(i-1, j-1)\)
      スコア行列\(F\)中の(\(i-1\))行\(\times\)(\(j-1\))列目の要素のスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.2の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i-1, j-1)\)は、注目している\(F(i, j)\)の左上の要素に対応し、初期条件より\(F(0, 0)\) \(= 0\)です。
    • \(x_i\)
      アラインメント対象である配列\(x\)中の\(i\)番目の文字のことです。たとえば\(x\) = AAACとすると、1番目の文字は\(x_1\) = A, 2番目の文字は\(x_2\) = A, 3番目の文字は\(x_3\) = A, 4番目の文字は\(x_4\) = Cです。
    • \(y_j\)
      アラインメント対象である配列\(y\)中の\(j\)番目の文字のことです。たとえば\(y\) = ACCとすると、1番目の文字は\(y_1\) = A, 2番目の文字は\(y_2\) = C, 3番目の文字は\(y_3\) = Cです。
    • \(s(x_i, y_j)\)
      文字\(x_i\)\(y_i\)の類似度のことです。塩基配列の場合は、page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)としてスコアを定義しています(初期条件の要素を除く)。塩基配列で図3.2の(2)に相当する\(i = 1, j = 1\)の場合、\(x_1\) = A, \(y_1\) = Aと文字が一致していますので、\(s(x_i, y_j)\) \(= s(x_1, y_1)\) \(= +1\)です。図3.2の(2)において、\(0\)\(\times 0\)列目から\(1\)\(\times 1\)列目の要素へと右下方向に伸びている矢印の近くに見えている括弧内の\(+1\)という数値がこれに対応します。なお、アミノ酸配列の場合は、式(3.4)で定義された値になります。
    • \(F(i-1, j)\)
      スコア行列\(F\)中の(\(i-1\))行\(\times\)\(j\)列の要素のスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.2の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i-1, j)\)は、注目している\(F(i, j)\)のすぐ上の要素に対応し、初期条件より\(F(0, 1)\) \(= 0\)です。
    • \(-d\)
      ギャップペナルティのことです。アラインメントをとった際に、対応する文字がない場合に与える罰則に相当する低いスコアのようなものです。不一致と似た概念ではありますが、不一致は対応する文字がある点で異なります。\(d > 0\)として定義していますので、ギャップペナルティは\(-d\)として考えます。
    • \(F(i-1, j) - d\)
      スコア行列\(F\)中の(\(i-1\))行\(\times\)\(j\)列に対応する、配列\(x\)中の\(i\)番目の文字\(x_i\)に対して、配列\(y\)中の\(j\)番目の文字\(y_j\)の左側にギャップ(\(-d\))を割り当てたときのスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.2の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i-1, j)\)は、注目している\(F(i, j)\)のすぐ上の要素に対応し、初期条件より\(F(0, 1)\) \(= 0\)です。また、塩基配列の場合は、page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)としてスコアを定義しています(初期条件の要素を除く)。したがって、この場合は、\(F(i-1, j) - d\) \(= F(0, 1) - 2 = -2\)です。図3.2の(2)において、\(0\)\(\times 1\)列目の要素から\(1\)\(\times 1\)列目の要素へと下方向に伸びている矢印の近くに見えている括弧内の\(-2\)という数値がこれに対応します。「\(x\) = AAACの1番目の文字(つまり\(x_1\) = A)に対して、\(y\) = ACC中の文字ではなく、ギャップを与えてアラインメントをとった場合のスコア」だと理解すればよいです。
    • \(F(i, j-1)\)
      スコア行列\(F\)中の\(i\)\(\times\)(\(j-1\))列の要素のスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.2の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i, j-1)\)は、注目している\(F(i, j)\)のすぐ左の要素に対応し、初期条件より\(F(1, 0)\) \(= 0\)です。
    • \(F(i, j-1) - d\)
      スコア行列\(F\)中の\(i\)\(\times\)(\(j-1\))列に対応する、配列\(y\)中の\(j\)番目の文字\(y_j\)に対して、配列\(x\)中の\(i\)番目の文字\(x_i\)の左側にギャップ(\(-d\))を割り当てたときのスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.2の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i, j-1)\)は、注目している\(F(i, j)\)のすぐ左の要素に対応し、初期条件より\(F(1, 0)\) \(= 0\)です。また、塩基配列の場合は、page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)としてスコアを定義しています(初期条件の要素を除く)。したがって、この場合は、\(F(i, j-1) - d\) \(= F(1, 0) - 2 = -2\)です。図3.2の(2)において、\(1\)\(\times 0\)列目の要素から\(1\)\(\times 1\)列目の要素へと右方向に伸びている矢印の近くに見えている括弧内の\(-2\)という数値がこれに対応します。「\(y\) = ACCの1番目の文字(つまり\(y_1\) = A)に対して、\(x\) = AAAC中の文字ではなく、ギャップを与えてアラインメントをとった場合のスコア」だと理解すればよいです。

  • スコア行列(score matrix)
    部分配列の最適アラインメントスコア情報を保持した数値行列\(F\)のことです。
  • バックトラック(backtrack)
    リンク先は「バックトラッキング」です。コンピュータで数学的な問題の解を探索するアルゴリズムです。制約充足問題の解を探索する戦略の一種で、力まかせ探索を改良したものです。この場合は、本文中の「maxで選択した過程を逆にたどること」という理解でよいです。
  • 局所アラインメント(local alignment)
    リンク先は「シーケンスアラインメント」です。配列の類似部分が限定されている場合に、配列の一部である類似部分に限定してアラインメントをとることです。ローカルアラインメントともいいます。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。

  • 図3.2
    最適局所アラインメントの計算例です。page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)として計算しています(初期条件の要素を除く)。なお、各行列の1番左上の要素は\(0\)\(\times 0\)列目として考えますのでご注意ください。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • 局所アラインメント(local alignment)
    リンク先は「シーケンスアラインメント」です。配列の類似部分が限定されている場合に、配列の一部である類似部分に限定してアラインメントをとることです。ローカルアラインメントともいいます。
page080
  • 大域アラインメント(global alignment)
    リンク先は「シーケンスアラインメント」です。全体的に類似した配列を比較する際に、配列全体のアラインメントをとることです。ほぼ同じ長さの配列間での比較に有効です。グローバルアラインメントともいいます。
  • \(F(i, j)\)
    長さ\(m\)の配列\(x\) = \(x_1x_2...x_m\)と長さ\(n\)の配列\(y\) = \(y_1y_2...y_n\)の最適アラインメントを動的計画法で求めるにあたり、それよりも短い部分配列\(x_1x_2...x_i\) (\(i \leq m\))と\(y_1y_2...y_j\) (\(j \leq n\))の最適アラインメントのスコアを記憶しておくためのスコア行列が\(F\)です。\(F\)は(\(i+1\))行\(\times\)(\(j+1\))列からなり、添え字は0からスタートします。つまり図3.1図3.2の各行列において、1番左上の要素は\(0\)\(\times 0\)列目として考えるということです。\(F(i, j)\)は、スコア行列\(F\)中の\(i\)\(\times j\)列目の要素のことです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
  • 図3.2(9)
    最適局所アラインメントの計算例です。

  • 例題3.1
    1ページ目が問題、2ページ目以降が解答例です。
    • アラインメントスコア(alignment score)
      配列類似度と同じで、比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。
    • ギャップペナルティ(gap penalty)
      リンク先は「Gap penalty」です。相同性のある配列のアラインメントをとるとき、対応する文字がない場合に、類似度が低いとして与えるスコアのことです。ギャップをむやみに入れると文字の正しい対応関係が表せなくなってしまうため、ギャップにはマイナスになるようなスコアを与えるのが一般的です。これはギャップ自体が類似度を下げるような効果(つまりペナルティ)に相当しますので、ギャップペナルティとよばれます。

3.2 アミノ酸置換スコア

  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • 配列類似度(sequence similarity)
    比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 置換スコア行列(substitution score matrix)
    タンパク質配列中のあるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものを、全20種類のアミノ酸について数値行列の形で保持したものです。
  • PAM
    リンク先は「Point accepted mutation」です。point accepted mutationの略です。近縁のタンパク質を集めて、置換の頻度を調べて分子進化学的に求めた置換スコアの行列のことです。
  • BLOSUM
    リンク先は「BLOSUM」です。BLOcks SUbstitution Matrixの略です。類縁タンパク質の複数の配列のアラインメントを作成し、ブロック(ギャップなしで保存された部分)で、実際に観測されるアミノ酸の置換をもとに計算した置換スコアの行列のことです。

  • PAM
    リンク先は「Point accepted mutation」です。point accepted mutationの略です。近縁のタンパク質を集めて、置換の頻度を調べて分子進化学的に求めた置換スコアの行列のことです。
  • Dayhoff et al., Atlas of Protein Sequence and Structure, 1978
    PAMの原著論文です。
  • 近縁(closely related)
    生物で分類上非常に近い関係にあることです。一般には「界/門/綱/目/科/属/種」という分類体系で同じ属のものを指します。似た言葉に類縁がありますが、これは近縁よりも対象がより広がっているイメージをもつとよいと思います。つまり、近縁は類縁の部分集合です(近縁\(\subset\)類縁)。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 置換(substitution)
    この場合は、タンパク質配列中のあるアミノ酸が別のアミノ酸に変わることです。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • マルコフ過程(Markov process)
    未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質(これをマルコフ性といいます)を持つ確率過程のことです。
  • 遷移確率(transition probability)
    この場合は、あるアミノ酸から別のアミノ酸へと遷移(置換と同じ意味)する確率という理解でよいです。
  • 置換スコア行列(substitution score matrix)
    タンパク質配列中のあるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものを、全20種類のアミノ酸について数値行列の形で保持したものです。
  • 配列(sequence)
    この場合は、アミノ酸配列のことです。
  • 類似度(similarity)
    どのくらい似ているかを表す指標です。
  • W3.2
    PAMの求め方に関する補足資料です。

  • BLOSUM
    リンク先は「BLOSUM」です。BLOcks SUbstitution Matrixの略です。類縁タンパク質の複数の配列のアラインメントを作成し、ブロック(ギャップなしで保存された部分)で、実際に観測されるアミノ酸の置換をもとに計算した置換スコアの行列のことです。
  • Henikoff and Henikoff, Proc Natl Acad Sci USA., 1992
    BLOSUMの原著論文です。
  • 近縁(closely related)
    生物で分類上非常に近い関係にあることです。一般には「界/門/綱/目/科/属/種」という分類体系で同じ属のものを指します。似た言葉に類縁がありますが、これは近縁よりも対象がより広がっているイメージをもつとよいと思います。つまり、近縁は類縁の部分集合です(近縁\(\subset\)類縁)。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 配列(sequence)
    この場合は、アミノ酸配列のことです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • ブロック(block)
    MSA中のギャップなしで保存された部分のことです。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 置換(substitution)
    この場合は、タンパク質配列中のあるアミノ酸が別のアミノ酸に変わることです。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • クラスタリング(clustering)
    リンク先は「データ・クラスタリング」です。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法、またそのアルゴリズムのことです。データの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法に大別できます。
  • 類似度(similarity)
    どのくらい似ているかを表す指標です。
  • 局所アラインメント(local alignment)
    リンク先は「シーケンスアラインメント」です。配列の類似部分が限定されている場合に、配列の一部である類似部分に限定してアラインメントをとることです。ローカルアラインメントともいいます。
  • W3.3
    BLOSUMの求め方に関する補足資料です。

  • 置換スコア行列(substitution score matrix)
    タンパク質配列中のあるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものを、全20種類のアミノ酸について数値行列の形で保持したものです。ここでは\(\boldsymbol{s}\)としています。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 置換スコア\(s(a, b)\)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • 対数尤度比(log-likelihood ratio)
    尤度比の対数をとったものです。式(3.4)の右辺のことです。本文中でも説明されていますが、\(\frac{p_{ab}}{q_aq_b}\)は比の形をしています。分母分子は、それぞれの仮定の尤もらしさを示す尤度とみなすことができるので、尤度比といます。そしてその尤度比の対数をとっているので、対数尤度比といえるのです。
  • 式(3.4)
    \[ s(a, b) = \log(\frac{p_{ab}}{q_aq_b}) \tag{3.4} \] 以下は記号の説明です:
    • \(p_{ab}\)
      配列間に何らかの関連性があって、\(a\)\(b\)に置換される確率です。または、アラインメントをとった配列において\(a\)\(b\)が揃って出現する確率です。
    • \(q_a\)
      アミノ酸\(a\)の出現確率です。
    • \(q_b\)
      アミノ酸\(b\)の出現確率です。
    • \(q_aq_b\)
      アミノ酸が独立に出現するとしたとき、\(a\)\(b\)が同時に出現する確率です。
    • \(s(a, b)\)
      アミノ酸\(a\)とアミノ酸\(b\)の置換スコアです。\(a\)\(b\)は独立に出現するのに比べて、同時に出現しやすければプラス、同時に出現しにくければマイナスの値になります。同じ性質のアミノ酸どうしはプラスになる傾向となります。

page081
  • 図3.3
    BLOSUM62の置換スコア行列です。

  • \(q_a\)
    アミノ酸\(a\)の出現確率です。
  • \(q_b\)
    アミノ酸\(b\)の出現確率です。
  • \(p_{ab}\)
    配列間に何らかの関連性があって、\(a\)\(b\)に置換される確率です。または、アラインメントをとった配列において\(a\)\(b\)が揃って出現する確率です。
  • \(q_aq_b\)
    アミノ酸が独立に出現するとしたとき、\(a\)\(b\)が同時に出現する確率です。
  • \(s(a, b)\)
    アミノ酸\(a\)とアミノ酸\(b\)の置換スコアです。\(a\)\(b\)は独立に出現するのに比べて、同時に出現しやすければプラス、同時に出現しにくければマイナスの値になります。同じ性質のアミノ酸どうしはプラスになる傾向となります。

  • PAM
    リンク先は「Point accepted mutation」です。point accepted mutationの略です。近縁のタンパク質を集めて、置換の頻度を調べて分子進化学的に求めた置換スコアの行列のことです。
  • BLOSUM
    リンク先は「BLOSUM」です。BLOcks SUbstitution Matrixの略です。類縁タンパク質の複数の配列のアラインメントを作成し、ブロック(ギャップなしで保存された部分)で、実際に観測されるアミノ酸の置換をもとに計算した置換スコアの行列のことです。
  • \(p_{ab}\)
    配列間に何らかの関連性があって、\(a\)\(b\)に置換される確率です。または、アラインメントをとった配列において\(a\)\(b\)が揃って出現する確率です。
  • 対称行列(symmetric matrix)
    自身の転置行列と一致するような正方行列(行要素の数と列要素の数が一致する行列)のことです。
  • 図3.3
    BLOSUM62の置換スコア行列です。
  • BLOSUM62
    リンク先は「BLOSUM」です。BLOcks SUbstitution Matrixの略です。近縁タンパク質の複数の配列のアラインメントを作成し、ブロック(ギャップなしで保存された部分)で、62%以上一致している配列群をクラスタリングしてまとめ、アミノ酸の置換回数を計算して得た置換スコアの行列のことです。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。

  • 例題3.2
    1ページ目が問題、2ページ目以降が解答例です。
    • BLOSUM62
      リンク先は「BLOSUM」です。BLOcks SUbstitution Matrixの略です。近縁タンパク質の複数の配列のアラインメントを作成し、ブロック(ギャップなしで保存された部分)で、62%以上一致している配列群をクラスタリングしてまとめ、アミノ酸の置換回数を計算して得た置換スコアの行列のことです。
    • アスパラギン酸(aspartic acid)
      アミノ酸のひとつで、2-アミノブタン二酸のことです。略号はAspあるいはD。光学異性体としてL体とD体の両方が存在します。アスパラギンの加水分解物から単離され、由来とその構造からこの名がつきました。酸性極性側鎖アミノ酸に分類されます。L体のアスパラギン酸は蛋白質を構成するアミノ酸の1つです。非必須アミノ酸で、グリコーゲン生産性を持つ。うま味成分のひとつです。
    • グルタミン酸
      アミノ酸のひとつで、2-アミノペンタン二酸のこと。2-アミノグルタル酸ともよばれます。GluあるいはEの略号で表されます。小麦グルテンの加水分解物から初めて発見されたことからこの名がつきました。英語に準じ、グルタメートとよぶこともあります。酸性極性側鎖アミノ酸に分類されます。タンパク質構成アミノ酸のひとつで、非必須アミノ酸です。動物の体内では神経伝達物質としても機能しており、グルタミン酸受容体を介して神経伝達が行われる、興奮性の神経伝達物質です。
    • 置換(substitution)
      この場合は、タンパク質配列中のあるアミノ酸が別のアミノ酸に変わることです。
    • アミノ酸(amino acid)
      広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
    • 置換スコア行列(substitution score matrix)
      タンパク質配列中のあるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものを、全20種類のアミノ酸について数値行列の形で保持したものです。
    • アラインメントスコア(alignment score)
      配列類似度と同じで、比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。
    • ギャップペナルティ(gap penalty)
      リンク先は「Gap penalty」です。相同性のある配列のアラインメントをとるとき、対応する文字がない場合に、類似度が低いとして与えるスコアのことです。ギャップをむやみに入れると文字の正しい対応関係が表せなくなってしまうため、ギャップにはマイナスになるようなスコアを与えるのが一般的です。これはギャップ自体が類似度を下げるような効果(つまりペナルティ)に相当しますので、ギャップペナルティとよばれます。
page082
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • 酸性アミノ酸(acidic amino acids)
    極性アミノ酸の中で、負電荷をもつアミノ酸のことです。具体的には、アスパラギン酸(3文字表記はAsp、1文字表記はD)とグルタミン酸(3文字表記はGlu、1文字表記はE)のことです。
  • 疎水性アミノ酸(hydrophobic amino acids)
    非極性アミノ酸のことです。具体的には、グリシン(3文字表記はGly、1文字表記はG)、アラニン(3文字表記はAla、1文字表記はA)、バリン(3文字表記はVal、1文字表記はV)、ロイシン(3文字表記はLeu、1文字表記はL)、イソロイシン(3文字表記はIle、1文字表記はI)、プロリン(3文字表記はPro、1文字表記はP)、メチオニン(3文字表記はMet、1文字表記はM)、フェニルアラニン(3文字表記はPhe、1文字表記はF)、トリプトファン(3文字表記はTrp、1文字表記はW)のことです。全部で9種類です。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。

3.3 相同性検索

  • 相同性(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 類縁(related)
    生物で分類上近い関係にあることです。似た言葉に近縁がありますが、近縁は一般には「界/門/綱/目/科/属/種」という分類体系で同じ属のものを指し、類縁よりも範囲が狭いです。つまり、近縁は類縁の部分集合です(近縁\(\subset\)類縁)。
  • ホモログ(homolog)
    共通の祖先をもつ遺伝子の塩基配列やタンパク質のアミノ酸配列のことです。相同遺伝子ともいいます。

  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 配列DB
    配列データベースのことです。データベース(database; DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたもののことです。
  • 相同性(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
  • 相同性検索(homology search)
    リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • バイオインフォ(bioinfo)
    バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • 分子生物学(molecular biology)
    生命現象を分子を使って説明(理解)することを目的とする学問です。
  • ゲノム科学(genome science)
    リンク先は「ゲノミクス」です。ゲノムと遺伝子について研究する生命科学の一分野です。ゲノミクスやゲノム学ともいいます。
  • 分子系統学(molecular phylogenetics)
    DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を調べる学問です。(種内の多様性ではなく)種間レベルの違いを対象としています。

  • 微生物(microorganismまたはmicrobe)
    肉眼でその存在が判別できず、顕微鏡などによって観察できる程度以下の大きさの生物のことです。
  • ゲノムDNA(genome DNA)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。実質的にゲノムと同じ意味です。
  • PCR
    リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させる技術のことです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • DB
    データベースのことです。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • 相同(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。相同という言葉自体の説明はほとんどなく、「相同性」や「相同である」といったあたりの説明がほとんどです。対義語は相似(外見や機能は似ているが共通の祖先に由来しないこと)です。
  • 属(genus)
    リンク先は「属 (分類学)」です。生物分類のリンネ式階級分類における基本的階級の1つ、および、その階級に属するタクソンです。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の下から2番目に位置します。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 類縁(related)
    生物で分類上近い関係にあることです。似た言葉に近縁がありますが、近縁は一般には「界/門/綱/目/科/属/種」という分類体系で同じ属のものを指し、類縁よりも範囲が狭いです。つまり、近縁は類縁の部分集合です(近縁\(\subset\)類縁)。
  • 図3.4
    相同性検索のイメージです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • 相同性検索(homology search)
    リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • 比較ゲノム(comparative genomics)
    リンク先は「比較ゲノミクス」です。異なる生物の間でゲノムの構造を比較することにより、それらの進化上の関係、および進化の過程を推定する研究のことです。
  • 遺伝子発現解析(gene expression analysis)
    トランスクリプトーム解析の一分野であり、対象サンプルの遺伝子発現を調べることです。
  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • FASTAPearson and Lipman, Proc Natl Acad Sci USA., 1988
    DNAの塩基配列とタンパク質のアミノ酸配列のシーケンスアラインメントを行うための、バイオインフォマティクスのソフトウェアパッケージです。FASTA形式というのは、元来このFASTAという名前のアラインメントプログラムが入力として使っていたファイル形式のことを指します。

  • 図3.4
    相同性検索のイメージです。

3.3.1 BLAST検索

  • DNAシーケンス技術(DNA sequencing technology)
    DNAの塩基配列を決定する技術のことです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • 配列DB
    配列データベースのことです。データベース(database; DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたもののことです。
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
  • FASTAPearson and Lipman, Proc Natl Acad Sci USA., 1988
    DNAの塩基配列とタンパク質のアミノ酸配列のシーケンスアラインメントを行うための、バイオインフォマティクスのソフトウェアパッケージです。FASTA形式というのは、元来このFASTAという名前のアラインメントプログラムが入力として使っていたファイル形式のことを指します。
  • ハッシュ法(hash method)
    リンク先は「ハッシュ関数」です。任意のデータから、別の(多くの場合は短い固定長の)値を得るための方法のことです。主に検索の高速化やデータ比較処理の高速化、さらには改竄の検出に使われる。たとえば、データベース内の項目を探したり、大きなファイル内で重複しているレコードや似ているレコードを検出したり、核酸の並びから類似する配列を探したりといった場合に利用されます。
page083
  • 表3.1
    BLAST検索の種類をまとめたものです。

  • Smith-Waterman法(Smith–Waterman algorithm)
    リンク先は「Smith–Waterman algorithm」です。動的計画法に基づく、最適局所アラインメントを求める手法です。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。

  • BLAST検索(BLAST search)
    BLASTを用いて相同性検索を行うことです。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • DB
    データベースのことです。
  • 表3.1
    BLAST検索の種類をまとめたものです。

3.3.2 BLAST検索の使用例

  • NCBISayers et al., Nucleic Acids Res., 2021
    バイオテクノロジーや分子生物学に関連する一連のデータベースの構築および運営、そして研究に用いられるソフトウェアの開発を行っており、バイオインフォマティクスにおける重要なリソースとなっています。GenBankPubMeddbSNPなど、生命科学分野の主要なリソースを提供する大元締め的なところです。
  • Protein BLAST (blastp)
    NCBIのProtein BLASTのページにリンクを張っています。
  • 図3.5
    クエリ配列の入力画面です。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • DB
    データベースのことです。
  • nr
    non-redundant protein sequencesの略です。冗長性をなくしたアミノ酸配列DBです。これを用いることで、全く同じ検索結果が重複して表示されないメリットがあります。「えぬあーる」と読みます。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 相同性検索(homology search)
    リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • PSI-BLASTAltschul et al., Nucleic Acids Res., 1997
    position-specific iterated BLASTの略です。BLAST検索で得られたトップヒット群の位置特異的なスコア情報を用いてさらにBLAST検索を繰り返すことで、高感度な結果が得られる配列類似性検索アルゴリズムです。
  • PHI-BLASTZhang et al., Nucleic Acids Res., 1998
    Pattern Hit Initiated BLASTの略です。

  • 相同性検索(homology search)
    リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • 相同性(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 図3.7
    BLAST検索結果の表示例です。通常は図3.6のほうを先に見るのですが、まずは検索結果画面を先に見せたかったため、意図的にこのようにしています。
  • デフォルト(default)
    初期値とか初期設定という意味です。「何も指定しなければこの条件設定でやります」というもののことです。
  • E-value
    バイオインフォマティクス分野で塩基またはアミノ酸配列をクエリとしてデータベース検索を行う際に指定する類似性指標のことです。「いーばりゅー」と読み、0に近い値ほどクエリ配列とヒットした配列の類似度が高いと判断します。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。この場合は、シンプルに検索条件のことだと理解すればよいです。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • 図3.6
    BLASTのパラメータ設定の画面です。図3.7と出現順は異なりますが、通常は図3.6のほうを先に見るため意図的にこのようにしています。

page084
  • 図3.5
    クエリ配列の入力画面です。
  • 図3.6
    BLASTのパラメータ設定の画面です。図3.7と出現順は異なりますが、通常は図3.6のほうを先に見るため意図的にこのようにしています。
  • 図3.7
    BLAST検索結果の表示例です。通常は図3.6のほうを先に見るのですが、まずは検索結果画面を先に見せたかったため、意図的にこのようにしています。
page085
  • 図3.7
    BLAST検索結果の表示例です。通常は図3.6のほうを先に見るのですが、まずは検索結果画面を先に見せたかったため、意図的にこのようにしています。
  • 相同性検索(homology search)
    リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • 図3.8
    BLAST検索結果のアラインメントの表示例です。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。

  • 例題3.3
    1ページ目が問題、2ページ目以降が解答例です。
    • シロイヌナズナ(Arabidopsis thaliana)
      アブラナ科シロイヌナズナ属の一年草です。植物のモデル生物として有名です。
    • ホウ素トランスポーター(Boron Transporter)
      環境中に比較的多く存在する元素であるホウ素(元素記号B)の吸収や輸送を制御する輸送体(transporter)です。膜タンパク質です。
    • NP_850469.1
      シロイヌナズナのホウ素トランスポーターのNCBIのエントリです。NCBIGeneというカテゴリにおいて、NP_850469.1で直接検索すると得られます。あるいは、「Arabidopsis thaliana boron transporter」で検索していただくと9件ヒット(2023年5月31日調べ)しますが、そのうちのGene ID: 819329と同じものになります。同じものであるにもかかわらず複数のIDが存在することに違和感を覚えるかもしれませんが、一般論としてゲノム情報の蓄積によって情報の整理がなされていくものですので「そんなものだ」と割り切るしかありません。
    • BOR1_ARATH
      シロイヌナズナのホウ素トランスポーターのUniProtのエントリです。UniProtKBにおいて、上記と同様にBOR1_ARATHで直接検索すると得られます。あるいは、「Arabidopsis thaliana boron transporter」で検索していただくと55件ヒット(2023年5月31日調べ)しますが、そのうちのQ8VYR7 · BOR1_ARATHと同じものになります。
    • アミノ酸配列(amino acid sequence)
      リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
    • クエリ(query)
      問い合わせることです。
    • NCBISayers et al., Nucleic Acids Res., 2021
      バイオテクノロジーや分子生物学に関連する一連のデータベースの構築および運営、そして研究に用いられるソフトウェアの開発を行っており、バイオインフォマティクスにおける重要なリソースとなっています。GenBankPubMeddbSNPなど、生命科学分野の主要なリソースを提供する大元締め的なところです。
    • Protein BLAST (blastp)
      NCBIのProtein BLASTのページにリンクを張っています。
    • パラメータ(parameter)
      リンク先は「媒介変数」です。この場合は、シンプルに検索条件のことだと理解すればよいです。
    • E-value
      バイオインフォマティクス分野で塩基またはアミノ酸配列をクエリとしてデータベース検索を行う際に指定する類似性指標のことです。「いーばりゅー」と読み、0に近い値ほどクエリ配列とヒットした配列の類似度が高いと判断します。
    • 配列一致度(sequence identity)
      比較する2本の配列が似ている度合いを表す指標の1つです。配列のアラインメントをとったとき、対応する文字が一致する割合を示すものです。分子(numerator)が「対応する文字が一致する数」、分母(denominator)が「アラインメントの長さ」です。

3.3.3 BLAST検索のアルゴリズム

  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • 図3.9
    BLASTの手順です。

  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • 類似度スコア(similarity score)
    進化における変異のしやすさなどをもとに定義される、ある文字(塩基または残基)と別のある文字がどれくらい似ているかを数値化したスコアのことです。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 類似度(similarity)
    どのくらい似ているかを表す指標です。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • 置換スコア行列(substitution score matrix)
    タンパク質配列中のあるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものを、全20種類のアミノ酸について数値行列の形で保持したものです。
  • Protein BLAST (blastp)
    NCBIのProtein BLASTのページにリンクを張っています。
  • Nucleotide BLAST (blastn)
    NCBIのNucleotide BLASTのページにリンクを張っています。
  • デフォルト(default)
    初期値とか初期設定という意味です。「何も指定しなければこの条件設定でやります」というもののことです。
  • 感度(sensitivityまたはrecall)
    この場合は、「本当は進化的な類縁関係があるにもかかわらず、それを同定できないこと」という理解でよいです。

page086
  • 図3.9
    BLASTの手順です。
  • DB配列(database sequences)
    指定したデータベース中の配列群のことです。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • Aho-Corasick法(Aho–Corasick algorithm)
    リンク先は「エイホ–コラシック法」です。入力テキストについて有限の文字列群(辞書)の各要素を探す辞書式マッチングアルゴリズムの一種です。
  • Aho and Corasick, ACM, 1975
    Aho-Corasick法の原著論文です。
  • 木構造(tree structure)
    リンク先は「木構造 (データ構造)」です。グラフ理論の木の構造をしたデータ構造のことです。木構造は、一般のグラフ構造と同様の、ノード(節点、頂点)とノード間を結ぶエッジ(枝、辺)あるいはリンクで表すこともできますが、木構造専用の、特に有向の根付き木となるような表現が使われることも多いです。
  • 挿入・欠失
    リンク先は「インデル」です。ゲノム上のある場所に1~数十塩基程度の塩基配列が組み込まれるのが挿入(insertion)、逆に元からあった1~数十塩基程度の領域がなくなるのが欠失(deletion)です。2つのイベントを総称してインデル(indel)ともいいます。

  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • DB配列(database sequences)
    指定したデータベース中の配列群のことです。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • 類似度スコア(similarity score)
    進化における変異のしやすさなどをもとに定義される、ある文字(塩基または残基)と別のある文字がどれくらい似ているかを数値化したスコアのことです。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • アラインされた配列
    「アラインメントをとった状態の配列」と同じという理解でよいです。

  • 閾値(threshold)
    境目となる値のことです。この場合は、「問い合わせる側の配列」と「問い合わせられる側の配列」が類似していると判断する境目として設定する値のことです。ここで述べている閾値Sは、式(3.4)の左辺のことではありません(あれは小文字のs)のでご注意ください。
  • HSP
    High-scoring Segment Pairの略です。一定の閾値S以上のスコアをもつ類似部分のことです。
  • 統計的有意性(statistical significance)
    この場合は、HSPが同じ長さのランダムな一致領域と比べて有意かどうかということです。
  • 有意(significance)
    リンク先は「有意」です。確率論・統計学の用語で、「確率的に偶然とは考えにくく、意味があると考えられる」ことです。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • DB
    データベースのことです。

  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • HSP
    High-scoring Segment Pairの略です。一定の閾値S以上のスコアをもつ類似部分のことです。
  • DBの配列(database sequences)
    指定したデータベース中の配列群のことです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • アラインメントのスコア(alignment score)
    配列類似度と同じで、比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。

  • HSP
    High-scoring Segment Pairの略です。一定の閾値S以上のスコアをもつ類似部分のことです。
  • 統計的有意性(statistical significance)
    この場合は、HSPが同じ長さのランダムな一致領域と比べて有意かどうかということです。
  • E-value
    バイオインフォマティクス分野で塩基またはアミノ酸配列をクエリとしてデータベース検索を行う際に指定する類似性指標のことです。「いーばりゅー」と読み、0に近い値ほどクエリ配列とヒットした配列の類似度が高いと判断します。具体的には、HSPの配列と、検索対象のDBと同じ長さのランダムな配列で、スコア\(S\)以上のアラインメントが得られる個数の期待値です。
  • Karlin and Altschul, Proc Natl Acad Sci USA., 1990
    式(3.5)のE-valueに関する原著論文です。
  • \(m\), \(n\)
    アラインメント前の2本の配列の長さのことです。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
page087
  • 式(3.5)
    初刷では\(\exp(\lambda S)\)となっていますが、正しくは\(\exp(- \lambda S)\)ですm(_ _)m \[ E(x \geq S) = Kmn \exp(- \lambda S) \tag{3.5} \] 以下は記号の説明です:
    • \(m\), \(n\)
      アラインメント前の2本の配列の長さのことです。
    • \(x\)
      長さ\(m\), \(n\)の2本の配列のアラインメントのスコアのことです。
    • \(S\)
      長さ\(m\), \(n\)の2本の配列のアラインメントのスコア\(x\)の統計的有意性を評価する際に定める閾値、という理解でよいです。同じ長さのランダムな配列どうしでも、一定のアラインメントスコアが得られますので、アラインメントによって得られた\(x\)というスコアが、同じ長さのランダムな配列どうしのアラインメントで得られたスコア分布のどのあたりに位置するか(つまり統計的な有意性があるかどうか)が重要なポイントです。、\(S\)は、それを定めるために設定するスコアの閾値という位置づけです。スコアの最大値が\(S\)以上である分布は極値分布に従い、\(S\) = \(\frac{\ln(Kmn)}{\lambda}\)で与えられます。
    • \(K\)
      文字の出現確率および置換スコアに依存する定数のことです。
    • \(\lambda\)
      対数尤度比と置換スコアとの比です。

  • \(K\)
    文字の出現確率および置換スコアに依存する定数のことです。
  • \(\lambda\)
    対数尤度比と置換スコアとの比のことです。
  • DB
    データベースのことです。
  • BLAST検索(BLAST search)
    BLASTを用いて相同性検索を行うことです。
  • \(n\)
    基本的には「長さ\(m, n\)の2本の配列」の後者の配列長のことですが、DBに対するBLAST検索の場合は、DB中の全配列の長さの和です。
  • 極値分布(extreme value distribution)
    確率論および統計学において、ある累積分布関数にしたがって生じた大きさ\(n\)の標本 \(X_1, X_2, ..., X_n\)のうち、\(S\)以上(あるいは以下)となるものの個数がどのように分布するかを表す、連続確率分布モデルです。
  • 解析的(analytic)
    方程式の解が、いろいろ式変形していけば得られるということです。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • 局所アラインメント(local alignment)
    リンク先は「シーケンスアラインメント」です。配列の類似部分が限定されている場合に、配列の一部である類似部分に限定してアラインメントをとることです。ローカルアラインメントともいいます。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。生命現象を説明するのに必要な”登場人物”に相当するのが”要素”で、その要素に掛ける”係数”のようなイメージで”パラメータ”を捉えるとよいと思います。

  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • HSP
    High-scoring Segment Pairの略です。一定の閾値S以上のスコアをもつ類似部分のことです。
  • アラインメントのスコア(alignment score)
    配列類似度と同じで、比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。
  • E-value
    バイオインフォマティクス分野で塩基またはアミノ酸配列をクエリとしてデータベース検索を行う際に指定する類似性指標のことです。「いーばりゅー」と読み、0に近い値ほどクエリ配列とヒットした配列の類似度が高いと判断します。具体的には、HSPの配列と、検索対象のDBと同じ長さのランダムな配列で、スコア\(S\)以上のアラインメントが得られる個数の期待値です。
  • DBの配列(database sequences)
    指定したデータベース中の配列群のことです。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。

  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • ビットスコア(bit score)
    アラインメントスコアをアミノ酸置換マトリックス(置換スコア)やギャップスコアに依存しないように正規化したスコア\(S^{\prime}\)のことです。単位がビットなのでそうよびます。\(S^{\prime}\) = \(\frac{\lambda S - \ln K}{\ln 2}\)で定義されます。初刷では\(S^{\prime} = \frac{\lambda S - \ln K}{ln 2}\)と書かれていますが、正しくは\(S^{\prime} = \frac{\lambda S - \ln K}{\ln 2}\)ですm(_ _)m。分母の\(\ln\)が斜体ではなくローマン体(立体)だということです。
  • 式(3.6)
    \[ E(x \geq S^{\prime}) = mn 2^{-S^{\prime}} \tag{3.6} \] 以下は記号の説明です:
    • \(m\), \(n\)
      アラインメント前の2本の配列の長さのことです。
    • \(x\)
      長さ\(m\), \(n\)の2本の配列のアラインメントのスコアのことです。
    • \(S^{\prime}\)
      アラインメントスコアをアミノ酸置換マトリックス(置換スコア)やギャップスコアに依存しないように正規化したスコアのことです。

  • 式(3.5)とビットスコアからの式(3.6)の導出についての詳細な解説
    大まかには、ビットスコアの数式を\(\lambda S = ...\)の形に変形し、それを式(3.5)に代入する流れになります。ちなみに\(\ln\) = \(\log_e\)です。
    1. ビットスコアの数式の両辺に\(\ln 2\)を掛ける
      \[ S^{\prime} \times \ln 2 = \lambda S - \ln K \]
    2. 左辺と右辺を入れ替えて、両辺に\(\ln K\)を足す \[ \lambda S = S^{\prime} \times \ln 2 + \ln K \]
    3. 対数の性質である\(m \times \ln 2 = \ln 2^m\)より
      \[ \lambda S = \ln 2^{S^{\prime}} + \ln K \]
    4. 対数の性質である\(\ln X + \ln Y = \ln XY\)より
      \[ \lambda S = \ln (2^{S^{\prime}} K) \]
    5. 得られた\(\lambda S = \ln (2^{S^{\prime}} K)\)を式(3.5)に代入
      \[ E(x \geq S) = Kmn \exp(- \ln (2^{S^{\prime}} K)) \]
    6. \(-\ln a\) = \(\ln \frac{1}{a}\)や、\(-\ln 2^a\) = \(\ln \frac{1}{2^a}\)や、\(-\ln 2^a B\) = \(\ln \frac{1}{2^a B}\)より
      \[ E(x \geq S) = Kmn \exp(\ln (\frac{1}{2^{S^{\prime}} K})) \]
    7. 対数の定義(\(x = a^p\) ↔︎ \(p = \log_ax\))より、\(a^{\log_ax}\) = \(x\)が成立します。同様に、\(e^{\log_ex}\) = \(e^{\ln x}\) = \(\exp(\ln x)\) = \(x\)が成立しますので…
      \[ E(x \geq S) = Kmn \times \frac{1}{2^{S^{\prime}} K} = mn \times \frac{1}{2^{S^{\prime}}} \]
    8. \(\frac{1}{a}\) = \(a^{-1}\)や、\(\frac{1}{2^a}\) = \(2^{-a}\)より
      \[ E(x \geq S) = mn \times 2^{-S^{\prime}} \] なお、ビットスコアの体系における期待値\(E\)の式として、あらためて\(E(x \geq S^{\prime})\) = \(mn \times 2^{-S^{\prime}}\)と書くことができます。よりかみ砕いた説明としては、例えば正規分布でよく閾値を0.05(95%信頼区間)や0.01(99%信頼区間)に設定します。これは\(S\) = 0.05や0.01に相当します。一方で、この正規分布を平均(\(\mu\))が0、標準偏差(\(\sigma\))が1になるように変換したものをZスコア(Z-score)いいます(偏差値と似たようなものです)。Zスコアの体系で用いる閾値が\(S^{\prime}\)に相当し、さきほどのp-valueでの\(S\) = 0.05や0.01は\(S^{\prime}\) = 1.96や2.58に相当します。しかしZスコアの体系では1.96や2.58のような中途半端な閾値ではなく、2や3のようなスッキリした閾値に変更されます。それゆえ、式(3.5)の左辺の閾値と式(3.6)の左辺の閾値の値が変わっていても特に問題ないのだと理解すればよいです。

  • ビットスコア(bit score)
    アラインメントスコアをアミノ酸置換マトリックス(置換スコア)やギャップスコアに依存しないように正規化したスコア\(S^{\prime}\)のことです。単位がビットなのでそうよびます。\(E(x \geq S^{\prime})\) = \(\frac{\lambda S - \ln K}{\ln 2}\)で定義されます。
  • \(\lambda\)
    対数尤度比と置換スコアとの比のことです。
  • \(K\)
    文字の出現確率および置換スコアに依存する定数のことです。
  • \(S\)
    配列のアラインメントのスコアのことです。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。

3.3.4 Stand-alone BLAST を利用した相同性検索

  • Stand-alone BLAST
    ローカルなコンピュータ上で動くBLASTのプログラムのことです。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • 相同性検索(homology search)
    リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 比較ゲノム(comparative genomics)
    リンク先は「比較ゲノミクス」です。異なる生物の間でゲノムの構造を比較することにより、それらの進化上の関係、および進化の過程を推定する研究のことです。
  • W3.4
    Stand-alone BLASTに関する補足資料です。

3.4 多重配列アラインメント(MSA)

3.4.1 MSAの手法

  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • ペアワイズアラインメント(pairwise alignment)
    リンク先は「シーケンスアラインメント」です。アラインメントは手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べることであり、その作業を2本の配列で行うのがペアワイズアラインメントです。3本以上の場合をマルチプルアラインメント(または多重配列アラインメント)といいます。
  • 多重配列アラインメント(multiple sequence alignment; MSA)
    リンク先は「多重整列」です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • 記憶容量(units of information)
    この場合はパソコンのメモリのことです。
  • ヒューリスティク(heuristic)
    リンク先は「ヒューリスティクス」です。必ずしも正しい答えを導けるとは限らないが、ある程度のレベルで正解に近い解を得ることができる方法のことです。発見的手法ともいいます。答えの精度が保証されない代わりに、解答に至るまでの時間が短いという特徴があります。
  • ツリーアラインメント(tree alignment)
    リンク先は「シーケンスアラインメント」です。最も似ている配列どうしを最初にアラインメントし、順次配列を加えてゆくことによってMSAを構築していく方法です。

page088
  • ツリーアラインメント(tree alignment)
    リンク先は「シーケンスアラインメント」です。最も似ている配列どうしを最初にアラインメントし、順次配列を加えてゆくことによってMSAを構築していく方法です。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 図3.10
    ツリーアラインメントの実行例です。

  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • ペアワイズアラインメント(pairwise alignment)
    リンク先は「シーケンスアラインメント」です。アラインメントは手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べることであり、その作業を2本の配列で行うのがペアワイズアラインメントです。3本以上の場合をマルチプルアラインメント(または多重配列アラインメント)といいます。
  • 類似度スコア(similarity score)
    進化における変異のしやすさなどをもとに定義される、ある文字(塩基または残基)と別のある文字がどれくらい似ているかを数値化したスコアのことです。
  • 距離(distance)
    一般的な数値が小さいほど距離が近いようなイメージで捉えるとよいです。そして距離が近い(距離の値が0に近い)ほど、比較する配列間の類似度が高いと判断します。本文中でも書かれているように、類似度スコアの場合(値が大きいほど類似度が高い)とは数値の解釈の仕方が異なります。

  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 案内木(guide tree)
    リンク先は「多重整列」です。ツリーアラインメントを行う際に、計算量を抑えるために使われている近似的な系統樹のことです。案内木は、近隣結合法ないし非加重結合法による階層型クラスタリングによって作られます。ガイドツリーともいいます。

  • 案内木(guide tree)
    リンク先は「多重整列」です。ツリーアラインメントを行う際に、計算量を抑えるために使われている近似的な系統樹のことです。案内木は、近隣結合法ないし非加重結合法による階層型クラスタリングによって作られます。ガイドツリーともいいます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。

  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • Clustal WThompson et al., Nucleic Acids Res., 1994
    リンク先は「Clustal」です。ツリーアラインメントでMSAを構築するプログラムの1つです。
  • Needleman-Wunsch法(Needleman-Wunsch algorithm)
    リンク先は「Needleman–Wunsch algorithm」です。動的計画法に基づいて、最適な大域アラインメントを行うアルゴリズムのことです。
  • kタプル法(k-tuple method)
    k個の連続した文字の一致をもとにアラインメントを構築する手法です。
  • ペアワイズアラインメント(pairwise alignment)
    リンク先は「シーケンスアラインメント」です。アラインメントは手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べることであり、その作業を2本の配列で行うのがペアワイズアラインメントです。3本以上の場合をマルチプルアラインメント(または多重配列アラインメント)といいます。
  • 近隣結合法(neighbor joining method; NJ法)
    リンク先は「近隣結合法」です。系統樹を作成するためのボトムアップ式のクラスタ解析法です。星型の樹形から出発してOTU (系統樹の葉にあたる分類群)をクラスタリングする各段階において、総分岐長を最小化するOTUの組を発見することを原理としています。解析可能な系統樹の樹形や枝長を短時間で求めることができるのが特徴です。
  • 案内木(guide tree)
    リンク先は「多重整列」です。ツリーアラインメントを行う際に、計算量を抑えるために使われている近似的な系統樹のことです。案内木は、近隣結合法ないし非加重結合法による階層型クラスタリングによって作られます。ガイドツリーともいいます。
  • Clustal OmegaSievers et al., Mol Syst Biol., 2011
    MSA構築アルゴリズムの1つです。Clustal Wの高速化と精度の向上を図ったものです。
  • EBI
    EMBLの一部門であり、バイオインフォマティクス関連の研究を行っている研究所です。昔からある塩基配列DBであるEMBL(こっちは組織名ではなくDB名)やUniProtなどを運営しています。

  • kタプル法(k-tuple method)
    k個の連続した文字の一致をもとにアラインメントを構築する手法です。
  • ペアワイズアラインメント(pairwise alignment)
    リンク先は「シーケンスアラインメント」です。アラインメントは手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べることであり、その作業を2本の配列で行うのがペアワイズアラインメントです。3本以上の場合をマルチプルアラインメント(または多重配列アラインメント)といいます。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • 距離(distance)
    一般的な数値が小さいほど距離が近いようなイメージで捉えるとよいです。そして距離が近い(距離の値が0に近い)ほど、比較する配列間の類似度が高いと判断します。
  • k平均法(k-means clustering)
    非階層型クラスタリングのアルゴリズムです。クラスタの平均を用い、与えられたクラスタ数k個に分類するのが特徴です。k-平均法(k-means)、c-平均法(c-means)ともよばれます。この場合は、MSAの入力である3つ以上の配列をk個のクラスターに分けようとしているのだと解釈すればよいです。
  • クラスタリング(clustering)
    リンク先は「データ・クラスタリング」です。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法、またそのアルゴリズムのことです。データの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法に大別できます。
  • クラスタ(cluster)
    この場合は、MSAの入力である3つ以上の配列の部分集合のことを指します。たとえば配列A, B, C, D, Eがあったときに、k平均法でk=2として実行すると2つのクラスタに分類します。たとえばAとCが1つのクラスタで、残りのBとDとEが1つのクラスタを形成するようなイメージです。各クラスタに含まれる構成要素のことをメンバーといいます(この場合は配列)。
  • メンバ(member)
    この場合は、各クラスタの構成要素のことです。クラスタの構成要素が塩基配列のときは塩基配列、遺伝子のときは遺伝子がクラスタのメンバになります。
  • UPGMA
    リンク先は「非加重結合法」です。UPGMAは、Unweighted Pair Group Method with Arithmetic meanの略です。系統樹を作製するためのボトムアップ式のクラスタ解析法です。入力データは対象の各ペア間の距離であり、有根系統樹が作製されます。進化速度が一定(分子時計仮説)と仮定して有根系統樹を作成する際に用いられます。UPGMAは、距離行列を用いた系統推定法である距離行列法の1つであり、総枝長が最短となる樹形が最適樹であると考える最小進化原理に基づいています。
  • 案内木(guide tree)
    リンク先は「多重整列」です。ツリーアラインメントを行う際に、計算量を抑えるために使われている近似的な系統樹のことです。案内木は、近隣結合法ないし非加重結合法による階層型クラスタリングによって作られます。ガイドツリーともいいます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • HH-suiteSteinegger et al., BMC Bioinformatics, 2019
    高感度なタンパク質配列検索を行うためのオープンソースのソフトウェアパッケージです。HH-suiteのwikiページにも解説があります。

  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • T-CoffeeNotredame et al., J Mol Biol., 2000
    MSA用プログラムです。
  • MAFFTKatoh and Standley, Mol Biol Evol., 2013
    MSA用プログラムです。
  • MUSCLEEdgar RC., Nucleic Acids Res., 2004
    MSA用プログラムです。
  • ツリーアラインメント(tree alignment)
    リンク先は「シーケンスアラインメント」です。最も似ている配列どうしを最初にアラインメントし、順次配列を加えてゆくことによってMSAを構築していく方法です。
  • 案内木(guide tree)
    リンク先は「多重整列」です。ツリーアラインメントを行う際に、計算量を抑えるために使われている近似的な系統樹のことです。案内木は、近隣結合法ないし非加重結合法による階層型クラスタリングによって作られます。ガイドツリーともいいます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 反復改善法
    MSA実行時に、案内木の生成、アラインメントの構築を繰り返し、質の改善を図る方法です。
  • Clustal OmegaSievers and Higgins, Methods Mol Biol., 2021
    MSA構築アルゴリズムの1つです。Clustal Wの高速化と精度の向上を図ったものです。
  • ペアワイズアラインメント(pairwise alignment)
    リンク先は「シーケンスアラインメント」です。アラインメントは手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べることであり、その作業を2本の配列で行うのがペアワイズアラインメントです。3本以上の場合をマルチプルアラインメント(または多重配列アラインメント)といいます。
  • アミノ酸置換スコア(amino acid substitution score)
    あるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
page089
  • UPGMA
    リンク先は「非加重結合法」です。UPGMAは、Unweighted Pair Group Method with Arithmetic meanの略です。系統樹を作製するためのボトムアップ式のクラスタ解析法です。入力データは対象の各ペア間の距離であり、有根系統樹が作製されます。進化速度が一定(分子時計仮説)と仮定して有根系統樹を作成する際に用いられます。UPGMAは、距離行列を用いた系統推定法である距離行列法の1つであり、総枝長が最短となる樹形が最適樹であると考える最小進化原理に基づいています。
  • 高速フーリエ変換(fast Fourier transform; FFT)
    離散フーリエ変換(discrete Fourier transform; DFT)を高速に計算するアルゴリズムです。ある信号をいくつかの周波数成分に分解し、それらの大きさをスペクトルとして表すことできます。
  • 多重置換(multiple substitution)
    同一の座位(場所)に複数回の置換が起こることです。
  • 進化距離(evolutionary distance)
    比較する2つの配列が共通祖先からどれだけ進化してきたのかを距離という概念で表したものです。
  • 距離行列(distance matrix)
    MSAの対象配列数分の行数と列数からなる数値行列のことであり、その要素はi番目の行とj番目の列に相当する2つの配列間の進化距離となっているものです。MSA対象配列どうしの総当たりの進化距離をまとめたものという理解でよいです。
  • プロファイル(profile)
    この場合は、複数配列のMSA結果をまとめたものという理解でよいです。

  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • JalviewWaterhouse et al., Bioinformatics, 2009
    MSAの表示、解析、編集を行うためのソフトウェアです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • アミノ酸残基(amino acid residue)
    リンク先は「残基」です。タンパク質は構成単位であるモノマーが多数連結(重合)してできた高分子化合物であり、化学結合の構造部分とそれ以外の部分に分けられます。このうち後者の「化学結合以外の部分構造」のことを残基といいます。タンパク質はアミノ酸から合成されるので、残基はポリペプチドのアミド結合(ペプチド結合)以外のアミノ酸構造を意味します。また、タンパク質は、その残基部分の特性によって様々に変化するため、「アミノ酸残基」という表現がよくなされます。
  • 保存度
    この場合は、MSA実行結果の各位置において、どれだけ同じ塩基になっているかという度合いのことだと理解すればよいです。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。

  • W3.5
    Clustal Omegaに関する補足資料です。
    • Clustal OmegaSievers et al., Mol Syst Biol., 2011
      MSA構築アルゴリズムの1つです。Clustal Wの高速化と精度の向上を図ったものです。
    • トリオースリン酸異性化酵素(Triosephosphate isomerase)
      リンク先は「トリオースリン酸イソメラーゼ」です。トリオースリン酸の異性体であるジヒドロキシアセトンリン酸(DHAP)とD-グリセルアルデヒド-3-リン酸(GAP)の間の可逆的な相互変換を触媒する酵素です。
    • multi-FASTA形式ファイル
      リンク先は「FASTA format」です。「>」から始まるdescription行と、その次の行以降で塩基またはアミノ酸配列が格納された形式のファイルです。複数の配列情報が1つのファイルに格納されているのでmulti-FASTAとよばれます。
    • MSA
      多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
    • 分子系統樹(molecular phylogenetic tree)
      リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。

3.4.2 MSAのスコア

  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • ペアワイズアラインメント(pairwise alignment)
    リンク先は「シーケンスアラインメント」です。アラインメントは手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べることであり、その作業を2本の配列で行うのがペアワイズアラインメントです。3本以上の場合をマルチプルアラインメント(または多重配列アラインメント)といいます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 類似度スコア(similarity score)
    進化における変異のしやすさなどをもとに定義される、ある文字(塩基または残基)と別のある文字がどれくらい似ているかを数値化したスコアのことです。
  • 図3.11
    MSAの類似度スコアの計算例です。
  • 式(3.7)
    \[ S(M) = \sum_{i=1}^LS(M_i) \tag{3.7} \] 以下は記号の説明です:
    • \(L\)
      アラインメントの長さです。アラインメント前の配列\(x, y\)の配列長をそれぞれ\(m, n\)とすると、どちらか長い方というのは\(\max(m, n)\)と表現できますので、\(L \geq \max(m, n)\)です。多重配列アラインメント(MSA)の場合は計\(N\)本の配列からなりますので、\(L\)は最も長い配列の長さ以上になります。
    • \(S(M_i)\)
      位置\(i\)のアラインメント\(M\)の類似度スコアのことです。具体的には式(3.8)で算出されます。
    • \(S(M)\)
      式(3.7)の右辺で表されているように、位置\(i\)のアラインメント\(M\)の類似度スコアである\(S(M_i)\)を、アラインメント全体にわたって足したものです。

  • 類似度スコア(similarity score)
    進化における変異のしやすさなどをもとに定義される、ある文字(塩基または残基)と別のある文字がどれくらい似ているかを数値化したスコアのことです。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • sum of pairs
    MSAのスコアを算出する一般的なやり方です。すべてのペアの類似度スコアを求め、それらの和で\(N\)本の配列の類似度スコアを計算する方式のことです。
  • アラインされた配列
    「アラインメントをとった状態の配列」と同じという理解でよいです。
  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • 式(3.8)
    \[ S(M_i) = \sum_{k < l}s(k_i^{\prime}, l_i^{\prime}) \tag{3.8} \] 以下は記号の説明です:
    • \(k, l\)
      今は多重配列アラインメント(MSA)の話をしていますので、3本以上の配列(\(N\) )をうまくアラインメントするのが目的です。\(k\)\(l\)は、この中の「1番目と2番目(の配列)」とか「1番目と3番目(の配列)」とか「2番目と3番目(の配列)」を一般化した表現です。\(\sum\)の下が\(k < l\)となっているのは、たとえば「1番目と2番目(の配列)」と「2番目と1番目(の配列)」の類似度スコアを重複して計算しないようにするためです(最終的に得られるスコアの大小関係は不変ですが、同じ計算を省略して計算時間を短縮させるという意味合いが強いです)。\(N\)本の配列の中から任意の2本(\(kとl\))を抽出する組み合わせは、\({}_N C_2\) = \(\frac{{}_N P_r}{r!}\) = \(\frac{N!}{(N - r)! r!}\)通りあります。たとえば\(N\) = 3の場合は、\(\frac{N!}{(N - r)! r!}\) = \(\frac{3!}{(3 - 2)! 2!}\) = \(\frac{3!}{1! 2!}\) = \(\frac{3 \times 2 \times 1}{1 \times 2 \times 1}\) = 3通りです。また、\(N\) = 4の場合は、\(\frac{4!}{(4 - 2)! 2!}\) = \(\frac{4!}{2! 2!}\) = \(\frac{4 \times 3 \times 2 \times 1}{2 \times 1 \times 2 \times 1}\) = 6通りです。
    • \(k^{\prime}, l^{\prime}\)
      アラインメントをとった状態の\(k\)番目と\(l\)番目の配列(ギャップを含む場合あり)のことです。
    • \(k_i^{\prime}, l_i^{\prime}\)
      アラインメントをとった状態の\(k\)番目と\(l\)番目の配列(\(k^{\prime}とl^{\prime}\))の\(i\)番目の文字(ギャップの場合あり)のことです。
    • \(s(k_i^{\prime}, l_i^{\prime})\)
      アラインメントをとった状態の\(k\)番目と\(l\)番目の配列(\(k^{\prime}とl^{\prime}\))の\(i\)番目の文字(ギャップの場合あり)の類似度スコアのことです。
    • \(S(M_i)\)
      位置\(i\)のアラインメント\(M\)の類似度スコアのことです。式(3.7)で利用されます。

  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • 図3.11
    MSAの類似度スコアの計算例です。
  • 類似度スコア(similarity score)
    進化における変異のしやすさなどをもとに定義される、ある文字(塩基または残基)と別のある文字がどれくらい似ているかを数値化したスコアのことです。
page090

3.5 タンパク質のドメイン、ファミリー、モチーフ

  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • ファミリー(family)
    リンク先は「タンパク質ファミリー」です。進化上の共通祖先に由来すると推定されるタンパク質をまとめたグループです。生物を進化系統により分類するように、タンパク質を進化の観点から分類する意味があります。同様の概念で遺伝子をまとめた「遺伝子ファミリー」(遺伝子族)もありますが、これもタンパク質ファミリーにほぼ対応します。
  • モチーフ(motif)
    タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。
  • 配列(sequence)
    この場合は、アミノ酸配列のことを指します。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。

3.5.1 ドメインとファミリー

  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • フォールド(fold)
    この場合は、「特定の立体構造をとる(ことができる)」ことだと解釈すればよいです。
  • 真核生物(eukaryote)
    動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
  • マルチドメインタンパク質(multi-domain protein)
    リンク先は「タンパク質ドメイン」です。ドメインとは、タンパク質の配列や構造の一部で他の部分とは独立に進化し、機能を持った存在です。このドメインを複数もつタンパク質のことです。
  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。

  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • 配列(sequence)
    この場合は、アミノ酸配列のことを指します。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • ドメインシャフリング(domain shuffling)
    進化の過程で様々なドメインにより新しいタンパク質が形成されていくことです。

  • 図3.12
    ドメイン構成の例です。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。

page091
  • 進化的類縁関係(evolutionary relationship)
    進化的な観点からみて、互いに近い関係にあることです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • ファミリー(family)
    リンク先は「タンパク質ファミリー」です。進化上の共通祖先に由来すると推定されるタンパク質をまとめたグループです。生物を進化系統により分類するように、タンパク質を進化の観点から分類する意味があります。同様の概念で遺伝子をまとめた「遺伝子ファミリー」(遺伝子族)もありますが、これもタンパク質ファミリーにほぼ対応します。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。

  • ファミリー(family)
    リンク先は「タンパク質ファミリー」です。進化上の共通祖先に由来すると推定されるタンパク質をまとめたグループです。生物を進化系統により分類するように、タンパク質を進化の観点から分類する意味があります。同様の概念で遺伝子をまとめた「遺伝子ファミリー」(遺伝子族)もありますが、これもタンパク質ファミリーにほぼ対応します。
  • 進化的類縁関係(evolutionary relationship)
    進化的な観点からみて、互いに近い関係にあることです。
  • サブファミリー(subfamily)
    ファミリーを、機能や進化的類縁関係により、さらに細かく分類したグループのことです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • スーパーファミリー(superfamily)
    ファミリー(進化上の共通祖先に由来すると推定されるタンパク質をまとめたグループ)よりも広範に類縁関係にあるタンパク質をグループ化したものです。
  • ホモロガススーパーファミリー(homologous superfamily)
    実質的に「ファミリーよりも広範に類縁関係にあるタンパク質をグループ化したスーパーファミリー」と同じですが、特に類縁関係を強調した呼び方です。
  • 感度(sensitivityまたはrecall)
    統計的な概念の1つですこの場合の「感度を上げる」は、本当に類縁関係にあるものを(多少偽物が混じることを許容して)グループ化できるようにする行為、という意味で解釈するとよいと思います。

3.5.2 モチーフ

  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 酵素(enzyme)
    生体内外で起こる化学反応に対して触媒として機能する分子のことです。
  • 活性部位(active site)
    基質が結合し化学反応が進む酵素の部位のことです。活性中心ともいいます。
  • 分子(molecule)
    2つ以上の原子から構成される電荷的に中性な物質のことです。ほとんどの原子は、同種あるいは異なる原子と化学結合により結びついて分子を形成します。
  • 相互作用(interaction)
    この場合はタンパク質と他の分子の間にはたらく、共有結合ほど強くないもの(または力)のことです。
  • 翻訳後修飾(post-translational modification; PTM)
    翻訳後のタンパク質の化学的な修飾のことです。これは多くのタンパク質生合成後のいくつかあるステップうちの1つです。
  • アミノ酸残基(amino acid residue)
    リンク先は「残基」です。タンパク質は構成単位であるモノマーが多数連結(重合)してできた高分子化合物であり、化学結合の構造部分とそれ以外の部分に分けられます。このうち後者の「化学結合以外の部分構造」のことを残基といいます。タンパク質はアミノ酸から合成されるので、残基はポリペプチドのアミド結合(ペプチド結合)以外のアミノ酸構造を意味します。また、タンパク質は、その残基部分の特性によって様々に変化するため、「アミノ酸残基」という表現がよくなされます。
  • モチーフ(motif)
    タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。
  • 残基(residue)
    この場合は、アミノ酸残基のことを指します。タンパク質はアミノ酸から合成されるので、残基はポリペプチドのアミド結合(ペプチド結合)以外のアミノ酸構造のことです。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。

  • 図3.13
    Rieske型鉄硫黄クラスタ結合部位のドメインとモチーフの例です。
  • Rieske型鉄硫黄クラスタ(Rieske iron-sulfur cluster)
    リンク先は「鉄硫黄タンパク質」です。鉄硫黄タンパク質(iron-sulfur protein)は、酸化数が可変の二、三および四鉄中心を含む鉄・硫黄クラスター(Fe-S cluster)の存在で特徴づけられるタンパク質です。シトクロムbc1複合体およびシトクロムb6f複合体の鉄硫黄タンパク質成分です。1964年にRieskeらによって発見された最も単純なFe-S clusterが、[2Fe-2S]や[Fe2S2]クラスタと書かれるRieske型鉄硫黄クラスタです。2つのシステインと2つのヒスチジン(リスケタンパク質)が配位した構造をとるので、CとHを含むモチーフになっています。
  • 配列(sequence)
    この場合は、アミノ酸配列のことです。
  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。

3.5.3 タンパク質のドメイン、モチーフのデータベース(DB)

  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • DB
    データベースのことです。
  • モチーフ(motif)
    タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。
  • 配列(sequence)
    この場合は、アミノ酸配列のことを指します。

page092
  • 図3.14
    モチーフ、ドメインの検索の概要です。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • 配列DB
    配列データベースのことです。データベース(database; DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたもののことです。
  • 配列(sequence)
    この場合は、アミノ酸配列のことを指します。
  • ドメインDB (domain DB)
    タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在であるドメイン情報を格納したデータベース(DB)のことです。ここでは配列特徴DBとよんでいます。
  • モチーフDB (motif DB)
    タンパク質の機能に関わる重要な部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンである、モチーフ情報を格納したデータベース(DB)のことです。ここでは配列特徴DBとよんでいます。
  • 配列特徴(sequence characteristics)
    アミノ酸配列の観点でみた、ドメインやモチーフの特徴のことです。
  • プロファイル(profile)
    この場合は、複数配列のMSA結果をまとめたものという理解でよいです。
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • 正規表現(regular expression)
    文字列の集合を1つの文字列で表現する方法の1つです。文字列のパターンマッチングを行う際によく用いられます。
  • アノテーション(annotation)
    この場合は、塩基配列に対して生物学的意味を注釈付けすることです。
  • Swiss-Prot
    リンク先は「UniProtKB」です。UniProtKBはTrEMBLとSwiss-Protから構成されます。 Swiss-Protは、自動アノテーションによって得られたTrEMBLの中から、人手でキュレーションを行うなどして精度が高められたものです。Swiss-Protは1986年に誕生しましたが、2002年にUniProt Knowledgebase (UniProtKB)の設立に伴い、その一部となっています(Swiss-Protの歴史のページより)。

  • 配列特徴DB
    ドメインやモチーフ情報を格納したデータベース(DB)の総称として、本書ではこのようによんでいます。
  • 配列(sequence)
    この場合は、アミノ酸配列のことです。
  • DB
    データベースのことです。
  • PROSITESigrist et al., Nucleic Acids Res., 2013
    配列特徴DBの1つです。タンパク質のモチーフとドメインを登録したDBです。
  • PfamMistry et al., Nucleic Acids Res., 2021
    配列特徴DBの1つです。Protein families database of alignments and HMMsの略であり、タンパク質のドメイン、それらを特徴づける配列パターンを表すHMMを登録したDBです。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • モチーフ(motif)
    タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。

PROSITE
  • PROSITESigrist et al., Nucleic Acids Res., 2013
    配列特徴DBの1つです。タンパク質のモチーフとドメインを登録したDBです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • モチーフ(motif)
    タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • DB
    データベースのことです。
  • 図3.15
    PROSITEのトップページです。
  • 配列特徴(sequence characteristics)
    アミノ酸配列の観点でみた、ドメインやモチーフの特徴のことです。
  • エントリ(entry)
    DBのアクセッション番号(accession number)や識別子(identifier; ID)のようなものだという理解でよいです。
  • ドキュメンテーションエントリ(documentation entry)
    PROSITEにおいて、モチーフとドメインの説明を記述したエントリのことです。

  • 正規表現(regular expression)
    文字列の集合を1つの文字列で表現する方法の1つです。文字列のパターンマッチングを行う際によく用いられます。
  • 文字(charactor)
    この場合はアミノ酸の1文字表記のことです。
  • 和集合(union)
    集合の集まり(集合族)に対して、それらの集合のいずれか少なくとも1つに含まれているような要素をすべて集めることにより得られる集合のことです。
  • メタキャラクタ(metacharacter)
    ピリオド(.)やアスタリスク(*)などの特殊文字のことです。これらの特殊文字に意味を持たせて、任意のアミノ酸であるとか、任意の繰り返しなどを表します。
  • PROSITESigrist et al., Nucleic Acids Res., 2013
    配列特徴DBの1つです。タンパク質のモチーフとドメインを登録したDBです。

  • プロファイル(profile)
    この場合はアミノ酸の出現頻度や挿入・欠失の頻度をもとにパターンを表したものです。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 挿入・欠失
    リンク先は「インデル」です。ゲノム上のある場所に1~数十塩基程度の塩基配列が組み込まれるのが挿入(insertion)、逆に元からあった1~数十塩基程度の領域がなくなるのが欠失(deletion)です。2つのイベントを総称してインデル(indel)ともいいます。
  • PROSITESigrist et al., Nucleic Acids Res., 2013
    配列特徴DBの1つです。タンパク質のモチーフとドメインを登録したDBです。

  • PROSITESigrist et al., Nucleic Acids Res., 2013
    配列特徴DBの1つです。タンパク質のモチーフとドメインを登録したDBです。
  • ProRule
    PROSITEのパターンの表現法の1つであるプロファイル(PROSITEではMATRIXと表記されます)上で、機能と構造情報を含んだDBです。原著論文は、おそらくSigrist et al., Bioinformatics, 2005です。
  • エントリ(entry)
    DBのアクセッション番号(accession number)や識別子(identifier; ID)のようなものだという理解でよいです。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • 活性部位(active site)
    基質が結合し化学反応が進む酵素の部位のことです。活性中心ともいいます。
  • モチーフ(motif)
    タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。

page093
  • 図3.15
    PROSITEのトップページです。
  • Zinc finger
    リンク先は「ジンクフィンガー」です。タンパク質ドメインの大きなスーパーファミリーの1つで、DNAに結合する性質をもちます。ジンクフィンガーは2つの逆平行βシートと1つのαヘリックスからなります。小さすぎて疎水中心を持たないため亜鉛イオンが安定化にとって重要です。亜鉛イオンがDNAと結合して特別な構造モチーフを形成するため、ジンクフィンガーは遺伝子調節に重要な役割を果たします。Zinc fingerモチーフは、このような「亜鉛イオンがDNAと結合して特別な構造モチーフを形成する」ことを指す言葉です。
  • C2H2タイプ
    システイン(C)が2個、ヒスチジン(H)が2個繰り返すような構造のzinc fingerモチーフです。
  • 正規表現(regular expression)
    文字列の集合を1つの文字列で表現する方法の1つです。文字列のパターンマッチングを行う際によく用いられます。

  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • システイン(cysteine)
    アミノ酸の一種でチオセリンともいいます。略号はCysあるいはCです。ヒトでは必須アミノ酸ではなくメチオニンから生合成されます。疎水性アミノ酸、中性極性側鎖アミノ酸に分類されているが、非常に反応性に富んでいます。
  • ヒスチジン(histidine)
    アミノ酸の一種で2-アミノ-3- (1H-イミダゾール-4-イル) プロピオン酸のことです。略号はHisあるいはHです。塩基性アミノ酸の一種で、必須アミノ酸です。糖原性を持します。側鎖にイミダゾイル基という複素芳香環を持ち、この部分の特殊な性質により酵素の活性中心や、蛋白質分子内でのプロトン移動に関与しています。蛋白質中では金属との結合部位となり、あるいは水素結合やイオン結合を介してその高次構造の維持に重要な役割を果たしています。
  • PROSITESigrist et al., Nucleic Acids Res., 2013
    配列特徴DBの1つです。タンパク質のモチーフとドメインを登録したDBです。
  • プロファイル(profile)
    この場合はアミノ酸の出現頻度や挿入・欠失の頻度をもとにパターンを表したものです。
  • 定義(definition)
    一般にコミュニケーションを円滑に行うために、ある言葉の正確な意味や用法について、人々の間で共通認識を抱くために行われる作業のことです。
  • 挿入や欠失
    リンク先は「インデル」です。ゲノム上のある場所に1~数十塩基程度の塩基配列が組み込まれるのが挿入(insertion)、逆に元からあった1~数十塩基程度の領域がなくなるのが欠失(deletion)です。2つのイベントを総称してインデル(indel)ともいいます。
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • DB
    データベースのことです。
  • パターンマッチング(pattern matching)
    データを検索する場合に、特定のパターンが出現するかどうか、またどこに出現するかを特定する手法のことです。

  • 例題3.4
    1ページ目が問題、2ページ目以降が解答例です。
    • PROSITESigrist et al., Nucleic Acids Res., 2013
      配列特徴DBの1つです。タンパク質のモチーフとドメインを登録したDBです。
    • モチーフ(motif)
      タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。
    • PDOC00028
    • 正規表現(regular expression)
      文字列の集合を1つの文字列で表現する方法の1つです。文字列のパターンマッチングを行う際によく用いられます。
    • プロファイル(profile)
      この場合はアミノ酸の出現頻度や挿入・欠失の頻度をもとにパターンを表したものです。

    • Src
      リンク先は「Src (遺伝子)」です。ヒトにおいてSRC遺伝子にコードされる非受容体型チロシンキナーゼタンパク質です。がん原遺伝子c-Srcあるいは単にc-Srcとしても知られています。このタンパク質は他のタンパク質の特定のチロシン残基をリン酸化します。c-Srcチロシンキナーゼの活性の上昇は、他のシグナルを促進することによってがんの進行と関連していることが示唆されています。
    • SRC_HUMAN
      チロシンキナーゼSRCの配列です。
    • クエリ(query)
      この場合は、「データベース(DB)に問い合わせる配列」という意味です。
    • プロテインキナーゼ(protein kinase)
      タンパク質分子にリン酸基を付加する(リン酸化する)酵素です。タンパク質キナーゼあるいは英語風にプロテインカイネースともいいます。キナーゼ(リン酸基転移酵素)の中でタンパク質をリン酸化するキナーゼをプロテインキナーゼといいますが、このプロテインキナーゼのことを特にキナーゼとよぶことが多いです。
    • ドメイン(domain)
      リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
    • モチーフ(motif)
      タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。
Pfam
  • PfamMistry et al., Nucleic Acids Res., 2021
    配列特徴DBの1つです。Protein families database of alignments and HMMsの略であり、タンパク質のドメイン、それらを特徴づける配列パターンを表すHMMを登録したDBです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • DB
    データベースのことです。

page094
  • 図3.16
    Pfamのトップページです。
  • UniProtKBBoutet et al., Methods Mol Biol., 2016
    UniProtの主要なリソースです。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • ファミリー(family)
    リンク先は「タンパク質ファミリー」です。進化上の共通祖先に由来すると推定されるタンパク質をまとめたグループです。生物を進化系統により分類するように、タンパク質を進化の観点から分類する意味があります。同様の概念で遺伝子をまとめた「遺伝子ファミリー」(遺伝子族)もありますが、これもタンパク質ファミリーにほぼ対応します。
  • クラン(clan)
    ファミリーよりも上位のグループとして導入された概念のことです。
  • チロシンキナーゼ(tyrosine kinase)
    リンク先は「受容体型チロシンキナーゼ」です。多くのポリペプチド型成長因子、サイトカイン、ホルモンに対する高親和性の細胞表面受容体です。ヒトゲノムでは90種類のチロシンキナーゼの遺伝子が同定されており、そのうち58種類が受容体型チロシンキナーゼをコードします。受容体型チロシンキナーゼは正常な細胞機能の重要な調節因子であるだけでなく、多くの種類のがんの発生と増悪においても重要な役割を担うことが示されています。
  • リン酸転移酵素(kinase)
    キナーゼのことであり、生化学において、ATPなどの高エネルギーリン酸結合を有する分子からリン酸基を基質あるいはターゲット分子に転移する(リン酸化する)酵素の総称です。EC 2.7群(リン酸転移酵素、ホスホトランスフェラーゼ)に属します。英語発音に由来するカイネイス、カイネースと呼ぶ研究者が増えてきています。
  • イノシトールポリリン酸キナーゼ
    リンク先は「イノシトール-ポリリン酸マルチキナーゼ」です。ATP:1D-ミオイノシトール-1,4,5-三リン酸 6-ホスホトランスフェラーゼ(ATP:1D-myo-inositol-1,4,5-trisphosphate 6-phosphotransferase)という系統名を持つ酵素のことです。
  • アノテーション(annotation)
    この場合は、タンパク質配列中のドメイン・ファミリー・モチーフ情報などの生物学的意味を注釈付けした情報という意味です。

  • 例題3.5
    1ページ目が問題、2ページ目以降が解答例です。
    • PfamMistry et al., Nucleic Acids Res., 2021
      配列特徴DBの1つです。Protein families database of alignments and HMMsの略であり、タンパク質のドメイン、それらを特徴づける配列パターンを表すHMMを登録したDBです。
    • SRC_HUMAN
      チロシンキナーゼSRCの配列です。
    • ドメイン(domain)
      リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
その他のモチーフ、ドメインのDB
  • モチーフ(motif)
    タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • DB
    データベースのことです。

  • PRINTSAttwood et al., Database, 2012
    モチーフ、ドメインを登録したDBです。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • モチーフ(motif)
    タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。
  • フィンガープリント(fingerprint)
    この場合は、「ギャップなしで保存された部位(モチーフ)の集合」という意味です。フィンガープリント自体は指紋という意味です。PRINTSでは、このモチーフの集合でドメインを表しています。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • ファミリー(family)
    リンク先は「タンパク質ファミリー」です。進化上の共通祖先に由来すると推定されるタンパク質をまとめたグループです。生物を進化系統により分類するように、タンパク質を進化の観点から分類する意味があります。同様の概念で遺伝子をまとめた「遺伝子ファミリー」(遺伝子族)もありますが、これもタンパク質ファミリーにほぼ対応します。

  • SUPERFAMILYGough et al., J Mol Biol., 2001
    モチーフ、ドメインを登録したDBです。
  • SCOPAndreeva et al., Nucleic Acids Res., 2020
    タンパク質ドメインの立体構造を、2次構造のみに基づく分類であるクラス(class)からスタートして、フォールド(fold)、スーパーファミリー(superfamily)、ファミリー(family)の順に階層的に分類したデータベース(DB)です。SCOPは、Structural Classification of Proteinsの略です。人手による分類と計算機による自動分類法を組み合わせているのが特徴です。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • ゲノムワイド(genome-wide)
    「ゲノム全体にわたって」という意味です。
  • スーパーファミリー(superfamily)
    ファミリー(進化上の共通祖先に由来すると推定されるタンパク質をまとめたグループ)よりも広範に類縁関係にあるタンパク質をグループ化したものです。

  • SMARTLetunic et al., Nucleic Acids Res., 2021
    モチーフ、ドメインを登録したDBです。
  • シグナル伝達(signal transduction)
    暑さや寒さや痛さといった周辺環境からの刺激(これをシグナルといいます)が皮膚から脳に伝わっていくようなことを指しますす。「この刺激(シグナル)であれば、このタンパク質が感知して、それが生体内のこの経路で情報が伝達される」といった具合で、定まった経路で情報が伝達されていくことで環境に適応しています。そのようなシステム全体のことを指す言葉がシグナル伝達です。具体的には、細胞間シグナル伝達とか細胞内シグナル伝達などがあり、たとえばそれを簡潔に示しているのがKEGG PATHWAY Databaseです。
  • クロマチン(chromatin)
    真核細胞内に存在するDNAとタンパク質の複合体のことです。ヒト2倍体細胞に納められているDNAの総延長はおよそ2 mに達します。これを直径約10 μmの核に収納するための構造がクロマチンです。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソーム(nucleosome)です。クロマチンは凝集の度合いによりヘテロクロマチン(heterochromatin)とユークロマチン(euchromatin)に分類されます。遺伝子密度が低い領域や遺伝子発現が抑制されている領域は、強く折りたたまれてヘテロクロマチンを形成する傾向にあります。一方、遺伝子の転写が活発な領域のクロマチンは比較的緩んでおり、ユークロマチンとよばれます。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • アノテーション(annotation)
    この場合は、塩基配列に対して生物学的意味を注釈付けすることです。
InterPro
  • InterProBlum et al., Nucleic Acids Res., 2021
    PROSITEPfamなどのデータベース(DB)を統合し、それらを横断的に検索できるようにしたDBです。
  • 図3.17
    InterProのトップページです。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • ファミリー(family)
    リンク先は「タンパク質ファミリー」です。進化上の共通祖先に由来すると推定されるタンパク質をまとめたグループです。生物を進化系統により分類するように、タンパク質を進化の観点から分類する意味があります。同様の概念で遺伝子をまとめた「遺伝子ファミリー」(遺伝子族)もありますが、これもタンパク質ファミリーにほぼ対応します。
  • スーパーファミリー(superfamily)
    ファミリー(進化上の共通祖先に由来すると推定されるタンパク質をまとめたグループ)よりも広範に類縁関係にあるタンパク質をグループ化したものです。
  • リピート(repeat)
    リンク先は「反復配列」です。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。
page095
  • 図3.17
    InterProのトップページです。
  • 図3.18
    InterProの構成です。
  • 保存部位(conserved site)
    zinc fingerモチーフのC2H2タイプのような、マルチプルアラインメント(MSA)で配列間で完全に同じ文字(アミノ酸)になっている部位のことです。
  • 活性部位(active site)
    基質が結合し化学反応が進む酵素の部位のことです。活性中心ともいいます。
  • 結合部位(binding site)
    他の分子と特異的に結合するタンパク質などの高分子上の領域のことです。タンパク質高分子の結合相手は、リガンドとよばれます。
  • 翻訳後修飾(post-translational modification; PTM)
    翻訳後のタンパク質の化学的な修飾のことです。これは多くのタンパク質生合成後のいくつかあるステップうちの1つです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 配列(sequence)
    この場合は、アミノ酸配列のことを指します。

  • 図3.18
    InterProの構成です。
  • InterProBlum et al., Nucleic Acids Res., 2021
    PROSITEPfamなどのデータベース(DB)を統合し、それらを横断的に検索できるようにしたDBです。
  • DB
    データベースのことです。
page096
  • 配列特徴(sequence characteristics)
    アミノ酸配列の観点でみた、ドメインやモチーフの特徴のことです。
  • シグニチャ(signiture)
    InterProにおいて、様々な方法で記述された配列パターン(配列特徴)の総称です。

  • 例題3.6
    1ページ目が問題、2ページ目以降が解答例です。
    • InterProBlum et al., Nucleic Acids Res., 2021
      PROSITEPfamなどのデータベース(DB)を統合し、それらを横断的に検索できるようにしたDBです。
    • Src
      リンク先は「Src (遺伝子)」です。ヒトにおいてSRC遺伝子にコードされる非受容体型チロシンキナーゼタンパク質です。がん原遺伝子c-Srcあるいは単にc-Srcとしても知られています。このタンパク質は他のタンパク質の特定のチロシン残基をリン酸化します。c-Srcチロシンキナーゼの活性の上昇は、他のシグナルを促進することによってがんの進行と関連していることが示唆されています。
    • SRC_HUMAN
      チロシンキナーゼSRCの配列です。
    • クエリ(query)
      この場合は、「データベース(DB)に問い合わせる配列」という意味です。
    • PROSITESigrist et al., Nucleic Acids Res., 2013
      配列特徴DBの1つです。タンパク質のモチーフとドメインを登録したDBです。
    • PfamMistry et al., Nucleic Acids Res., 2021
      配列特徴DBの1つです。Protein families database of alignments and HMMsの略であり、タンパク質のドメイン、それらを特徴づける配列パターンを表すHMMを登録したDBです。

3.6 タンパク質の機能の検索

3.6.1 タンパク質配列DB

UniProt
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 配列(sequence)
    この場合は、アミノ酸配列のことを指します。
  • アノテーション(annotation)
    この場合は、タンパク質配列中のドメイン・ファミリー・モチーフ情報などの生物学的意味を注釈付けした情報という意味です。
  • UniProtUniProt Consortium, Nucleic Acids Res., 2021
    タンパク質配列DBです。
  • EMBL-EBI
    欧州分子生物学研究所(EMBL)の一部門で、イギリスに所在するバイオインフォマティクス関連の研究を行っている研究所(EBI)のことです。EMBL-EBI(えんぶる、いーびーあい)と呼んだり、あるいはシンプルにEBI(いーびーあい)とよびます。
  • SIB
    Swiss Institute of Bioinformaticsの略です。1998年に設立されたスイスにあるバイオインフォマティクス研究所です。この組織(SIB)の前身の研究所は、1986年に誕生した有名なSwiss-Protデータベースに資金提供をしていました。しかし1996年に資金難に陥り、その結果として設立されたのがこのSIBです。
  • PIR
    Protein Information Resourceの略です。正式名称から想像できるように、元々はSwiss-Protと同様のタンパク質のデータベースでした。PIRの内容はUniProtKBに引き継がれ、PIRそのものはタンパク質関連の総合的なDBサイトとなっています。
  • コンソーシアム(consortium)
    2つ以上の個人、企業、団体、政府(あるいはこれらの任意の組み合わせ)から成る団体のことです。共同で何らかの目的に沿った活動を行ったり、共通の目標に向かって資源を蓄える目的で結成されます。
  • UniProtKBBoutet et al., Methods Mol Biol., 2016
    UniProtの主要なリソースです。
  • DB
    データベースのことです。
  • 知識ベース(knowledgebase)
    知識を集約したデータベース(DB)という理解でよいと思います。
  • エントリ(entry)
    DBのアクセッション番号(accession number)や識別子(identifier; ID)のようなものだという理解でよいです。
  • コアデータ(core data)
    コア(核)となるデータのことです。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • 分類学(taxonomy)
    生物を分類することを目的とした生物学の一分野です。
  • 引用情報
    原著論文情報や、付与した情報がどこ由来のものかを示す出典情報という理解でよいです。
  • 細胞内局在(subcellular location)
    タンパク質が細胞内小器官のどこに局在するかということです。
  • 翻訳後修飾(post-translational modification; PTM)
    翻訳後のタンパク質の化学的な修飾のことです。これは多くのタンパク質生合成後のいくつかあるステップうちの1つです。
  • ドメイン構成
    ドメインとは、タンパク質の配列や構造の一部で他の部分とは独立に進化し、機能を持った存在です。このドメインをもつタンパク質において、どのようなドメインをもつかということです。
  • Gene Ontology (GO)Ashburner et al., Nat Genet., 2000
    生物学的概念を記述するための、共通の語彙を策定しようとするプロジェクトです。異なる生物種間で明確に統一されていなかった遺伝子機能に関する標準語をGOタームとして定め、できるだけそれらを用いて表現しようという取り組みです。統一された語彙を用いることで、異なった機関によって作成されたデータベース、更に異なった生物種のデータベース間で、データの結合や、横断比較を行うことが可能になります。略してGO (「じーおー」と読む)とよばれることが多いです。
  • Swiss-Prot
    リンク先は「UniProtKB」です。UniProtKBはTrEMBLとSwiss-Protから構成されます。 Swiss-Protは、自動アノテーションによって得られたTrEMBLの中から、人手でキュレーションを行うなどして精度が高められたものです。Swiss-Protは1986年に誕生しましたが、2002年にUniProt Knowledgebase (UniProtKB)の設立に伴い、その一部となっています(Swiss-Protの歴史のページより)。
  • TrEMBL
    EMBL/GenBank/DDBJ国際塩基配列データベースからコンピュータ解析で自動的にアノテーションして構築されたDBです。2002年にUniProt Knowledgebase (UniProtKB)の設立に伴い、その一部となっています。

  • 図3.19
    UniProtのトップページです。
  • Swiss-Prot
    リンク先は「UniProtKB」です。UniProtKBはTrEMBLとSwiss-Protから構成されます。 Swiss-Protは、自動アノテーションによって得られたTrEMBLの中から、人手でキュレーションを行うなどして精度が高められたものです。Swiss-Protは1986年に誕生しましたが、2002年にUniProt Knowledgebase (UniProtKB)の設立に伴い、その一部となっています(Swiss-Protの歴史のページより)。
  • TrEMBL
    EMBL/GenBank/DDBJ国際塩基配列データベースからコンピュータ解析で自動的にアノテーションして構築されたDBです。2002年にUniProt Knowledgebase (UniProtKB)の設立に伴い、その一部となっています。
  • エントリ(entry)
    DBのアクセッション番号(accession number)や識別子(identifier; ID)のようなものだという理解でよいです。
  • BLAST検索(BLAST search)
    BLASTを用いて相同性検索を行うことです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • Clustal OmegaSievers et al., Mol Syst Biol., 2011
    MSA構築アルゴリズムの1つです。Clustal Wの高速化と精度の向上を図ったものです。
page097
  • UniRef
    UniProt Reference Clustersの略です。UniProtKBの配列をクラスタリングして得られた、冗長性を排除した配列セットを提供するところです。
  • UniProtKBBoutet et al., Methods Mol Biol., 2016
    UniProtの主要なリソースです。
  • クラスタリング(clustering)
    リンク先は「データ・クラスタリング」です。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法、またそのアルゴリズムのことです。データの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法に大別できます。
  • 冗長性(redundancy)
    この場合は、「似た配列があるということ」です。
  • FASTAボタン
    この場合は、シーケンスデータの代表的な記述形式であるFASTA形式ファイルをダウンロードするためのボタンという理解であよいです。
  • DB
    データベースのことです。

  • 例題3.7
    1ページ目が問題、2ページ目以降が解答例です。
    • Covid-19
      リンク先は「新型コロナウイルス感染症 (2019年)」です。2019年に発生した新型コロナウイルス感染症の、世界保健機関(WHO)によって定められた国際正式名称です。SARSコロナウイルス2(SARS-CoV-2)がヒトに感染することによって発症する気道感染症(ウイルス性の広義の感冒の一種)です。
    • SARS-CoV-2
      リンク先は「SARSコロナウイルス2」です。severe acute respiratory syndrome coronavirus 2の略です。新型コロナウイルス感染症(COVID-19)の原因となる、SARS関連コロナウイルス(SARSr-CoV)に属するコロナウイルスです。
    • スパイクタンパク質(spike protein)
      エンベロープウイルスの表面から突出したスパイクまたはペプロマーとして知られる大きな構造体を形成するタンパク質です。このタンパク質は通常、2量体または3量体を形成する糖タンパク質です。抗体の主なターゲットとなる部分で、ウイルス感染のための研究対象として重要です。ペプロマータンパク質(peplomer protein)ともいいます。
    • 抗体(antibody)
      白血球のサブタイプの1つであるリンパ球の一種であるB細胞の産生する糖タンパク分子です。獲得免疫系の液性免疫(特定のタンパク質などの分子である抗原を認識して、排除する働き)を担う。抗体は主に血液中や体液中に存在します。抗体が抗原へ結合すると、その抗原と抗体の複合体を白血球やマクロファージといった食細胞が認識・貪食して体内から除去するように働いたり、リンパ球などの免疫細胞が結合して免疫反応を引き起こしたりします。これらの働きを通じ、脊椎動物の感染防御機構において重要な役割を担っています。
    • ウイルス(virus)
      他生物の細胞を利用して自己を複製させる、極微小な感染性の構造体で、タンパク質の殻とその内部に入っている核酸からなります。生命の最小単位である細胞やその生体膜である細胞膜も持たないこと、小器官がないこと、自己増殖することがないことから、生物かどうかについて議論があります。
    • PDBの今月の分子(翻訳版)
      リンク先は「SARSコロナウイルス2型 スパイク」です。Covid-19のスパイクタンパク質の構造について解説されています。
    • Swiss-Prot
      リンク先は「UniProtKB」です。UniProtKBはTrEMBLとSwiss-Protから構成されます。 Swiss-Protは、自動アノテーションによって得られたTrEMBLの中から、人手でキュレーションを行うなどして精度が高められたものです。Swiss-Protは1986年に誕生しましたが、2002年にUniProt Knowledgebase (UniProtKB)の設立に伴い、その一部となっています(Swiss-Protの歴史のページより)。
    • SPIKE_SARS2
      Covid-19のスパイクタンパク質のSwiss-Protのデータ識別名です。アクセッション番号であるP0DTC2のリンク先もここです。
    • BLAST検索(BLAST search)
      BLASTを用いて相同性検索を行うことです。
    • DB
      データベースのことです。
    • 重症急性呼吸器症候群(Severe acute respiratory syndrome; SARS)
      SARSコロナウイルス(SARS-CoV-1)によって引き起こされるウイルス性の呼吸器疾患です。
    • アラインメント(alignment)
      リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
    • UniProtKBBoutet et al., Methods Mol Biol., 2016
      UniProtの主要なリソースです。

    • アンジオテンシン変換酵素2(Angiotensin-converting enzyme 2 ; ACE2)
      レニン・アンジオテンシン・アルドステロン系に属する酵素で、アンジオテンシン変換酵素(ACE)の相同体です。
    • 肺(lung)
      脊椎動物の器官の1つであり、肺臓ともよばれます。空気中から得た酸素を体内に取り込んだり、老廃物である二酸化炭素を空気中に排出したりする役割をもちます。
    • 心臓(heart)
      血液循環の原動力となる器官のことです。血液循環系の中枢器官のことです。心臓は特に脊椎動物のもつ筋肉質の臓器であり、律動的な収縮によって血液の循環を行うポンプの役目を担っています。ある程度規模の大きな多細胞の動物において、細胞が代謝を維持するには常に血液によってエネルギー源や酸素を受け取り、老廃物や二酸化炭素を運び出す必要があります。そのため、心臓が機能を停止することは、生き物の存続条件の1つである代謝・呼吸ができなくなることです。
    • 腎臓
      泌尿器系の器官の1つです。血液からの老廃物や余分な水分の濾過および排出を行って尿を生成するという、体液の恒常性の維持を主な役割としています。

    • 、食物が胃で溶かされた後、その中の栄養や水分を吸収する器官です。末端は肛門であり、消化された食物は便となり、排便により体外へと排出されます。腸の構造は動物によって異なり、摂取する食物による違いが大きいです。
    • 細胞(cell)
      すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
    • ウイルス(virus)
      他生物の細胞を利用して自己を複製させる、極微小な感染性の構造体で、タンパク質の殻とその内部に入っている核酸からなります。生命の最小単位である細胞やその生体膜である細胞膜も持たないこと、小器官がないこと、自己増殖することがないことから、生物かどうかについて議論があります。

    • Covid-19
      リンク先は「新型コロナウイルス感染症 (2019年)」です。2019年に発生した新型コロナウイルス感染症の、世界保健機関(WHO)によって定められた国際正式名称です。SARSコロナウイルス2(SARS-CoV-2)がヒトに感染することによって発症する気道感染症(ウイルス性の広義の感冒の一種)です。
    • フリン(Furin)
      タンパク質分解酵素(プロテアーゼ)です。PRRAR配列を認識して切断します。
    • 多塩基性(polybasicity)
      酸1分子が2個以上の H+を塩基に供与できる性質のことです。
    • プロテアーゼ(protease)
      タンパク質をより小さなポリペプチドや単一のアミノ酸への分解を触媒する(速度を上げる)加水分解酵素の総称です。ペプチダーゼ(peptidase)やプロテイナーゼ(proteinase)ともよばれます。
NCBIのタンパク質配列DB
  • NCBISayers et al., Nucleic Acids Res., 2021
    バイオテクノロジーや分子生物学に関連する一連のデータベースの構築および運営、そして研究に用いられるソフトウェアの開発を行っており、バイオインフォマティクスにおける重要なリソースとなっています。GenBankPubMeddbSNPなど、生命科学分野の主要なリソースを提供する大元締め的なところです。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • DB
    データベースのことです。
  • nr
    non-redundant protein sequencesの略です。冗長性をなくしたアミノ酸配列DBです。これを用いることで、全く同じ検索結果が重複して表示されないメリットがあります。「えぬあーる」と読みます。
  • GenBankSayers et al., Nucleic Acids Res., 2021
    NCBIが提供する塩基配列DBです。
  • コード配列(code sequence)
    この場合は、GenBankの塩基配列中にある「タンパク質コード領域の配列」という理解でよいです。
  • Swiss-Prot
    リンク先は「UniProtKB」です。UniProtKBはTrEMBLとSwiss-Protから構成されます。 Swiss-Protは、自動アノテーションによって得られたTrEMBLの中から、人手でキュレーションを行うなどして精度が高められたものです。Swiss-Protは1986年に誕生しましたが、2002年にUniProt Knowledgebase (UniProtKB)の設立に伴い、その一部となっています(Swiss-Protの歴史のページより)。
  • Protein Data Bank(PDB)Burley et al., Nucleic Acids Res., 2021
    タンパク質,核酸,糖鎖など生体高分子の3次元構造の原子座標(立体配座)を蓄積している国際的な公共のデータベース(DB)です。
  • 非冗長性(non-redundant)
    この場合は、「似た配列がない」とか「冗長性を排除した」いうことです。
  • Reference sequences (RefSeq)
    生物種の完全な配列情報を登録したアノテーションが付加されたDBです。
  • BLAST検索(BLAST search)
    BLASTを用いて相同性検索を行うことです。

3.6.2 DBのアノテーションと予測ツール

  • UniProtKBBoutet et al., Methods Mol Biol., 2016
    UniProtの主要なリソースです。
  • アノテーション(annotation)
    この場合は、塩基配列に対して生物学的意味を注釈付けすることです。
  • UniRuleMacDougall et al., Bioinformatics, 2020
    UniProtKB内で使われている自動アノテーション手段の1つです。InterProを使用して、スーパーファミリー、ファミリー、サブファミリーレベルで配列を分類し、ドメインや機能部位を同定しています。
  • ARBA
    Association-Rule-Based Annotatorの略です。UniProtKB内で2020年より適用されている自動アノテーションシステムです。
  • InterProBlum et al., Nucleic Acids Res., 2021
    PROSITEPfamなどのデータベース(DB)を統合し、それらを横断的に検索できるようにしたDBです。
  • スーパーファミリー(superfamily)
    ファミリー(進化上の共通祖先に由来すると推定されるタンパク質をまとめたグループ)よりも広範に類縁関係にあるタンパク質をグループ化したものです。
  • ファミリー(family)
    リンク先は「タンパク質ファミリー」です。進化上の共通祖先に由来すると推定されるタンパク質をまとめたグループです。生物を進化系統により分類するように、タンパク質を進化の観点から分類する意味があります。同様の概念で遺伝子をまとめた「遺伝子ファミリー」(遺伝子族)もありますが、これもタンパク質ファミリーにほぼ対応します。
  • サブファミリー(subfamily)
    ファミリーを、機能や進化的類縁関係により、さらに細かく分類したグループのことです。
  • 配列(sequence)
    この場合は、アミノ酸配列のことです。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • キュレーター(curator)
    この場合は、アノテーションを行う際に、独立した実験結果や報告を付き合わせ、妥当と思われる事柄を注釈として選択する作業を行うヒトのことです。
  • マルチクラス(multi-class)
    1か0かといった2値の分類ではなく、より多くの分類に分けるような事柄のことです。
  • TrEMBL
    EMBL/GenBank/DDBJ国際塩基配列データベースからコンピュータ解析で自動的にアノテーションして構築されたDBです。2002年にUniProt Knowledgebase (UniProtKB)の設立に伴い、その一部となっています。

  • InterProBlum et al., Nucleic Acids Res., 2021
    PROSITEPfamなどのデータベース(DB)を統合し、それらを横断的に検索できるようにしたDBです。
  • シグナルペプチド(signal peptide)
    タンパク質分子にある短い(3から60アミノ酸ほど)ペプチド配列で、細胞質内で生合成されたタンパク質の、輸送および局在化を指示する構造です。mRNAの翻訳開始点の上流部分でリボソーム結合領域を含み、翻訳に関与します。
  • SignalPTeufel et al., Nat Biotechnol., 2022
    アミノ酸配列を入力として、シグナルペプチドの有無や領域を予測するプログラムです。
  • 細胞内局在(subcellular location)
    タンパク質が細胞内小器官のどこに局在するかということです。
  • TargetPAlmagro Armenteros et al., Life Sci Alliance., 2019
    細胞内局在予測プログラムです。
  • 膜貫通タンパク質(transmembrane protein)
    リンク先は「膜貫通型タンパク質」です。細胞膜全体に広がる膜内在性タンパク質の一種です。多くの膜貫通型タンパク質は、膜を通過する特定の物質の輸送を可能にするゲートウェイとして機能します。
  • トポロジー(topology)
    この場合は、アミノ酸配列のたとえばN末端が細胞膜の内側か外側かのどちらかということです。
  • PhobiusKäll et al., J Mol Biol., 2004
    膜貫通タンパク質のトポロジー予測プログラムです。
  • DeepTMHMMKrogh et al., J Mol Biol., 2001
    膜貫通タンパク質のトポロジー予測プログラムです。論文はTMHMMのものですが、2021年にDeepTMHMMがリリースされていたのでそちらにリンクを張っています。
  • MobiDBPiovesan et al., Nucleic Acids Res., 2021
    タンパク質の天然変性(disorder)および可動性(mobility)に関する情報を収集したDBです。
  • UniProtKBBoutet et al., Methods Mol Biol., 2016
    UniProtの主要なリソースです。

page098
  • 例題3.8
    1ページ目が問題、2ページ目以降が解答例です。
    • UniProtKBBoutet et al., Methods Mol Biol., 2016
      UniProtの主要なリソースです。
    • 受容体型チロシンキナーゼ(receptor tyrosine kinase)
      多くのポリペプチド型成長因子、サイトカイン、ホルモンに対する高親和性の細胞表面受容体です。ヒトゲノムでは90種類のチロシンキナーゼの遺伝子が同定されており、そのうち58種類が受容体型チロシンキナーゼをコードします。

    • タンパク質(protein)
      20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
    • シグナルペプチド(signal peptide)
      タンパク質分子にある短い(3から60アミノ酸ほど)ペプチド配列で、細胞質内で生合成されたタンパク質の、輸送および局在化を指示する構造です。mRNAの翻訳開始点の上流部分でリボソーム結合領域を含み、翻訳に関与します。

  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • UniProtKBBoutet et al., Methods Mol Biol., 2016
    UniProtの主要なリソースです。
  • アノテーション(annotation)
    この場合は、タンパク質配列中のドメイン・ファミリー・モチーフ情報などの生物学的意味を注釈付けした情報という意味です。

3.7 配列特徴の表現と検索

3.7.1 配列特徴の表現

  • 配列(sequence)
    この場合は、アミノ酸配列のことを指します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • 文字(charactor)
    この場合はアミノ酸の1文字表記のことです。
  • モチーフ(motif)
    タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • 配列特徴(sequence characteristics)
    アミノ酸配列の観点でみた、ドメインやモチーフの特徴のことです。
    1. コンセンサス配列(consensus sequence)
      シーケンスアラインメントの各位置における最も高頻度の塩基またはアミノ酸残基が計算された配列のことです。
    2. 正規表現(regular expression)
      文字列の集合を1つの文字列で表現する方法の1つです。文字列のパターンマッチングを行う際によく用いられます。
    3. 出現確率行列(probability matrix)
      MSAをとったときの位置数が列数、塩基配列の場合はACGTの4行をベースとして、それぞれの位置における各塩基の出現確率を算出した数値行列のことです。各位置の文字の出現確率を行列で表したものです。
    4. 位置特異的スコア行列(PSSM)
      リンク先は「Position weight matrix」です。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。
    5. HMM
      隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。

  • 配列(sequence)
    この場合は、アミノ酸配列のことを指します。
  • プロファイル(profile)
    大まかには、複数配列のMSA結果をまとめたものです。本書では、「配列の特徴を示すパターンの表現」としており、PSSMそのものを指す場合や、もう少し柔軟に挿入・欠失も含めて表現する場合もあります。
  • PSSM
    リンク先は「Position weight matrix」です。位置特異的スコア行列(position specific score matrix)のことです。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。
  • 挿入・欠失
    リンク先は「インデル」です。ゲノム上のある場所に1~数十塩基程度の塩基配列が組み込まれるのが挿入(insertion)、逆に元からあった1~数十塩基程度の領域がなくなるのが欠失(deletion)です。2つのイベントを総称してインデル(indel)ともいいます。
  • 遺伝子配列(gene sequences)
    この場合は、遺伝子の塩基配列という理解でよいです。
  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。

  • 図3.20
    プロモータ領域のMSAの例です。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • プロモータ(promoter)
    遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • 転写開始部位(transcription start site; TSS)
    リンク先は「転写 (生物学)」です。RNAの転写が開始される部位のことであり、転写されたRNAの1番目の塩基の位置に相当します。
  • プリブノーボックス(Pribnow box)
    真正細菌の遺伝子において、RNAポリメラーゼによる転写開始位置の上流10 bpの位置にみとめられる共通塩基配列のことです。-10領域、-10ボックス、あるいはTATAボックスとよばれることもあります。
  • 配列(sequence)
    この場合は、塩基配列のことです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • 出現度数(frequency of occurrence)
    この場合は、MSA中の各位置における、塩基ごとの出現回数のことです。
  • 出現確率(probability of occurrence)
    この場合は、MSA中の各位置における、「塩基ごとの出現回数」を「その位置の全塩基数」で割ったもののことです。

  • 表3.2
    図3.20で見えている、プリブノーボックスの10個の配列の(a)出現度数、(b)出現確率、そして(c)PSSMの例です。(b)の出現確率からの(c)のPSSMの計算は、page100の式(3.9)で\(\log\)の底を2にすれば再現可能です。たとえば、(b)の\(1\)番目の位置のCの出現確率は\(2\)\(\times 1\)列に相当しますので、\(f(2, 1)\) = \(0.1\)です。また、計算の単純化のために、式(3.9)の右辺分母にある\(g(j)\) = \(0.25\)として計算しますので、\(PSSM(2, 1)\) = \(\log_2 \frac{f(2, 1)}{g(j)}\) = \(\log_2 \frac{0.1}{0.25}\) = \(-1.321928\)となり(c)の当該要素の値と一致します。なお、実際の大腸菌のGC含量は50.631%です。これは、GとCが各25.316%を占め、残りのAとTが各24.684%を占めることを意味します。ちなみに、式(3.9)の右辺分母の\(g(j)\)の文字\(j\)がアデニン(A)の場合は\(g(\rm{A})\) = 0.24684、Cの場合は\(g(\rm{C})\) = 0.25316のように計算するのが正統ですが、ここでは簡略化のために(話がややこしくならないように)すべて0.25として計算しているということです。
page099

3.7.2 コンセンサス配列

  • コンセンサス配列(consensus sequence)
    シーケンスアラインメントの各位置における最も高頻度の塩基またはアミノ酸残基が計算された配列のことです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 要素(element)
    この場合は、文字と置き換えてもよいです。MSAが塩基配列の場合は、要素は塩基に相当します。アミノ酸配列の場合は、要素はアミノ酸の1文字表記に相当します。
  • 配列(sequence)
    この場合は、塩基配列のことです。
  • プリブノーボックス(Pribnow box)
    真正細菌の遺伝子において、RNAポリメラーゼによる転写開始位置の上流10 bpの位置にみとめられる共通塩基配列のことです。-10領域、-10ボックス、あるいはTATAボックスとよばれることもあります。
コンセンサス配列に完全に一致する配列の検索方法
  • 配列(sequence)
    この場合は、塩基配列のことです。
  • コンセンサス配列(consensus sequence)
    シーケンスアラインメントの各位置における最も高頻度の塩基またはアミノ酸残基が計算された配列のことです。

3.7.3 正規表現

  • 正規表現(regular expression)
    文字列の集合を1つの文字列で表現する方法の1つです。文字列のパターンマッチングを行う際によく用いられます。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 文字列(string)
    この場合は、塩基配列やアミノ酸配列のことです。
  • 和集合(union)
    集合の集まり(集合族)に対して、それらの集合のいずれか少なくとも1つに含まれているような要素をすべて集めることにより得られる集合のことです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • 出現確率(probability of occurrence)
    この場合は、MSA中の各位置における、「塩基ごとの出現回数」を「その位置の全塩基数」で割ったもののことです。

正規表現で表されたパターンに合致する配列の検索方法
  • 正規表現(regular expression)
    文字列の集合を1つの文字列で表現する方法の1つです。文字列のパターンマッチングを行う際によく用いられます。
  • オートマトン(automaton)
    状態と遷移と動作の組み合わせからなる数学的に抽象化された「ふるまいのモデル」のことです。有限個の状態と遷移と動作の組み合わせからなる数学的に抽象化された「ふるまいのモデル」は有限オートマトン(finite automaton)といいます。
  • 状態遷移図(State Transition Diagram)
    オートマトンの状態の遷移を図に表したものです。「状態」に相当するものが「どの塩基か」ということで、どの塩基からどの塩基に遷移しやすいかを表したものだという理解でよいです。

  • 図3.21
    [GT]-[AGT]-x(3)-Tを表すオートマトンの例です。
  • オートマトン(automaton)
    状態と遷移と動作の組み合わせからなる数学的に抽象化された「ふるまいのモデル」のことです。有限個の状態と遷移と動作の組み合わせからなる数学的に抽象化された「ふるまいのモデル」は有限オートマトン(finite automaton)といいます。
  • 状態遷移図(State Transition Diagram)
    オートマトンの状態の遷移を図に表したものです。「状態」に相当するものが「どの塩基か」ということで、どの塩基からどの塩基に遷移しやすいかを表したものだという理解でよいです。
  • 文字列(string)
    この場合は、塩基配列やアミノ酸配列のことです。
page100
  • 図3.21
    [GT]-[AGT]-x(3)-Tを表すオートマトンの例です。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • オートマトン(automaton)
    状態と遷移と動作の組み合わせからなる数学的に抽象化された「ふるまいのモデル」のことです。有限個の状態と遷移と動作の組み合わせからなる数学的に抽象化された「ふるまいのモデル」は有限オートマトン(finite automaton)といいます。

3.7.4 出現確率行列とPSSM

  • 出現確率行列(probability matrix)
    MSAをとったときの位置数が列数、塩基配列の場合はACGTの4行をベースとして、それぞれの位置における各塩基の出現確率を算出した数値行列のことです。各位置の文字の出現確率を行列で表したものです。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 出現確率(probability of occurrence)
    この場合は、MSA中の各位置における、「塩基ごとの出現回数」を「その位置の全塩基数」で割ったもののことです。
  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • バックグラウンド(background)
    この場合は、「解析対象生物種が本来持つ性質」という理解でよいです。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなります。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。
  • 位置特異的スコア行列(position specific score matrix; PSSM)
    リンク先は「Position weight matrix」です。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。

  • 出現確率行列(probability matrix)
    MSAをとったときの位置数が列数、塩基配列の場合はACGTの4行をベースとして、それぞれの位置における各塩基の出現確率を算出した数値行列のことです。各位置の文字の出現確率を行列で表したものです。
  • PSSM
    リンク先は「Position weight matrix」です。位置特異的スコア行列(position specific score matrix)のことです。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • 定義(definition)
    一般にコミュニケーションを円滑に行うために、ある言葉の正確な意味や用法について、人々の間で共通認識を抱くために行われる作業のことです。
  • 表3.2
    図3.20で見えている、プリブノーボックスの10個の配列の(a)出現度数、(b)出現確率、そして(c)PSSMの例です。(b)の出現確率からの(c)のPSSMの計算は、page100の式(3.9)で\(\log\)の底を2にすれば再現可能です。たとえば、(b)の\(1\)番目の位置のCの出現確率は\(2\)\(\times 1\)列に相当しますので、\(f(2, 1)\) = \(0.1\)です。また、計算の単純化のために、式(3.9)の右辺分母にある\(g(j)\) = \(0.25\)として計算しますので、\(PSSM(2, 1)\) = \(\log_2 \frac{f(2, 1)}{g(j)}\) = \(\log_2 \frac{0.1}{0.25}\) = \(-1.321928\)となり(c)の当該要素の値と一致します。なお、実際の大腸菌のGC含量は50.631%です。これは、GとCが各25.316%を占め、残りのAとTが各24.684%を占めることを意味します。ちなみに、式(3.9)の右辺分母の\(g(j)\)の文字\(j\)がアデニン(A)の場合は\(g(\rm{A})\) = 0.24684、Cの場合は\(g(\rm{C})\) = 0.25316のように計算するのが正統ですが、ここでは簡略化のために(話がややこしくならないように)すべて0.25として計算しているということです。
  • 図3.20
    プロモータ領域のMSAの例です。
  • プリブノーボックス(Pribnow box)
    真正細菌の遺伝子において、RNAポリメラーゼによる転写開始位置の上流10 bpの位置にみとめられる共通塩基配列のことです。-10領域、-10ボックス、あるいはTATAボックスとよばれることもあります。
  • バックグラウンド(background)
    この場合は、「解析対象生物種である大腸菌ゲノム配列全体の性質」という理解でよいです。具体的には大腸菌ゲノム全体の各塩基の出現確率のことを指します。

  • 「PSSMの要素の値\(PSSM(i, j)\)は位置\(i\)における文字\(j\)の出現確率をPSSMは\(f(i, j)\), …」の文章について
    初刷では「PSSMの要素の値\(PSSM(i, j)\)は位置\(i\)における文字\(j\)の出現確率をPSSMは\(f(i, j)\), バックグラウンドの文字\(j\)の出現確率を\(g(j)\)とすると, 位置\(i\)における文字\(j\)の以下の式で与えられる。」となっていますが、正しくは「PSSMの要素の値\(PSSM(i, j)\)は位置\(i\)における文字\(j\)の出現確率を\(f(i, j)\), バックグラウンドの文字\(j\)の出現確率を\(g(j)\)とすると, 位置\(i\)における文字\(j\)PSSMは以下の式で与えられる。」ですm(_ _)m。「PSSMは」という文字列が正しい位置になっていなかったということです。
  • PSSM
    リンク先は「Position weight matrix」です。位置特異的スコア行列(position specific score matrix)のことです。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。
  • 要素(element)
    この場合は、文字と置き換えてもよいです。MSAが塩基配列の場合は、要素は塩基に相当します。アミノ酸配列の場合は、要素はアミノ酸の1文字表記に相当します。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 出現確率(probability of occurrence)
    この場合は、MSA中の各位置における、「塩基ごとの出現回数」を「その位置の全塩基数」で割ったもののことです。
  • バックグラウンド(background)
    この場合は、「解析対象生物種である大腸菌ゲノム配列全体の性質」という理解でよいです。具体的には大腸菌ゲノム全体の各塩基の出現確率のことを指します。
  • 式(3.9)
    \(n\)\(\times l\)列からなる位置特異的スコア行列PSSMの位置\(i\)における文字\(j\)の要素の値であり、\(PSSM(i, j)\)を計算する式の1つです。\(l\)はアラインメントの長さです。この数式で\(\log\)の底を2として計算すると、表3.2(c)や表3.3(b)が得られます。
    \[ PSSM(i, j) = \log \frac{f(i, j)}{g(j)} \tag{3.9} \] 以下は記号の説明です:
    • \(f(i, j)\)
      位置\(i\)における文字\(j\)の出現確率です。
    • \(g(j)\)
      バックグラウンドの文字\(j\)の出現確率です。
    • \(PSSM(i, j)\)
      \(n\)\(\times l\)列からなる位置特異的スコア行列PSSMの位置\(i\)における文字\(j\)の要素の値です。

  • \(f(i, j)\)
    位置\(i\)における文字\(j\)の出現確率です。
  • \(g(j)\)
    バックグラウンドの文字\(j\)の出現確率です。
  • バックグラウンド(background)
    この場合は、「解析対象生物種である大腸菌ゲノム配列全体の性質」という理解でよいです。具体的には大腸菌ゲノム全体の各塩基の出現確率のことを指します。
  • 対数(logarithm)
    簡単にいうと、logをとることです。ある数\(x\)を数\(b\)の冪乗\(b^p\)として表した場合の冪指数\(p\)です。この\(p\)は「底を\(b\)とする\(x\)の対数(logarithm of \(x\) to base \(b\))」と呼ばれ、通常は\(\log_b x\)と書き表されます。たとえば、底をeとする10の対数は\(\log_e(10)\) \(= 2.302585\)です。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
page101
  • 式(3.10)
    \(n\)\(\times l\)列からなる位置特異的スコア行列PSSMの位置\(i\)における文字\(j\)の要素の値であり、\(PSSM(i, j)\)を計算する式の1つです。\(l\)はアラインメントの長さです。
    \[ PSSM(i, j) = \log \frac{f(i, j) + 1}{g(j) + n} \tag{3.10} \] 以下は記号の説明です:
    • \(f(i, j)\)
      位置\(i\)における文字\(j\)の出現確率です。
    • \(g(j)\)
      バックグラウンドの文字\(j\)の出現確率です。
    • \(n\)
      文字の種類数です。例えば、塩基配列では4、アミノ酸配列では20になります。
    • \(PSSM(i, j)\)
      \(n\)\(\times l\)列からなる位置特異的スコア行列PSSMの位置\(i\)における文字\(j\)の要素の値です。

  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • PSSM
    リンク先は「Position weight matrix」です。位置特異的スコア行列(position specific score matrix)のことです。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。
  • 式(3.11)
    \(n\)\(\times l\)列からなる位置特異的スコア行列PSSMの位置\(i\)における文字\(j\)の要素の値であり、\(PSSM(i, j)\)を計算する式の1つです。\(l\)はアラインメントの長さです。
    \[ PSSM(i, j) = \sum_{i=1}^n \frac{f(i, k)}{g(j)}s(k, j) \tag{3.11} \] 以下は記号の説明です:
    • \(f(i, k)\)
      位置\(i\)における文字\(k\)の出現確率です。
    • \(g(j)\)
      バックグラウンドの文字\(j\)の出現確率です。
    • \(s(k, j)\)
      文字\(k\)から文字\(j\)への置換しやすさ(置換スコア)です。
    • \(n\)
      文字の種類数です。例えば、塩基配列では4、アミノ酸配列では20になります。
    • \(PSSM(i, j)\)
      \(n\)\(\times l\)列からなる位置特異的スコア行列PSSMの位置\(i\)における文字\(j\)の要素の値です。

  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • PAM
    リンク先は「Point accepted mutation」です。point accepted mutationの略です。近縁のタンパク質を集めて、置換の頻度を調べて分子進化学的に求めた置換スコアの行列のことです。
  • BLOSUM
    リンク先は「BLOSUM」です。BLOcks SUbstitution Matrixの略です。類縁タンパク質の複数の配列のアラインメントを作成し、ブロック(ギャップなしで保存された部分)で、実際に観測されるアミノ酸の置換をもとに計算した置換スコアの行列のことです。
  • アミノ酸置換行列(amino acid substitution matrix)
    あるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものを行列形式でまとめたものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • タンパク質ファミリー(protein family)
    進化上の共通祖先に由来すると推定されるタンパク質をまとめたグループです。生物を進化系統により分類するように、タンパク質を進化の観点から分類する意味があります。同様の概念で遺伝子をまとめた「遺伝子ファミリー」(遺伝子族)もありますが、これもタンパク質ファミリーにほぼ対応します。
  • 膜貫通領域(transmembrane region)
    リンク先は「膜貫通型ドメイン」です。膜貫通タンパク質(transmembrane protein)中の細胞膜を貫通する領域のことです。
  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。

  • PSI-BLASTAltschul et al., Nucleic Acids Res., 1997
    position-specific iterated BLASTの略です。BLAST検索で得られたトップヒット群の位置特異的なスコア情報を用いてさらにBLAST検索を繰り返すことで、高感度な結果が得られる配列類似性検索アルゴリズムです。
  • プロファイル(profile)
    この場合は、複数配列のMSA結果をまとめたものという理解でよいです。本書では、「配列の特徴を示すパターンの表現」としており、PSSMそのものを指す場合や、もう少し柔軟に挿入・欠失も含めて表現する場合もあります。
  • PSSM
    リンク先は「Position weight matrix」です。位置特異的スコア行列(position specific score matrix)のことです。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。
  • 式(3.12)
    PSI-BLAST (Altschul et al., Nucleic Acids Res., 1997)で用いられているプロファイル(PSSM)です。
    \[ PSSM_{\rm{PSI-BLAST}}(i, j) = \log \frac{Q(i, j)}{g(j)} \tag{3.12} \] 以下は記号の説明です:
    • \(Q(i, j)\)
      式(3.13)で説明されています。
    • \(g(j)\)
      バックグラウンドの文字\(j\)の出現確率です。
    • \(PSSM_{\rm{PSI-BLAST}}(i, j)\)
      PSI-BLASTで用いられている\(n\)\(\times l\)列からなる位置特異的スコア行列PSSMの位置\(i\)における文字\(j\)の要素の値です。\(l\)はアラインメントの長さです。
  • 式(3.13)
    初刷では分母が「\(g(j)\)」となっていますが、正しくは「\(\alpha + \beta\)」ですm(_ _)m \[ Q(i, j) = \frac{\alpha f(i, j) + \beta P(i, j)}{\alpha + \beta} \tag{3.13} \] 以下は記号の説明です:
    • \(\alpha\)
      「その位置に出現するギャップを含む文字数-1」です。たとえば10配列のMSAだとしたら、10 - 1 = 9です。
    • \(f(i, j)\)
      位置\(i\)における文字\(j\)の出現確率です。
    • \(\beta\)
      ただの定数で、ここでは10です。
    • \(P(i, j)\)
      式(3.13)中の右辺の分子(numerator)にあります。位置\(i\)における文字\(j\)の相対的な現れやすさに相当し、式(3.11)の左辺である\(PSSM(i, j)\)と同じものです。
    • \(Q(i, j)\)
      式(3.12)の右辺の分子(numerator)に相当するものです。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 出現確率(probability of occurrence)
    この場合は、MSA中の各位置における、「塩基ごとの出現回数」を「その位置の全塩基数」で割ったもののことです。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。

出現確率行列で表されたパターンに合致する配列の検索方法
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • 文字列(string)
    この場合は、塩基配列やアミノ酸配列のことです。
  • 出現確率行列(probability matrix)
    MSAをとったときの位置数が列数、塩基配列の場合はACGTの4行をベースとして、それぞれの位置における各塩基の出現確率を算出した数値行列のことです。各位置の文字の出現確率を行列で表したものです。
  • PSSM
    リンク先は「Position weight matrix」です。位置特異的スコア行列(position specific score matrix)のことです。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。
  • 表3.3
    大腸菌のゲノム配列から取得したプリブノーボックスの塩基の(a)出現確率と(b)PSSM(プロファイル)の例です。初刷の表3.3(b)の値は、リンク先で示している表3.3(b)の値と若干ずれています。表3.3(b)のほうが本文の説明通りの計算結果ですm(_ _)m 表3.2図3.20で見えているプリブノーボックスの10個のみの配列由来の情報になりますので、全体として似た傾向になっています。(a)の出現確率は、式(3.9)の右辺の\(f(i, j)\)に相当します。たとえば、\(1\)番目の位置のAの出現確率は\(1\)\(\times 1\)列に相当しますので、\(f(1, 1)\) = \(0.02\)です。また、\(3\)番目の位置のCの出現確率は\(2\)\(\times 3\)列に相当しますので、\(f(2, 3)\) = \(0.14\)です。(b)のPSSMは、式(3.9)で計算しています。本文中の「バックグラウンドの塩基の出現確率はどれも0.25として計算」は、式(3.9)の右辺分母にある\(g(j)\) = \(0.25\)として算出した\(PSSM(i, j)\)に対応します。したがって、たとえば\(PSSM(1, 1)\) = \(\log_2 \frac{f(1, 1)}{g(j)}\) = \(\log_2 \frac{0.02}{0.25}\) = \(-3.644\)となります(対応する初刷の値は\(-3.8\))。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • プリブノーボックス(Pribnow box)
    真正細菌の遺伝子において、RNAポリメラーゼによる転写開始位置の上流10 bpの位置にみとめられる共通塩基配列のことです。-10領域、-10ボックス、あるいはTATAボックスとよばれることもあります。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • 出現確率(probability of occurrence)
    この場合は、MSA中の各位置における、「塩基ごとの出現回数」を「その位置の全塩基数」で割ったもののことです。
  • バックグラウンド(background)
    この場合は、「解析対象生物種である大腸菌ゲノム配列全体の性質」という理解でよいです。具体的には大腸菌ゲノム全体の各塩基の出現確率のことを指します。
  • 尤度(likelihood)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
page102
  • 出現確率(probability of occurrence)
    この場合は、MSA中の各位置における、「塩基ごとの出現回数」を「その位置の全塩基数」で割ったもののことです。
  • PSSM
    リンク先は「Position weight matrix」です。位置特異的スコア行列(position specific score matrix)のことです。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。
  • 尤度(likelihood)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • プリブノーボックス(Pribnow box)
    真正細菌の遺伝子において、RNAポリメラーゼによる転写開始位置の上流10 bpの位置にみとめられる共通塩基配列のことです。-10領域、-10ボックス、あるいはTATAボックスとよばれることもあります。
  • CGTATAの尤度について
    前頁の表3.3(b)の値の修正(たとえば一番左上の要素が初刷の\(-3.8\)から\(-3.64\)へ修正)に連動したものですm(_ _)m
    修正前:「- 1.49 - 4.81 + 0.81 + 1.24 - 0.56 - 4.81 = - 9.62」
    修正後:「- 1.47 - 4.64 + 0.82 + 1.24 - 0.56 - 4.64 = - 9.25」
  • GTATAAの尤度について
    前頁の表3.3(b)の値の修正(たとえば一番左上の要素が初刷の\(-3.8\)から\(-3.64\)へ修正)に連動したものですm(_ _)m
    修正前:「- 1.34 - 3.22 - 0.06 - 0.89 + 1.02 - 4.81 = - 9.30」
    修正後:「- 1.32 - 3.06 + 0.06 - 0.94 + 1.03 - 4.64 = - 8.87」
  • TATAATの尤度について
    前頁の表3.3(b)の値の修正(たとえば一番左上の要素が初刷の\(-3.8\)から\(-3.64\)へ修正)に連動したものですm(_ _)m
    修正前:「+ 1.67 + 1.92 + 0.81 + 1.24 + 1.02 + 1.95 = + 8.61」
    修正後:「+ 1.66 + 1.91 + 0.82 + 1.24 + 1.03 + 1.93 = + 8.59」
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。

3.7.5 隠れマルコフモデル(HMM)

  • マルコフモデル(Markov model)
    リンク先は「Markov model」です。複数の内部状態を有し,その状態間を確率的に遷移するシステムにおいて、未来の状態が現在の状態だけで決定されると考えられた時(これをマルコフ過程に従うといいます)、入力の分布の時間発展を予想する確率モデルのことです(古谷和春, ファルマシア, 2015)。マルコフ過程に基づく確率モデルで、有限個の状態をもち、状態が直前の状態のみによって決まり、確率的に遷移するというものです。
  • マルコフ過程(Markov process)
    未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質(これをマルコフ性といいます)を持つ確率過程のことです。
  • 確率モデル(stochastic model)
    確率分布関数と同じものです。正規分布のことを正規分布モデルや正規分布関数といったりします。
  • 定義(definition)
    一般にコミュニケーションを円滑に行うために、ある言葉の正確な意味や用法について、人々の間で共通認識を抱くために行われる作業のことです。

  • 隠れマルコフモデル(Hidden Markov Model; HMM)
    確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • 遷移確率(transition probability)
    この場合は、ある状態(文字)から別の状態(文字)へと遷移する確率という理解でよいです。本書では、状態\(i\)から\(j\)への遷移確率を\(A = \{a_{i,j}\}\)として表しています。
  • 出力確率(output probabilityまたはemission probability)
    表3.2bで算出される出現確率と同じようなものという理解でよいです。HMMのような配列パターンを状態遷移図で表現する際に、値自体は出現確率と同じですが出力確率とよびます。つまり、出現確率が出力確率に等しいということです。実際、表3.2bの出現確率の値と図3.22の四角いボックス内の出力確率の値は同じです。本書では、状態\(i\)における文字\(x_k\)の出力確率を\(E = \{e_i(x_k)\}\)として表しています。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。生命現象を説明するのに必要な”登場人物”に相当するのが”要素”で、その要素に掛ける”係数”のようなイメージで”パラメータ”を捉えるとよいと思います。
  • マルコフモデル(Markov model)
    リンク先は「Markov model」です。複数の内部状態を有し,その状態間を確率的に遷移するシステムにおいて、未来の状態が現在の状態だけで決定されると考えられた時(これをマルコフ過程に従うといいます)、入力の分布の時間発展を予想する確率モデルのことです(古谷和春, ファルマシア, 2015)。マルコフ過程に基づく確率モデルで、有限個の状態をもち、状態が直前の状態のみによって決まり、確率的に遷移するというものです。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 初刷の「表3.3のプリブノーボックスの例では…」の文について
    初刷では表3.3になっていますが、正しくは表3.2ですm(_ _)m
  • プリブノーボックス(Pribnow box)
    真正細菌の遺伝子において、RNAポリメラーゼによる転写開始位置の上流10 bpの位置にみとめられる共通塩基配列のことです。-10領域、-10ボックス、あるいはTATAボックスとよばれることもあります。
  • 配列(sequence)
    この場合は、塩基配列のことです。
  • 図3.22
    • 初刷では表3.3になっていますが、正しくは「表3.2のプリブノ―ボックスのパターンから得られるHMMの例」ですm(_ _)m。
    • 図3.20の右下に見えている1~6という位置にある塩基の出現度数情報に基づいており、これをまとめたものが表3.2の(a)と(b)になります。たとえば、図3.20の1番目の位置には、Aが0個、Cが1個、Gが2個、Tが7個あります。全部で10配列ですので、10で割った値が図3.22(a)の\(M_1\)の黒い四角内に見えている「A:0, C:0.1, G:0.2, T:0.7」です。
    • 矢印のそばにある数値は遷移確率とよび、ある塩基から別の塩基へと遷移する確率です。本書では、状態\(i\)から状態\(j\)への遷移確率を\(A =\) \(\{a_{i,j}\}\)として表しています。例えば、状態\(M_1\)から状態\(M_2\)への右向き矢印の上にある1という遷移確率は、\(a_{M_1, M_2}\) \(= 1\)のように表現することができます。これは、図3.20の1番目の位置にある10個の一致状態\(M_1\)の文字の右隣が、全て2番目の位置であり文字である確率です。図3.23aと見比べるとよりわかりやすいと思いますが、図3.20の1番目の位置にある10個の文字の右隣には挿入状態\(I\)や削除状態\(D\)はないのだという理解でも差し支えありません。ここで見えている計5つの矢印のそばにある全ての遷移確率が1になっているのは、図3.20の右下に見えている1~6という位置にあるものが全て文字(塩基)であることに対応します。もしこの中のどこかの文字がギャップになっていたら、ギャップの文字が含まれる一致状態\(M\)の左側にある矢印のそばの遷移確率が1未満になります。たとえば、5の位置のどこかに1つだけギャップが含まれていたら、\(a_{M_4, M_5}\) \(< 1\)になるのだと解釈すればよいです。
    • 四角いボックス内にあるACGTの数値は出力確率とよびます。値自体は表3.2bで見えている出現確率と同じですが、パターンを表す状態遷移図の枠組みでは出力確率とよぶのが一般的です。状態遷移図に絡めて説明する場合には、出現確率ではなく出力確率とよぶのだという理解でもよいと思います。
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • 一致状態(match state)
    図3.22\(M_1\)\(M_2\)のような、ある特定の位置においていずれかの文字(塩基配列の場合はACGTのいずれか)と一致する状態のことです。本書では\(M\)で表現しています。page102の真ん中よりちょっと上あたりでは、状態の集合を\(Z\) = \(\{z_0, z_1, ...z_n, z_{n+1}\}\)のように表現しています。これは、実際には一致状態\(M\)だけではなく削除状態\(D\)や挿入状態\(I\)が存在するので、\(M\)\(D\)\(I\)の状態を全てまとめて表現したものが\(Z\)なのだと理解すればよいです。一致状態\(M\)は、\(Z\)の部分集合という理解でもかまいません。

  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • 挿入・欠失
    リンク先は「インデル」です。ゲノム上のある場所に1~数十塩基程度の塩基配列が組み込まれるのが挿入(insertion)、逆に元からあった1~数十塩基程度の領域がなくなるのが欠失(deletion)です。2つのイベントを総称してインデル(indel)ともいいます。
  • プロファイル(profile)
    大まかには、複数配列のMSA結果をまとめたものです。本書では、「配列の特徴を示すパターンの表現」としており、PSSMそのものを指す場合や、もう少し柔軟に挿入・欠失も含めて表現する場合もあります。
  • プロファイルHMM
    プロファイルとして用いるHMMのことです。図3.23がプロファイルHMMの具体例であり、図3.24が一般形です。
  • プリブノーボックス(Pribnow box)
    真正細菌の遺伝子において、RNAポリメラーゼによる転写開始位置の上流10 bpの位置にみとめられる共通塩基配列のことです。-10領域、-10ボックス、あるいはTATAボックスとよばれることもあります。
  • 図3.23
    プリブノーボックスの下流の配列パターンの(HMMの)例です。(a)確率、(b)対数スコアです。初刷でかなりミスがありますので、こちらのリンク先のものをご利用くださいm(_ _)m。変更箇所がわかるものはこちらです。
    • (a)確率
      • 図3.20の右下に見えている7~12という位置にある塩基の出現度数情報に基づいています。たとえば、図3.20の8番目の位置には、Aが2個、Cが1個、Gが4個、Tが3個あります。全部で10配列ですので、10で割った値が図3.23(a)の\(M_8\)の黒い四角内に見えている「A:0.2, C:0.1, G:0.4, T:0.3」です。ここで見えている確率の値についてですが、矢印のそばにある数値は遷移確率、それ以外の各状態(\(M\)\(I\)\(D\)のこと)の四角いボックス内にあるACGTの数値は出力確率とよびます。特に後者の出力確率のほうは、値自体は表3.2bで見えているような出現確率と同じですが、パターンを表す状態遷移図の枠組みでは出力確率とよぶのが一般的です。状態遷移図に絡めて説明する場合には、出現確率ではなく出力確率とよぶのだという理解でもよいと思います。したがって、ここのタイトルで用いられている確率というのは「遷移確率と出力確率の略」という意味だと理解すればよいです。
      • \(M_8\)の上にある\(I_8\)は、本文中で定義したように図3.20の右下に見えている「7, 8, 11, 12という位置にある4塩基で構成される基本パターン」に文字が挿入された状態(それが\(I_8\))のことを指します。図3.23(a)の\(I_8\)の黒いひし形内に見えている「A:0.125, C:0.625, G:0.125, T:0.125」は、図3.20の右下に見えている9~10という位置にある塩基の出現度数情報に基づいています。ここには、Aが1個、Cが5個、Gが1個、Tが1個あります(これが出現度数)。全部で8個の塩基がありますので、それぞれの出現度数を8で割った値が「A:0.125, C:0.625, G:0.125, T:0.125」です。この領域はギャップ(\(-\))が多くを占めていますので、本文中で定義したように「7, 8, 11, 12の位置にある4塩基で構成される基本パターン」に文字が挿入された挿入状態(それが\(I_8\))とみなすのです。
      • \(M_8\)から\(I_8\)への上向き矢印のそばに見えている\(0.5\)という数値は、\(M_8\)の上にある\(I_8\)の状態に移行する確率です。具体的には、図3.20の右下に見えている8の位置(がACGTいずれかの塩基の状態)から、9~10という位置のいずれかに文字(塩基)が挿入された状態(それが\(I_8\))に移行する確率です。図3.20の左側に見えている配列名がaraB(上から1番目), araC(上から2番目), bioB(上から4番目), lacI(上から7番目), rrnE1(上から8番目)の5つの配列のことを指します。10配列中5配列なので\(5/10 = 0.5\)です。
      • \(M_8\)から\(M_{11}\)への右向き矢印のそばに見えている\(0.4\)という数値は、図3.20の右下に見えている8の位置の文字(塩基)の右隣が、(9~10という位置のいずれかに文字が挿入された状態\(I_8\)に移行せずに)11の位置であり文字である確率です。この場合の文字は、A, C, G, Tいずれかの塩基ですので、図3.20の左側に見えている配列名がgalE(上から5番目), lacZ(上から6番目), \(\lambda\)pR(上から9番目), \(\lambda\)pL(上から10番目)の4つの配列のことを指します。10配列中4配列がこれに該当するので\(4/10 = 0.4\)です。\(M_{11}\)の黒い四角内に見えている「A:0.111, C:0.222, G:0.444, T:0.222」は、図3.20の右下に見えている11という位置にある塩基の出現度数情報に基づいています。この位置には全部で9個の塩基がありますので、9で割るためこのような値になります。
      • \(M_{11}\)の下にある\(D_{11}\)は、本文中で定義したように「7, 8, 11, 12の位置にある4塩基で構成される基本パターン」を構成する11の位置の文字(塩基)が欠損している状態(それが\(D_{11}\))のことを指します。欠損状態のみですので、他の\(M\)\(I\)と違ってACGTの出現確率情報は存在しません。
      • \(M_8\)から\(D_{11}\)への右下向き矢印のそばに見えている\(0.1\)という数値は、図3.20の右下に見えている8の位置の文字(塩基)の右隣が、(9~10という位置のいずれかに文字が挿入された状態\(I_8\)に移行せずに)11の位置でありギャップである(文字ではない)確率です。具体的には、図3.20の左側に見えている配列名がbioA(上から3番目)のことを指します。この配列は、確かに図3.20の右下に見えている11の位置がギャップ(つまり削除状態)です。10配列中1配列がこれに該当するので\(1/10 = 0.1\)です。
      • \(I_8\)の左下から出て左上に戻る向きの丸い矢印のそばに見えている\(0.375\)という数値は、\(I_8\)の挿入状態からふたたび同じ\(I_8\)の状態に移行する確率です。\(I_8\)は、図3.20の右下に見えている「7, 8, 11, 12という位置にある4塩基で構成される基本パターン」に文字が挿入された状態です。この9~10という位置のいずれかに文字が挿入された\(I_8\)状態には、図3.20の左側に見えている配列名がaraB(上から1番目), araC(上から2番目), bioB(上から4番目), lacI(上から7番目), rrnE1(上から8番目)の5つの配列が含まれています。今考える母集団はこれらのみであり、これらの9~10という位置をまとめて1つの挿入状態と考えます。この\(I_8\)という挿入状態に突入してからの状態遷移の総和は計8通り、そのうち\(I_8\)にとどまるのは計3通りですので、\(3/8 = 0.375\)となります。念のため、以下にそれぞれの配列についての状態遷移を記します:
        • araB(上から1番目)
          「位置9→10へのC→Tという\(I_8\)内(\(I_8\)\(I_8\))の状態遷移」と「位置10→11へのT→Cという\(I_8\)\(M_{11}\)への状態遷移」の2通り。
        • araC(上から2番目)
          位置9→11へのC→Tという\(I_8\)\(M_{11}\)への状態遷移」の1通り。
        • bioB(上から4番目)
          「位置9→10へのC→Aという\(I_8\)内(\(I_8\)\(I_8\))の状態遷移」と「位置10→11へのA→Aという\(I_8\)\(M_{11}\)への状態遷移」の2通り。
        • lacI(上から7番目)
          位置9→11へのC→Gという\(I_8\)\(M_{11}\)への状態遷移」の1通り。
        • rrnE1(上から8番目)
          「位置9→10へのG→Cという\(I_8\)内(\(I_8\)\(I_8\))の状態遷移」と「位置10→11へのC→Cという\(I_8\)\(M_{11}\)への状態遷移」の2通り。
      • \(I_8\)の右下から\(M_{11}\)への右下向き矢印のそばに見えている\(0.625\)という数値は、\(I_8\)の状態から\(M_{11}\)の状態に移行する確率です。\(I_8\)は、図3.20の右下に見えている「7, 8, 11, 12という位置にある4塩基で構成される基本パターン」に文字が挿入された状態です。この9~10という位置のいずれかに文字が挿入された\(I_8\)状態には、図3.20の左側に見えている配列名がaraB(上から1番目), araC(上から2番目), bioB(上から4番目), lacI(上から7番目), rrnE1(上から8番目)の5つの配列が含まれています。これらが\(I_8\)という挿入状態に突入してからの状態遷移の総和は計8通り、そのうち\(M_{11}\)に移行するのは計5通りですので、\(5/8 = 0.625\)となります。
      • \(M_{11}\)から\(M_{12}\)への右向き矢印のそばに見えている\(1\)という数値は、図3.20の右下に見えている11の位置の文字(塩基)の右隣が、12の位置であり文字である確率です。この場合の文字は、A, C, G, Tいずれかの塩基ですので、図3.20の左側に見えている配列名がbioA(上から3番目)以外の計9配列の11の位置の文字(塩基)が状態遷移を考える母集団となります。これらの全てが12の位置に遷移しており、9配列中9配列がこれに該当するので\(9/9 = 1\)です。\(M_{12}\)の黒い四角内に見えている「A:0, C:0.3, G:0.2, T:0.5」は、図3.20の右下に見えている12という位置にある塩基の出現度数情報に基づいています。この値は、bioA(上から3番目)由来の12の位置にあるTもカウントに含まれています。
      • \(D_{11}\)から\(M_{12}\)への右上向き矢印のそばに見えている\(1\)という数値は、図3.20の右下に見えている11の位置がギャップ(つまり削除状態)から、12の位置が文字である状態に遷移する確率です。この場合は、\(D_{11}\)に相当するのは、図3.20の左側に見えている配列名がbioA(上から3番目)の11の位置のギャップであり、それが12の位置ではTに遷移していることを表しているからだと理解すればよいです。
    • (b)対数スコア
      • page104の式(3.16)の下から始まる段落でも説明されていますが、図3.23(b)は(a)を対数のスコアに置き換えたものです。
      • 矢印のそばにある遷移確率\(A\)の値は、底を2として対数をとって計算しています。例えば、\(I_8\)にとどまる遷移確率は0.375ですので、その対数スコアは\(\log_2 (0.375)\) \(= -1.415\)となります。
      • それ以外の各状態(\(M\)\(I\)\(D\)のことであり、全部をまとめたものが\(Z\)です)の四角いボックス内にあるACGTの値は、\(g(j)\) \(= 0.25\)として式(3.9)を用いて算出しています(logの底は2です)。ただし、\(M_7\)のCと\(M_{12}\)のAは出現確率\(f(i, j)\)の値が0なので、そのまま計算すると-Infになってしまうのを防ぐため、ここでは空欄にしています。空欄以外の一例として、\(M_7\)の「A:0.2」は\(\log_2 (0.2 / 0.25)\) \(= -0.322\)のように計算します。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 削除状態(delete stateまたはdeletion state)
    図3.20の右下に見えている11という位置の上から3番目のギャップのような、ある特定の位置において文字(塩基配列の場合はACGTのいずれか)が欠失している状態のことです。本書では\(D\)で表現しています。page102の真ん中よりちょっと上あたりでは、状態の集合を\(Z\) = \(\{z_0, z_1, ...z_n, z_{n+1}\}\)のように表現しています。これは、実際には削除状態\(D\)だけではなく一致状態\(M\)や挿入状態\(I\)が存在するので、\(M\)\(D\)\(I\)の状態を全てまとめて表現したものが\(Z\)なのだと理解すればよいです。削除状態\(D\)は、\(Z\)の部分集合という理解でもかまいません。
  • 挿入状態(insert stateまたはinsertion state)
    本文中で定義したように図3.20の右下に見えている「7, 8, 11, 12という位置にある4塩基で構成される基本パターン」に文字が挿入された状態のことです。本書では\(I\)で表現しています。page102の真ん中よりちょっと上あたりでは、状態の集合を\(Z\) = \(\{z_0, z_1, ...z_n, z_{n+1}\}\)のように表現しています。これは、実際には挿入状態\(I\)だけではなく一致状態\(M\)や削除状態\(D\)が存在するので、\(M\)\(D\)\(I\)の状態を全てまとめて表現したものが\(Z\)なのだと理解すればよいです。挿入状態\(I\)は、\(Z\)の部分集合という理解でもかまいません。挿入状態\(I\)は、1文字以上の挿入に対応した状態です。

page103
  • 図3.23
    プリブノーボックスの下流の配列パターンの(HMMの)例です。(a)確率、(b)対数スコアです。初刷でかなりミスがありますので、こちらのリンク先のものをご利用くださいm(_ _)m。変更箇所がわかるものはこちらです。
  • 図3.24
    モチーフの配列パターンの表現です。

  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • 一致状態(match state)
    図3.22\(M_1\)\(M_2\)のような、ある特定の位置においていずれかの文字(塩基配列の場合はACGTのいずれか)と一致する状態のことです。本書では\(M\)で表現しています。page102の真ん中よりちょっと上あたりでは、状態の集合を\(Z\) = \(\{z_0, z_1, ...z_n, z_{n+1}\}\)のように表現しています。これは、実際には一致状態\(M\)だけではなく削除状態\(D\)や挿入状態\(I\)が存在するので、\(M\)\(D\)\(I\)の状態を全てまとめて表現したものが\(Z\)なのだと理解すればよいです。一致状態\(M\)は、\(Z\)の部分集合という理解でもかまいません。
  • 削除状態(delete stateまたはdeletion state)
    図3.20の右下に見えている11という位置の上から3番目のギャップのような、ある特定の位置において文字(塩基配列の場合はACGTのいずれか)が欠失している状態のことです。本書では\(D\)で表現しています。page102の真ん中よりちょっと上あたりでは、状態の集合を\(Z\) = \(\{z_0, z_1, ...z_n, z_{n+1}\}\)のように表現しています。これは、実際には削除状態\(D\)だけではなく一致状態\(M\)や挿入状態\(I\)が存在するので、\(M\)\(D\)\(I\)の状態を全てまとめて表現したものが\(Z\)なのだと理解すればよいです。削除状態\(D\)は、\(Z\)の部分集合という理解でもかまいません。
  • 挿入状態(insert stateまたはinsertion state)
    本文中で定義したように図3.20の右下に見えている「7, 8, 11, 12という位置にある4塩基で構成される基本パターン」に文字が挿入された状態のことです。本書では\(I\)で表現しています。page102の真ん中よりちょっと上あたりでは、状態の集合を\(Z\) = \(\{z_0, z_1, ...z_n, z_{n+1}\}\)のように表現しています。これは、実際には挿入状態\(I\)だけではなく一致状態\(M\)や削除状態\(D\)が存在するので、\(M\)\(D\)\(I\)の状態を全てまとめて表現したものが\(Z\)なのだと理解すればよいです。挿入状態\(I\)は、\(Z\)の部分集合という理解でもかまいません。挿入状態\(I\)は、1文字以上の挿入に対応した状態です。
  • プロファイルHMM
    プロファイルとして用いるHMMのことです。図3.23がプロファイルHMMの具体例であり、図3.24が一般形です。
  • 図3.24
    モチーフの配列パターンの表現です。
  • 初刷の「配列の開始を示す開始状態\(z_0\), 配列の終了を示す終了状態\(z_{n+1}\)を置く。これらは1つずつ存在し, どちらも文字を出力しない特殊な状態である。基本パターンのカラムの数を\(n\)とすると, 一致状態は\(n\)個, 挿入状態は(先頭からの挿入も表すため)\(n+1\)個, 削除状態は\(n\)個存在する。」という文章について
    初刷ではこのように書いていましたが、正しくは以下の通りですm(_ _)m
    配列の開始を示す開始状態\(M_0\)を置く。基本パターンのカラムの数を\(n\)とすると, 一致状態は\(n\)個, 挿入状態は(先頭からの挿入も表すため)\(n\)個, 削除状態は\(n-1\)個存在する。
    この変更によって、図3.24に見えている状態数と一致します。尚、開始状態\(M_0\)は前ページで言及されている\(z_0\)のことです。\(z_0\)に相当する\(M_0\)はカウントには含めないので「一致状態は\(n\)個」なのです。終了状態に相当する\(z_{n+1}\)は、図3.24の右側に見えている\(M_n\)に相当する場合もあれば、図3.24では示されていないものの、\(M_{n+1}\)という場合もありうるため、ややこしいのであえて言及していません。

page104
HMMで表されたパターンに合致する配列の検索方法
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • モデル(model)
    この場合は、関数(function)とか数式(equation)と置き換えてもよいです。
  • 遷移確率(transition probability)
    この場合は、ある状態(文字)から別の状態(文字)へと遷移する確率という理解でよいです。本書では、状態\(i\)から\(j\)への遷移確率を\(A = \{a_{i,j}\}\)として表しています。
  • 出力確率(output probabilityまたはemission probability)
    表3.2bで算出される出現確率と同じようなものという理解でよいです。HMMのような配列パターンを状態遷移図で表現する際に、値自体は出現確率と同じですが出力確率とよびます。つまり、出現確率が出力確率に等しいということです。実際、表3.2bの出現確率の値と図3.22の四角いボックス内の出力確率の値は同じです。本書では、状態\(i\)における文字\(x_k\)の出力確率を\(E = \{e_i(x_k)\}\)として表しています。例えば、状態\(M_{12}\)における文字Gの出力確率は\(e_{M_{12}}(\rm G)\) = 0.2、状態\(M_8\)における文字Tの出力確率は\(e_{M_8}(\rm T)\) = 0.3です。
  • 文字列(string)
    この場合は、塩基配列やアミノ酸配列のことです。
  • 式(3.14)
    初刷の内容を以下のように訂正しますm(_ _)m
    誤:\(\prod_{l=1}^L P(e_{z(l)}(x[l]))\)
    正:\(\prod_{l=1}^L e_{z(l)}(x[l])\)
    文字列\(x\)が生成される同時確率\(P(x, Q \mid \theta)\)を得る式です。文字列\(x\)の各文字の出力確率が\(\prod_{l=1}^L e_{z(l)}(x[l])\)に対応します。\(Q\)の経路上の各状態の遷移確率の積が\(P_{tr}(Q)\)に対応し、式(3.15)で与えられています。なお、本文中では文字列\(x\) = TTCTCCを一例として示していますが、\(l = 1\)番目の文字は\(x[1]\) = T、\(l = 2\)番目の文字は\(x[2]\) = T、\(l = 3\)番目の文字は\(x[3]\) = C、\(l = 4\)番目の文字は\(x[4]\) = T、\(l = 5\)番目の文字は\(x[5]\) = C、\(l = 6\)番目の文字は\(x[6]\) = Cのように解釈します。ちなみに、\(\prod\)は掛け算のことであり、全ての積(product)という意味で総乗(そうじょう)といいます。例えばサイコロを2回振って2回とも4がでる確率は\((1/6) \times (1/6)\) \(= 1/36\)のように個々の確率の積として計算することを思い出せばよいと思います。
    \[ P(x, Q \mid \theta) = \prod_{l=1}^L e_{z(l)}(x[l]) \cdot P_{tr}(Q) \tag{3.14} \] 以下は記号の説明です:
    • \(L\)
      文字列\(x\)の長さ(配列長)のことです。例えば、文字列\(x\) = TTCTCCの場合は\(L\) = 6、\(x\) = TTCTの場合は\(L\) = 4です。
    • \(z(l)\)
      \(l\)番目の文字である\(x[l]\)が出力される状態のことです。例えば図3.23aは、図3.20の右下に見えている「7, 8, 11, 12という位置にある4塩基で構成される基本パターン」に文字が挿入された状態をプロファイルHMMとして表現したものです。これで文字列\(x\) = TTCTCCについて考えると、\(l = 1\)番目の文字\(x[1]\) = Tが出力される状態は\(z(1) =M_7\)\(l = 2\)番目の文字\(x[2]\) = Tが出力される状態は\(z(2) = M_8\)で確定です。理由は\(M_7\)から\(M_8\)への右向き矢印の上にある1という遷移確率が\(a_{M_7, M_8}\) \(= 1\)だからです。そして\(l = 3\)番目の文字\(x[3]\) = Cが出力される状態は、一般には挿入状態\(I_8\)への遷移確率が\(a_{M_8, I_8}\) \(= 0.5\)、一致状態\(M_{11}\)への遷移確率が\(a_{M_8, M_{11}}\) \(= 0.4\)、そして削除状態\(D_{11}\)への遷移確率が\(a_{M_8, M_{11}}\) \(= 0.1\)ということで確率的に定まりますが、\(x[3]\) = Cですので実際には削除状態\(D_{11}\)にはならないことになります。\(z(l)\)は実際に出力される状態のことですので、例えば\(l = 3\)番目の文字\(x[3]\)\(I_8\)に遷移した場合は\(z(3) = I_8\)\(M_{11}\)に遷移した場合は\(z(3) = M_{11}\)となります。
    • \(e_{z(l)}(x[l])\)
      状態\(z(l)\)における文字\(x[l]\)の出力確率のことです。page102で状態\(i\)における文字\(x_k\)の出力確率として定義されている\(e_i(x_k)\)と同じようなものだという理解で差し支えありません。例えば、状態\(M_{12}\)における文字Gの出力確率は\(e_{M_{12}}(\rm G)\) = 0.2、状態\(M_8\)における文字Tの出力確率は\(e_{M_8}(\rm T)\) = 0.3です。
    • \(P_{tr}(Q)\)
      経路\(Q\)の確率のことであり、式(3.15)で与えられます。
    • \(P(x, Q \mid \theta)\)
      図3.23aで示すような出力確率\(E\)と遷移確率\(A\)からなるHMMのモデル(これを\(\theta\)とおきます)のもとで、文字列\(x\) = \(x[1]x[2]...x[L]\)を入力したときにたどる状態の列を\(Q\) = \(q[1]q[2]...q[K]\)とするとき、文字列\(x\)と状態列\(Q\)の同時確率のことです。
  • 式(3.15)
    初刷の内容を以下のように訂正しますm(_ _)m
    誤:\(a_{q[k]q[k+1]}\)
    正:\(a_{q[k],\,q[k+1]}\)
    page102で状態\(i\)から\(j\)への遷移確率として定義されている\(a_{i,\,j}\)と同じものですので、それと表記法を統一させたという修正になります。\(\prod\)は掛け算のことであり、全ての積(product)という意味で総乗(そうじょう)といいます。例えばサイコロを2回振って2回とも4がでる確率は\((1/6) \times (1/6)\) \(= 1/36\)のように個々の確率の積として計算することを思い出せばよいと思います。
    \[ P_{tr}(Q) = \prod_{k=0}^K a_{q[k],\,q[k+1]} \tag{3.15} \] 以下は記号の説明です:
    • \(K\)
      開始状態(添え字が0)と終了状態(添え字が\(K+1\))を除いた状態の数のことです。
    • \(q[k]\)
      文字列\(x\) = \(x[1]x[2]...x[L]\)を入力したときにたどる状態の列を\(Q\) = \(q[1]q[2]...q[K]\)と定義していますので、\(k\)番目の状態のことです。\(q[0]\)は開始状態\(z_0\)\(q[K+1]\)は終了状態です。
    • \(q[k+1]\)
      文字列\(x\) = \(x[1]x[2]...x[L]\)を入力したときにたどる状態の列を\(Q\) = \(q[1]q[2]...q[K]\)と定義していますので、(\(k+1\))番目の状態のことです。\(q[0]\)は開始状態\(z_0\)\(q[K+1]\)は終了状態です。
    • \(a_{q[k],\,q[k+1]}\)
      状態\(q[k]\)から\(q[k+1]\)への遷移確率のことです。page102で状態\(i\)から\(j\)への遷移確率として定義されている\(a_{i,\,j}\)と同じものだという理解で差し支えありません。
    • \(P_{tr}(Q)\)
      経路\(Q\)の確率のことです。
  • 初刷の「ただし, \(q[0]=0\)は開始状態, \(q[K+1]\)は終了状態とする。」について
    以下のように訂正しますm(_ _)m
    誤:\(q[0]=0\)は開始状態
    正:\(q[0]\)は開始状態\(z_0\)

  • 初刷の「図3.23bのHMMに対して, …」について
    以下のように訂正しますm(_ _)m
    誤:図3.23b
    正:図3.23a
  • 図3.23a
    プリブノーボックスの下流の配列パターンの(HMMの)例です。(a)確率、(b)対数スコアです。初刷でかなりミスがありますので、こちらのリンク先のものをご利用くださいm(_ _)m。変更箇所がわかるものはこちらです。図3.20の右下に見えている7~12という位置にある塩基の出現度数情報に基づいています。たとえば、図3.20の8番目の位置には、Aが2個、Cが1個、Gが4個、Tが3個あります。全部で10配列ですので、10で割った値が図3.23(a)の\(M_8\)の黒い四角内に見えている「A:0.2, C:0.1, G:0.4, T:0.3」です。ここで見えている確率の値についてですが、矢印のそばにある数値は遷移確率、それ以外の各状態(\(M\)\(I\)\(D\)のこと)の四角いボックス内にあるACGTの数値は出力確率とよびます。特に後者の出力確率のほうは、値自体は表3.2bで見えているような出現確率と同じですが、パターンを表す状態遷移図の枠組みでは出力確率とよぶのが一般的です。状態遷移図に絡めて説明する場合には、出現確率ではなく出力確率とよぶのだという理解でもよいと思います。したがって、ここのタイトルで用いられている確率というのは「遷移確率と出力確率の略」という意味だと理解すればよいです。
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • 開始状態
    この場合は、page102の\(z_0\)図3.24\(M_0\)に相当するものが図3.23aの\(M_7\)の左側にあるようなイメージをもてばよいです。
  • 終了状態
    この場合は、page102の\(z_{n+1}\)図3.23aの\(M_{12}\)の右側にあるようなイメージをもてばよいです。
  • 「たとえば, TTCTCCについては, …」の文章について
    1. 初刷の内容を以下のように訂正しますm(_ _)m
      誤:\(M_7 \rightarrow M_8 \rightarrow I_8 \rightarrow I_8 \rightarrow M_9 \rightarrow M_{10}\)
      正:\(M_7 \rightarrow M_8 \rightarrow I_8 \rightarrow I_8 \rightarrow M_{11} \rightarrow M_{12}\)
    2. 初刷の内容を以下のように訂正しますm(_ _)m。これは遷移確率と出力確率の順番を式(3.14)の出現順にに揃えたということです。
      誤:…遷移確率と出力確率を積算し, …
      正:…出力確率と遷移確率を積算し, …
    3. 直前の文章で「パターンの最後を\(M_{12}\)…」と書いていますので、ここで例示しているTTCTCCという6文字の場合、6番目の文字である\(x[6]\) = Cの状態は必ず\(M_{12}\)でなければなりません。基本パターンの状態は、\(M_7, M_8, M_{11}, M_{12}\)の4つしかありませんので、必然的に\(I_8\)の状態を2回経てから\(M_{11}\)へと続く「\(q[0] \rightarrow M_7 \rightarrow M_8 \rightarrow I_8 \rightarrow I_8 \rightarrow M_{11} \rightarrow M_{12} \rightarrow q[7]\)」という状態列に一意に定まります。なお、この場合の\(K\)は文字数と同じ6なので\(K+1 = 7\)です。よって状態列の最後、つまり終了状態の\(q[K+1]\)\(q[7]\)です。開始状態は\(q[0]\)でも\(z_0\)でもどちらでもかまいません。同じノリで、\(q[1] = M_7\), \(q[2] = M_8\), \(q[3] = I_8\), \(q[4] = I_8\), \(q[5] = M_{11}\), \(q[6] = M_{12}\)です。
    4. もしパターンの最後を\(M_{12}\)と置くという前提を書かなければ、TTCTCCを満たす以下のような状態列もありえます。
      • \(q[0] \rightarrow M_7 \rightarrow M_8 \rightarrow I_8 \rightarrow I_8 \rightarrow I_8 \rightarrow M_{11} \rightarrow q[7]\)
      • \(q[0] \rightarrow M_7 \rightarrow M_8 \rightarrow I_8 \rightarrow I_8 \rightarrow I_8 \rightarrow I_8 \rightarrow q[7]\)
    5. 式(3.14)において、出力確率は\(\prod_{l=1}^L e_{z(l)}(x[l])\)に相当し、以下のように計算しています。文字列\(x\) = TTCTCCの長さは6塩基なので\(L\) = 6です。具体的な数値は、図3.23aの情報を利用しています。
      \[ \begin{aligned} \prod_{l=1}^6 e_{z(l)}(x[l]) &= e_{z(1)}(x[1]) \times e_{z(2)}(x[2]) \times e_{z(3)}(x[3]) \times e_{z(4)}(x[4]) \times e_{z(5)}(x[5]) \times e_{z(6)}(x[6]) \\ &= e_{M_7}({\rm T}) \times e_{M_8}({\rm T}) \times e_{I_8}({\rm C}) \times e_{I_8}({\rm T}) \times e_{M_{11}}({\rm C}) \times e_{M_{12}}({\rm C}) \\ &= 0.3 \times 0.3 \times 0.625 \times 0.125 \times 0.222 \times 0.3 \\ &= 4.69 \times 10^{-4} \\ \end{aligned} \]
    6. 初刷の内容を以下のように訂正しますm(_ _)m。式(3.15)は終了状態を含んでいますので、\(M_{12}\)から終了状態\(q[7]\)への遷移確率\(a_{M_{12},\,q[7]}\)の分も書いておかねばいけないのを失念していたということです。計算の詳細については、次の7.で示しています。
      誤:\(1 \times 1 \times 0.5 \times 0.375 \times 0.625 \times 1\)
      正:\(1 \times 1 \times 0.5 \times 0.375 \times 0.625 \times 1 \times 1\)
    7. 式(3.14)において、遷移確率は\(P_{tr}(Q)\)に相当し、式(3.15)に基づいて以下のように計算しています。状態の列\(Q = q[1] q[2] q[3] q[4] q[5] q[6]\) = \(M_7 M_8 I_8 I_8 M_{11} M_{12}\)のように考えます。ほかに式(3.15)を考える上で必要なのは、\(q[0]\)が開始状態、そして\(q[7]\)が終了状態だということです。状態の数は(開始状態\(q[0]\)や終了状態\(q[7]\)を除くと)6個なので、\(K = 6\)です。最後の数値は、図3.23aの情報を利用しています。本文中では特に触れていませんが、開始状態\(q[0]\)から\(M_7\)への遷移確率が100%なのは自明ですので\(a_{q[0],\,M_7} = 1\)です。また、最後の\(M_{12}\)から終了状態\(q[7]\)への遷移確率が100%なのも自明ですので\(a_{M_{12},\,q[7]} = 1\)です。
      \[ \begin{aligned} P_{tr}(Q) &= \prod_{k=0}^6 a_{q[k],\,q[k+1]} \\ &= a_{q[0],\,q[1]} \times a_{q[1],\,q[2]} \times a_{q[2],\,q[3]} \times a_{q[3],\,q[4]} \times a_{q[4],\,q[5]} \times a_{q[5],\,q[6]} \times a_{q[6],\,q[7]}\\ &= a_{q[0],\,M_7} \times a_{M_7,\,M_8} \times a_{M_8,\,I_8} \times a_{I_8,\,I_8} \times a_{I_8,\,M_{11}} \times a_{M_{11},\,M_{12}} \times a_{M_{12},\,q[7]}\\ &= 1 \times 1 \times 0.5 \times 0.375 \times 0.625 \times 1 \times 1 \\ &= 0.117 \\ \end{aligned} \]
    8. 最終的に、この場合の\(P(x, Q \mid \theta)\)は以下の値になります。
      \[ \begin{aligned} P(x, Q \mid \theta) &= \prod_{l=1}^6 e_{z(l)}(x[l]) \times \prod_{k=0}^6 a_{q[k],\,q[k+1]} \\ &= 4.69 \times 10^{-4} \times 0.117 \\ &= 5.49 \times 10^{-5} \\ \end{aligned} \]
  • 初刷の「TGTについては, …」の文章について
    1. 初刷の内容を以下のように訂正しますm(_ _)m
      誤:\(M_7 \rightarrow M_8 \rightarrow D_9 \rightarrow M_{10}\)
      正:\(M_7 \rightarrow M_8 \rightarrow D_{11} \rightarrow M_{12}\)
    2. \(x[3]\) = Tの状態は必ず\(M_{12}\)でなければならないため、図3.23aの条件を満たすためにはTG-T以外にはアリエナイからそのような状態列になります。
    3. 式(3.14)において、出力確率は\(\prod_{l=1}^L e_{z(l)}(x[l])\)に相当し、以下のように計算しています。文字列\(x\) = TGTの長さは3塩基なので\(L\) = 3です。具体的な数値は、図3.23aの情報を利用しています。
      \[ \begin{aligned} \prod_{l=1}^3 e_{z(l)}(x[l]) &= e_{z(1)}(x[1]) \times e_{z(2)}(x[2]) \times e_{z(3)}(x[3]) \\ &= e_{M_7}({\rm T}) \times e_{M_8}({\rm G}) \times e_{M_{12}}({\rm T}) \\ &= 0.3 \times 0.4 \times 0.5 \\ &= 0.06 \\ \end{aligned} \]
    4. 初刷の内容を以下のように訂正しますm(_ _)m。式(3.15)は終了状態を含んでいますので、\(M_{12}\)から終了状態\(q[5]\)への遷移確率\(a_{M_{12},\,q[5]}\)の分も書いておかねばいけないのを失念していたということです。計算の詳細については、次の5.で示しています。
      誤:\(1 \times 1 \times 0.1 \times 1\)
      正:\(1 \times 1 \times 0.1 \times 1 \times 1\)
    5. 式(3.14)において、遷移確率は\(P_{tr}(Q)\)に相当し、式(3.15)に基づいて以下のように計算しています。状態の列\(Q = q[1] q[2] q[3] q[4]\) = \(M_7 M_8 D_{11} M_{12}\)のように考えます。ほかに式(3.15)を考える上で必要なのは、\(q[0]\)が開始状態、そして\(q[5]\)が終了状態だということです。状態の数は(開始状態\(q[0]\)や終了状態\(q[5]\)を除くと)4個なので、\(K = 4\)です。最後の数値は、図3.23aの情報を利用しています。本文中では特に触れていませんが、開始状態\(q[0]\)から\(M_7\)への遷移確率が100%なのは自明ですので\(a_{q[0],\,M_7} = 1\)です。また、最後の\(M_{12}\)から終了状態\(q[5]\)への遷移確率が100%なのも自明ですので\(a_{M_{12},\,q[5]} = 1\)です。
      \[ \begin{aligned} P_{tr}(Q) &= \prod_{k=0}^4 a_{q[k],\,q[k+1]} \\ &= a_{q[0],\,q[1]} \times a_{q[1],\,q[2]} \times a_{q[2],\,q[3]} \times a_{q[3],\,q[4]} \times a_{q[4],\,q[5]} \\ &= a_{q[0],\,M_7} \times a_{M_7,\,M_8} \times a_{M_8,\,D_{11}} \times a_{D_{11},\,M_{12}} \times a_{M_{12},\,q[5]} \\ &= 1 \times 1 \times 0.1 \times 1 \times 1 \\ &= 0.1 \\ \end{aligned} \]
    6. 最終的に、この場合の\(P(x, Q \mid \theta)\)は以下の値になります。
      \[ \begin{aligned} P(x, Q \mid \theta) &= \prod_{l=1}^3 e_{z(l)}(x[l]) \times \prod_{k=0}^4 a_{q[k],\,q[k+1]} \\ &= 0.06 \times 0.1 \\ &= 6 \times 10^{-3} \\ \end{aligned} \]
  • 遷移確率(transition probability)
    この場合は、ある状態(文字)から別の状態(文字)へと遷移する確率という理解でよいです。本書では、状態\(i\)から\(j\)への遷移確率を\(A = \{a_{i,j}\}\)として表しています。
  • この段落の補足説明
    このページの冒頭やこれ以降の段落でも述べているように、今ここでやりたいことは「HMMで表されたパターンに合致する配列の検索方法」になります。例として挙げた2つの配列の同時確率\(P(x, Q \mid \theta)\)は、TTCTCCが\(5.49 \times 10^{-5}\)、TGTは\(6 \times 10^{-3}\)ですので、後者のTGTのほうがより図3.23aで表されたHMMのモデル\(\theta\)に合致すると解釈します。図3.23a自体は、図3.20の右下に見えている7~12という位置にある塩基の出現度数情報に基づいています。それゆえ、例えばそれぞれの状態で最も確率が高いGGCGTの同時確率\(P(x, Q \mid \theta)\)がちゃんと高い値になるかを以下のような感じで検証してみるとよいです。
    1. 式(3.14)において、出力確率は\(\prod_{l=1}^L e_{z(l)}(x[l])\)に相当し、以下のように計算しています。文字列\(x\) = GGCGTの長さは5塩基なので\(L\) = 5です。具体的な数値は、図3.23aの情報を利用しています。
      \[ \begin{aligned} \prod_{l=1}^5 e_{z(l)}(x[l]) &= e_{z(1)}(x[1]) \times e_{z(2)}(x[2]) \times e_{z(3)}(x[3]) \times e_{z(5)}(x[5]) \times e_{z(5)}(x[5]) \\ &= e_{M_7}({\rm G}) \times e_{M_8}({\rm G}) \times e_{I_8}({\rm C}) \times e_{M_{11}}({\rm G}) \times e_{M_{12}}({\rm T}) \\ &= 0.5 \times 0.4 \times 0.625 \times 0.444 \times 0.5 \\ &= 0.02775 \\ \end{aligned} \]
    2. 式(3.14)において、遷移確率は\(P_{tr}(Q)\)に相当し、式(3.15)に基づいて以下のように計算しています。状態の列\(Q = q[1] q[2] q[3] q[4] q[5]\) = \(M_7 M_8 I_8 M_{11} M_{12}\)のように考えます。ほかに式(3.15)を考える上で必要なのは、\(q[0]\)が開始状態、そして\(q[6]\)が終了状態だということです。状態の数は(開始状態\(q[0]\)や終了状態\(q[6]\)を除くと)4個なので、\(K = 5\)です。開始状態\(q[0]\)から\(M_7\)への遷移確率が100%なのは自明ですので\(a_{q[0],\,M_7} = 1\)です。また、最後の\(M_{12}\)から終了状態\(q[6]\)への遷移確率が100%なのも自明ですので\(a_{M_{12},\,q[6]} = 1\)です。
      \[ \begin{aligned} P_{tr}(Q) &= \prod_{k=0}^5 a_{q[k],\,q[k+1]} \\ &= a_{q[0],\,q[1]} \times a_{q[1],\,q[2]} \times a_{q[2],\,q[3]} \times a_{q[3],\,q[4]} \times a_{q[4],\,q[5]} \times a_{q[5],\,q[6]} \\ &= a_{q[0],\,M_7} \times a_{M_7,\,M_8} \times a_{M_8,\,I_8} \times a_{I_8,\,M_{11}} \times a_{M_{11},\,M_{12}} \times a_{M_{12},\,q[6]} \\ &= 1 \times 1 \times 0.5 \times 0.625 \times 1 \times 1 \\ &= 0.3125 \\ \end{aligned} \]
    3. 最終的に、この場合の\(P(x, Q \mid \theta)\)は以下の値になります。確かにTTCTCCの\(5.49 \times 10^{-5}\)やTGTの\(6 \times 10^{-3}\)よりも高いので妥当ですね。
      \[ \begin{aligned} P(x, Q \mid \theta) &= \prod_{l=1}^5 e_{z(l)}(x[l]) \times \prod_{k=0}^5 a_{q[k],\,q[k+1]} \\ &= 0.02775 \times 0.3125 \\ &= 8.67 \times 10^{-3} \\ \end{aligned} \]
  • 初刷の「PSSMにおける式(3.9)のように…」の文章について
    以下のように訂正しますm(_ _)m
    誤:「PSSMにおける式(3.9)のように, 文字の出力確率をバックグラウンドの出現確率で割って対数をとってスコア化し, そのスコアの和を尤度とすることがある。」
    正:「PSSMにおける式(3.9)のように, 文字\(x\)と状態列\(Q\)の同時確率\(P(x, Q \mid \theta)\)をバックグラウンドの文字列の出現確率で割って対数をとったものを尤度とすることがある。」
  • PSSM
    リンク先は「Position weight matrix」です。位置特異的スコア行列(position specific score matrix)のことです。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。
  • 式(3.9)
    \(n\)\(\times l\)列からなる位置特異的スコア行列PSSMの位置\(i\)における文字\(j\)の要素の値であり、\(PSSM(i, j)\)を計算する式の1つです。\(l\)はアラインメントの長さです。この数式で\(\log\)の底を2として計算すると、表3.2(c)や表3.3(b)が得られます。
    \[ PSSM(i, j) = \log \frac{f(i, j)}{g(j)} \tag{3.9} \] 以下は記号の説明です:
    • \(f(i, j)\)
      位置\(i\)における文字\(j\)の出現確率です。
    • \(g(j)\)
      バックグラウンドの文字\(j\)の出現確率です。
    • \(PSSM(i, j)\)
      \(n\)\(\times l\)列からなる位置特異的スコア行列PSSMの位置\(i\)における文字\(j\)の要素の値です。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 状態列\(Q\)
    式(3.15)のことです。文字列\(x\)を入力したときにたどる状態の経路のことです。
  • バックグラウンド(background)
    この場合は、「解析対象生物種が本来持つ性質」という理解でよいです。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなります。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。
  • 対数(logarithm)
    簡単にいうと、logをとることです。ある数\(x\)を数\(b\)の冪乗\(b^p\)として表した場合の冪指数\(p\)です。この\(p\)は「底を\(b\)とする\(x\)の対数(logarithm of \(x\) to base \(b\))」と呼ばれ、通常は\(\log_b x\)と書き表されます。たとえば、底をeとする10の対数は\(\log_e(10)\) \(= 2.302585\)です。
  • 尤度(likelihood)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • 初刷の「このとき, 尤度は以下の式で表される。」の文章について
    以下のように訂正しますm(_ _)m
    誤:「このとき, 尤度は以下の式で表される。」
    正:「このとき, 尤度\(S(x, Q \mid \theta)\)は以下の式で表される。」
  • 式(3.16)
    初刷の内容を以下のように訂正しますm(_ _)m。なお、\(\log\)の底は2です。
    変更前1:\(P(\theta)\)
    変更後1:\(P(x, Q \mid \theta)\)
    変更前2:\(S(\theta)\)
    変更後2:\(S(x, Q \mid \theta)\)
    \[ S(x, Q \mid \theta) = \log \frac{P(x, Q \mid \theta)}{\prod_{l=1}^L g(x[l])} \tag{3.16} \] 以下は記号の説明です:
    • \(P(x, Q \mid \theta)\)
      図3.23aで示すような出力確率\(E\)と遷移確率\(A\)からなるHMMのモデル(これを\(\theta\)とおきます)のもとで、文字列\(x\) = \(x[1]x[2]...x[L]\)を入力したときにたどる状態の列を\(Q\) = \(q[1]q[2]...q[K]\)とするとき、文字列\(x\)と状態列\(Q\)の同時確率のことです。
    • \(L\)
      文字列\(x\) = \(x[1]x[2]...x[L]\)の長さ(配列長)のことです。
    • \(x[l]\)
      文字列\(x\) = \(x[1]x[2]...x[L]\)中の\(l\)番目の文字のことです。
    • \(g(x[l])\)
      バックグラウンドの\(x[l]\)の文字の出現確率のことです。たとえば、大腸菌ゲノム配列を文字列\(x\)とすると、この中のアデニン塩基Aの出現確率のようなイメージです。実際の大腸菌のGC含量は50.631%ですので、これはGとCが各25.316%を占め、残りのAとTが各24.684%を占めることを意味します。ちなみに、\(x[l]\)の文字がアデニン(A)の場合は\(g(x[l])\) = 0.24684、Cの場合は\(g(x[l])\) = 0.25316のように計算するのが正統ですが、ここでは簡略化のためにすべて0.25として計算しているということです。
  • 式(3.16)の補足説明
    オリジナルの数式を見て思考停止してしまった方は、以下のように読み替えても構いません。
    \[ S(x, Q \mid \theta) = \sum_{l=1}^L \log_2 \frac{e_{z(l)}(x[l])}{g(x[l])} + \sum_{k=0}^K \log_2 (a_{q[k],\,q[k+1]}) \tag{3.16.1} \] 第1項の\(\sum_{l=1}^L \log_2 \frac{e_{z(l)}(x[l])}{g(x[l])}\)は、「(文字列\(x\)中の)各文字の出力確率をバックグラウンドの出力確率で割って対数をとったもの」をスコアとし、このスコアを文字列\(x\)中の全ての文字について和ととったものだと解釈すればよいです。第2項の\(\sum_{k=0}^K \log_2 (a_{q[k],\,q[k+1]})\)は、本文中で後述されている「遷移確率はそのまま対数をとって計算した。」に相当するものです。オリジナルの式(3.16)中の\(\log_2 \frac{1}{\prod_{l=1}^L g(x[l])}\)は、式(3.16.1)の第1項中の\(\sum_{l=1}^L \log_2 \frac{1}{g(x[l])}\)に対応します。これはたとえば、「\(\log_2 (0.1 \times 0.1)\)」と「\(\log_2 (0.1) + \log_2 (0.1)\)」が同じ値(\(= -6.644\))になるということを述べているだけです。

  • 図3.23b
    プリブノーボックスの下流の配列パターンの(HMMの)例です。(a)確率、(b)対数スコアです。初刷でかなりミスがありますので、こちらのリンク先のものをご利用くださいm(_ _)m。変更箇所がわかるものはこちらです。図3.20の右下に見えている7~12という位置にある塩基の出現度数情報に基づいています。page104の式(3.16)の下から始まる段落でも説明されていますが、図3.23(b)は(a)を対数のスコアに置き換えたものです。
  • 図3.23a
    プリブノーボックスの下流の配列パターンの(HMMの)例です。(a)確率、(b)対数スコアです。初刷でかなりミスがありますので、こちらのリンク先のものをご利用くださいm(_ _)m。変更箇所がわかるものはこちらです。図3.20の右下に見えている7~12という位置にある塩基の出現度数情報に基づいています。たとえば、図3.20の8番目の位置には、Aが2個、Cが1個、Gが4個、Tが3個あります。全部で10配列ですので、10で割った値が図3.23(a)の\(M_8\)の黒い四角内に見えている「A:0.2, C:0.1, G:0.4, T:0.3」です。ここで見えている確率の値についてですが、矢印のそばにある数値は遷移確率、それ以外の各状態(\(M\)\(I\)\(D\)のこと)の四角いボックス内にあるACGTの数値は出力確率とよびます。特に後者の出力確率のほうは、値自体は表3.2bで見えているような出現確率と同じですが、パターンを表す状態遷移図の枠組みでは出力確率とよぶのが一般的です。状態遷移図に絡めて説明する場合には、出現確率ではなく出力確率とよぶのだという理解でもよいと思います。したがって、ここのタイトルで用いられている確率というのは「遷移確率と出力確率の略」という意味だと理解すればよいです。
  • 対数(logarithm)
    簡単にいうと、logをとることです。ある数\(x\)を数\(b\)の冪乗\(b^p\)として表した場合の冪指数\(p\)です。この\(p\)は「底を\(b\)とする\(x\)の対数(logarithm of \(x\) to base \(b\))」と呼ばれ、通常は\(\log_b x\)と書き表されます。たとえば、底をeとする10の対数は\(\log_e(10)\) \(= 2.302585\)です。
  • バックグラウンド(background)
    この場合は、「解析対象生物種が本来持つ性質」という理解でよいです。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなります。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。
  • 遷移確率(transition probability)
    この場合は、ある状態(文字)から別の状態(文字)へと遷移する確率という理解でよいです。本書では、状態\(i\)から\(j\)への遷移確率を\(A = \{a_{i,j}\}\)として表しています。
  • 初刷の「この場合, スコアは, TTCTCCについて…」の文章について
    • TTCTCCのスコアは以下のように訂正しますm(_ _)m
      誤:0.263 + 0.263 + 1.322 + (-1) + (-0.171) + 0.623 + (0 + (-3.322) + (-1.415) + (-0.678) + 0) = -4.12
      正:0.263 + 0.263 + 1.322 + (-1) + (-0.171) + 0.263 + (0 + 0 + (-1) + (-1.415) + (-0.678) + 0 + 0) = -2.15
    • TGTのスコアは以下のように訂正しますm(_ _)m
      誤:(0.263 + 0.678 + 1) + (0 + (-3.322) + 0) = -1.38
      正:(0.263 + 0.678 + 1) + (0 + 0 + (-3.322) + 0 + 0) = -1.38
    • いずれも赤字部分が変更箇所になります。右側の青括弧内が遷移確率部分、それ以外の左側が出力確率部分になります。詳細については以下で解説します。
  • TTCTCCのスコア計算の詳細
    • まず式(3.16)をベースとして必要最小限で書くとすると、TTCTCCの\(P(x, Q \mid \theta)\)\(5.49 \times 10^{-5}\)ですので(本文中の式(3.15)と式(3.16)の間で算出しています)、それを利用して以下のように書くことができます。ここで、TTCTCCなので\(L = 6\)です。
      \[ \begin{aligned} S(x, Q \mid \theta) &= \log_2 \frac{P(x, Q \mid \theta)}{\prod_{l=1}^6 g(x[l])} \\ &= \log_2 \frac{5.49 \times 10^{-5}}{g(x[1]) \times g(x[2]) \times g(x[3]) \times g(x[4]) \times g(x[5]) \times g(x[6])} \\ &= \log_2 \frac{5.49 \times 10^{-5}}{g({\rm T}) \times g({\rm T}) \times g({\rm C}) \times g({\rm T}) \times g({\rm C}) \times g({\rm C})} \\ &= \log_2 \frac{5.49 \times 10^{-5}}{0.25 \times 0.25 \times 0.25 \times 0.25 \times 0.25 \times 0.25} \\ &= -2.152834 \end{aligned} \]
    • 別の算出法として、本文中の「0.263 + 0.263 + 1.322 + (-1) + (-0.171) + 0.263 + (0 + 0 + (-1) + (-1.415) + (-0.678) + 0 + 0) = -2.15」の基礎となる情報は、図3.23bに示されています。これは、本文中にはありませんが式(3.16)を別の形で示した以下の式(3.16.1)で考えるとよいです。
      \[ S(x, Q \mid \theta) = \sum_{l=1}^L \log_2 \frac{e_{z(l)}(x[l])}{g(x[l])} + \sum_{k=0}^K \log_2 (a_{q[k],\,q[k+1]}) \tag{3.16.1} \]
      1. 丁寧に式展開すると横長になりすぎるので、まずは第1項の出力確率部分を示します。ここで、TTCTCCなので\(L = 6\)です。
        \[ \begin{aligned} \sum_{l=1}^6 \log_2 \frac{e_{z(l)}(x[l])}{g(x[l])} &= \log_2 \frac{e_{z(1)}(x[1])}{g(x[1])} + \log_2 \frac{e_{z(2)}(x[2])}{g(x[2])} + \log_2 \frac{e_{z(3)}(x[3])}{g(x[3])} + \log_2 \frac{e_{z(4)}(x[4])}{g(x[4])} + \log_2 \frac{e_{z(5)}(x[5])}{g(x[5])} + \log_2 \frac{e_{z(6)}(x[6])}{g(x[6])} \\ &= \log_2 \frac{e_{M_7}({\rm T})}{g({\rm T})} + \log_2 \frac{e_{M_8}({\rm T})}{g({\rm T})} + \log_2 \frac{e_{I_8}({\rm C})}{g({\rm C})} + \log_2 \frac{e_{I_8}({\rm T})}{g({\rm T})} + \log_2 \frac{e_{M_{11}}({\rm C})}{g({\rm C})} + \log_2 \frac{e_{M_{12}}({\rm C})}{g({\rm C})} \\ &= \log_2 \frac{0.3}{0.25} + \log_2 \frac{0.3}{0.25} + \log_2 \frac{0.625}{0.25} + \log_2 \frac{0.125}{0.25} + \log_2 \frac{0.222}{0.25} + \log_2 \frac{0.3}{0.25} \\ &= 0.263 + 0.263 + 1.322 + (-1) + (-0.171) + 0.263 \\ &= 0.94 \\ \end{aligned} \]
      2. 次に、式(3.16.1)の第2項の遷移確率部分を示します。状態列は「\(M_7 \rightarrow M_8 \rightarrow I_8 \rightarrow I_8 \rightarrow M_{11} \rightarrow M_{12}\)」ですので、\(Q = q[1] q[2] q[3] q[4] q[5] q[6]\) = \(M_7 M_8 I_8 I_8 M_{11} M_{12}\)のように考えます。したがって、\(K = 6\)です。本文中では特に触れていませんが、開始状態\(q[0]\)から\(M_7\)への遷移確率が100%なのは自明ですので\(a_{q[0],\,M_7} = 1\)です。また、最後の\(M_{12}\)から終了状態\(q[7]\)への遷移確率が100%なのも自明ですので\(a_{M_{12},\,q[7]} = 1\)です。これらを踏まえると以下のように書き下せます。なお、これは式(3.15)を計算したあとに\(\log_2\)しているだけだという捉え方でも構いません。
        \[ \begin{aligned} \sum_{k=0}^6 \log_2 (a_{q[k],\,q[k+1]}) &= \log_2 (a_{q[0],\,q[1]}) + \log_2 (a_{q[1],\,q[2]}) + \log_2 (a_{q[2],\,q[3]}) + \log_2 (a_{q[3],\,q[4]}) + \log_2 (a_{q[4],\,q[5]}) + \log_2 (a_{q[5],\,q[6]}) + \log_2 (a_{q[6],\,q[7]}) \\ &= \log_2 (a_{q[0],\,M_7}) + \log_2 (a_{M_7,\,M_8}) + \log_2 (a_{M_8,\,I_8}) + \log_2 (a_{I_8,\,I_8}) + \log_2 (a_{I_8,\,M_{11}}) + \log_2 (a_{M_{11},\,M_{12}}) + \log_2 (a_{M_{12},\,q[7]}) \\ &= \log_2 (1) + \log_2 (1) + \log_2 (0.5) + \log_2 (0.375) + \log_2 (0.625) + \log_2 (1) + \log_2 (1) \\ &= 0 + 0 + (-1) + (-1.415) + (-0.678) + 0 + 0 \\ &= -3.093 \\ \end{aligned} \]
      3. 最終的に、式(3.16.1)の第1項と第2項を足して得られる数値は確かに同じになることがわかります。
        \[ \begin{aligned} S(x, Q \mid \theta) &= \sum_{l=1}^6 \log_2 \frac{e_{z(l)}(x[l])}{g(x[l])} + \sum_{k=0}^6 \log_2 (a_{q[k],\,q[k+1]}) \\ &= 0.94 + (-3.093) \\ &= -2.153 \\ \end{aligned} \]
  • TGTのスコア計算の詳細
    • まず式(3.16)をベースとして必要最小限で書くとすると、TGTの\(P(x, Q \mid \theta)\)\(6 \times 10^{-3}\)ですので(本文中の式(3.15)と式(3.16)の間で算出しています)、それを利用して以下のように書くことができます。ここで、TGTなので\(L = 3\)です。
      \[ \begin{aligned} S(x, Q \mid \theta) &= \log_2 \frac{P(x, Q \mid \theta)}{\prod_{l=1}^3 g(x[l])} \\ &= \log_2 \frac{6 \times 10^{-3}}{g(x[1]) \times g(x[2]) \times g(x[3])} \\ &= \log_2 \frac{6 \times 10^{-3}}{g({\rm T}) \times g({\rm G}) \times g({\rm T})} \\ &= \log_2 \frac{6 \times 10^{-3}}{0.25 \times 0.25 \times 0.25} \\ &= -1.381 \\ \end{aligned} \]
    • 別の算出法として、本文中の「(0.263 + 0.678 + 1) + (0 + 0 + (-3.322) + 0 + 0) = -1.38」の基礎となる情報は、図3.23bに示されています。これは、本文中にはありませんが式(3.16)を別の形で示した以下の式(3.16.1)で考えるとよいです。
      \[ S(x, Q \mid \theta) = \sum_{l=1}^L \log_2 \frac{e_{z(l)}(x[l])}{g(x[l])} + \sum_{k=0}^K \log_2 (a_{q[k],\,q[k+1]}) \tag{3.16.1} \]
      1. 丁寧に式展開すると横長になりすぎるので、まずは第1項の出力確率部分を示します。ここで、TGTなので\(L = 3\)です。
        \[ \begin{aligned} \sum_{l=1}^3 \log_2 \frac{e_{z(l)}(x[l])}{g(x[l])} &= \log_2 \frac{e_{z(1)}(x[1])}{g(x[1])} + \log_2 \frac{e_{z(2)}(x[2])}{g(x[2])} + \log_2 \frac{e_{z(3)}(x[3])}{g(x[3])} \\ &= \log_2 \frac{e_{M_7}({\rm T})}{g({\rm T})} + \log_2 \frac{e_{M_8}({\rm G})}{g({\rm G})} + \log_2 \frac{e_{M_{12}}({\rm T})}{g({\rm T})} \\ &= \log_2 \frac{0.3}{0.25} + \log_2 \frac{0.4}{0.25} + \log_2 \frac{0.5}{0.25} \\ &= 0.263 + 0.678 + 1 \\ &= 1.941 \\ \end{aligned} \]
      2. 次に、式(3.16.1)の第2項の遷移確率部分を示します。状態列は「\(M_7 \rightarrow M_8 \rightarrow D_{11} \rightarrow M_{12}\)」ですので、\(Q = q[1] q[2] q[3] q[4]\) = \(M_7 M_8 D_{11} M_{12}\)のように考えます。したがって、\(K = 4\)です。本文中では特に触れていませんが、開始状態\(q[0]\)から\(M_7\)への遷移確率が100%なのは自明ですので\(a_{q[0],\,M_7} = 1\)です。また、最後の\(M_{12}\)から終了状態\(q[5]\)への遷移確率が100%なのも自明ですので\(a_{M_{12},\,q[5]} = 1\)です。これらを踏まえると以下のように書き下せます。なお、これは式(3.15)を計算したあとに\(\log_2\)しているだけだという捉え方でも構いません。
        \[ \begin{aligned} \sum_{k=0}^4 \log_2 (a_{q[k],\,q[k+1]}) &= \log_2 (a_{q[0],\,q[1]}) + \log_2 (a_{q[1],\,q[2]}) + \log_2 (a_{q[2],\,q[3]}) + \log_2 (a_{q[3],\,q[4]}) + \log_2 (a_{q[4],\,q[5]}) \\ &= \log_2 (a_{q[0],\,M_7}) + \log_2 (a_{M_7,\,M_8}) + \log_2 (a_{M_8,\,D_{11}}) + \log_2 (a_{D_{11},\,M_{12}}) + \log_2 (a_{M_{12},\,q[5]}) \\ &= \log_2 (1) + \log_2 (1) + \log_2 (0.1) + \log_2 (1) + \log_2 (1) \\ &= 0 + 0 + (-3.322) + 0 + 0 \\ &= -3.322 \\ \end{aligned} \]
      3. 最終的に、式(3.16.1)の第1項と第2項を足して得られる数値は確かに同じになることがわかります。
        \[ \begin{aligned} S(x, Q \mid \theta) &= \sum_{l=1}^3 \log_2 \frac{e_{z(l)}(x[l])}{g(x[l])} + \sum_{k=0}^4 \log_2 (a_{q[k],\,q[k+1]}) \\ &= 1.941 + (-3.322) \\ &= -1.381 \\ \end{aligned} \]
  • 初刷の「\(P(x, Q \mid \theta)\)は, 文字列\(x\)がそのHMM…」の文章について
    以下のように訂正しますm(_ _)m
    誤:「\(P(x, Q \mid \theta)\)は, 文字列\(x\)がそのHMMが表すパターンにマッチするもっともさしさ(尤度)とみなすことができる。」
    正:「\(P(x, Q \mid \theta)\)自体もまた, 文字列\(x\)がそのHMMが表すパターンにマッチするもっともさしさ(尤度)とみなすことができる。」
  • \(P(x, Q \mid \theta)\)
    図3.23aで示すような出力確率\(E\)と遷移確率\(A\)からなるHMMのモデル(これを\(\theta\)とおきます)のもとで、文字列\(x\) = \(x[1]x[2]...x[L]\)を入力したときにたどる状態の列を\(Q\) = \(q[1]q[2]...q[K]\)とするとき、文字列\(x\)と状態列\(Q\)の同時確率のことです。
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • 尤度(likelihood)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • 式(3.17)
    初刷の内容を以下のように訂正しますm(_ _)m。
    変更前:\(P(\theta)\)
    変更後:\(P(x, Q \mid \theta)\)
    \[ \hat{Q} = argmax_Q P(x, Q \mid \theta) \tag{3.17} \]
  • 対数(logarithm)
    簡単にいうと、logをとることです。ある数\(x\)を数\(b\)の冪乗\(b^p\)として表した場合の冪指数\(p\)です。この\(p\)は「底を\(b\)とする\(x\)の対数(logarithm of \(x\) to base \(b\))」と呼ばれ、通常は\(\log_b x\)と書き表されます。たとえば、底をeとする10の対数は\(\log_e(10)\) \(= 2.302585\)です。
  • 式(3.18)
    初刷の内容を以下のように訂正しますm(_ _)m。
    変更前:\(S(\theta)\)
    変更後:\(S(x, Q \mid \theta)\)
    \[ \hat{Q} = argmax_Q S(x, Q \mid \theta) \tag{3.18} \]
  • Viterbiのアルゴリズム(Viterbi algorithm)
    リンク先は「ビタビアルゴリズム」です。観測された事象系列を結果として生じる隠された状態の最も尤もらしい並び(ビタビ経路といいます)を探す動的計画法アルゴリズムの一種であり、特に隠れマルコフモデルに基づいています。観測された事象系列の確率計算のアルゴリズムである 前向きアルゴリズム(forward algorithm)も密接に関連しています。
page105
  • 再帰(recursion)
    あるものについて記述する際に、記述しているものそれ自身への参照が、その記述中にあらわれることです。
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。

3.8 プロファイルを用いた検索

  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • 配列一致度(sequence identity)
    比較する2本の配列が似ている度合いを表す指標の1つです。配列のアラインメントをとったとき、対応する文字が一致する割合を示すものです。分子(numerator)が「対応する文字が一致する数」、分母(denominator)が「アラインメントの長さ」です。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • PSI-BLASTAltschul et al., Nucleic Acids Res., 1997
    position-specific iterated BLASTの略です。BLAST検索で得られたトップヒット群の位置特異的なスコア情報を用いてさらにBLAST検索を繰り返すことで、高感度な結果が得られる配列類似性検索アルゴリズムです。
  • DELTA-BLASTBoratyn et al., Biol Direct., 2012
    リンク先はProtein BLASTですが、ここからさらにAlgorithmのオプションをDELTA-BLASTに変更したものが該当すると思われます。Domain Enhanced Lookup Time Accelerated BLASTの略で、ドメイン探索をもとに高速にDB検索を行う手法です。

3.8.1 PSI-BLAST

  • PSI-BLASTAltschul et al., Nucleic Acids Res., 1997
    position-specific iterated BLASTの略です。BLAST検索で得られたトップヒット群の位置特異的なスコア情報を用いてさらにBLAST検索を繰り返すことで、高感度な結果が得られる配列類似性検索アルゴリズムです。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • 図3.25
    PSI-BLASTの処理手順です。
  • PAM
    リンク先は「Point accepted mutation」です。point accepted mutationの略です。近縁のタンパク質を集めて、置換の頻度を調べて分子進化学的に求めた置換スコアの行列のことです。
  • BLOSUM
    リンク先は「BLOSUM」です。BLOcks SUbstitution Matrixの略です。類縁タンパク質の複数の配列のアラインメントを作成し、ブロック(ギャップなしで保存された部分)で、実際に観測されるアミノ酸の置換をもとに計算した置換スコアの行列のことです。
  • 置換スコア行列(substitution score matrix)
    タンパク質配列中のあるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものを、全20種類のアミノ酸について数値行列の形で保持したものです。
  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • プロファイル(profile)
    大まかには、複数配列のMSA結果をまとめたものです。本書では、「配列の特徴を示すパターンの表現」としており、PSSMそのものを指す場合や、もう少し柔軟に挿入・欠失も含めて表現する場合もあります。
  • PSSM
    リンク先は「Position weight matrix」です。位置特異的スコア行列(position specific score matrix)のことです。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。

3.8.2 DELTA-BLAST

  • NCBISayers et al., Nucleic Acids Res., 2021
    バイオテクノロジーや分子生物学に関連する一連のデータベースの構築および運営、そして研究に用いられるソフトウェアの開発を行っており、バイオインフォマティクスにおける重要なリソースとなっています。GenBankPubMeddbSNPなど、生命科学分野の主要なリソースを提供する大元締め的なところです。
  • DELTA-BLASTBoratyn et al., Biol Direct., 2012
    リンク先はProtein BLASTですが、ここからさらにAlgorithmのオプションをDELTA-BLASTに変更したものが該当すると思われます。Domain Enhanced Lookup Time Accelerated BLASTの略で、ドメイン探索をもとに高速にDB検索を行う手法です。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • DB
    データベースのことです。
  • 図3.26
    DELTA-BLASTの処理手順です。
  • Conserved Domain Database(CDD)Lu et al., Nucleic Acids Res., 2020
    NCBIのドメインDBです。
  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • プロファイル(profile)
    大まかには、複数配列のMSA結果をまとめたものです。本書では、「配列の特徴を示すパターンの表現」としており、PSSMそのものを指す場合や、もう少し柔軟に挿入・欠失も含めて表現する場合もあります。
  • PSI-BLASTAltschul et al., Nucleic Acids Res., 1997
    position-specific iterated BLASTの略です。BLAST検索で得られたトップヒット群の位置特異的なスコア情報を用いてさらにBLAST検索を繰り返すことで、高感度な結果が得られる配列類似性検索アルゴリズムです。
page106
  • RPS-BLAST:Marchler-Bauer et al., Nucleic Acids Res., 2002 reverse PSI-BLASTの略です。Conserved Domain Database(CDD)に登録されたドメインのMSAから作成されたプロファイルを用いて、入力配列のドメイン検索を行うプログラムです。PSI-BLASTの手順と逆なので、reverse PSI-BLASTです。

  • W3.6
    PSI-BLASTおよびDELTA-BLAST(さらにAlgorithmのオプションをDELTA-BLASTに変更)の実行結果に関する補足資料です。
  • アクチン(actin)
    らせん状の多量体を形成してマイクロフィラメントの1種であるアクチンフィラメントを形作る球形のタンパク質です。アクチンフィラメントは、真核生物の細胞内部で3次元の繊維状構造を作る3つの細胞骨格のうちの1つです(他は微小管と中間径フィラメントです)。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • 配列一致度(sequence identity)
    比較する2本の配列が似ている度合いを表す指標の1つです。配列のアラインメントをとったとき、対応する文字が一致する割合を示すものです。分子(numerator)が「対応する文字が一致する数」、分母(denominator)が「アラインメントの長さ」です。
  • 熱ショックタンパク質(Heat Shock Protein; HSP)
    細胞が熱などのストレス条件下にさらされた際に発現が上昇して細胞を保護するタンパク質の一群であり、分子シャペロンとして機能します。ストレスタンパク質(Stress Protein)ともよばれます。

3.8.3 HMMの利用

HMMER
  • HMMEREddy SR., HMMER User’s Guide, 2003
    InterProに参加している多くのDBで用いられているプロファイルHMMの検索ツールです。
  • PfamMistry et al., Nucleic Acids Res., 2021
    配列特徴DBの1つです。Protein families database of alignments and HMMsの略であり、タンパク質のドメイン、それらを特徴づける配列パターンを表すHMMを登録したDBです。
  • InterProBlum et al., Nucleic Acids Res., 2021
    PROSITEPfamなどのデータベース(DB)を統合し、それらを横断的に検索できるようにしたDBです。
  • DB
    データベースのことです。
  • プロファイルHMM
    プロファイルとして用いるHMMのことです。
  • プロファイル(profile)
    大まかには、複数配列のMSA結果をまとめたものです。本書では、「配列の特徴を示すパターンの表現」としており、PSSMそのものを指す場合や、もう少し柔軟に挿入・欠失も含めて表現する場合もあります。
  • 図3.24
    モチーフの配列パターンの表現です。
  • Plan 7
    図3.24で示すような配列パターンをさらに一般化した表現方法です。図3.24ではメインの状態である\(M\), \(D\), \(I\)からの遷移が9個あります。このうち、「\(D\)から\(I\)」と「\(I\)から\(D\)」への2つの遷移がなくなり、図3.27に示すような遷移が計7個になったHMMがPlan 7です。
  • 図3.27
    HMMERで用いられているプロファイルHMMの一般形です。Eddy SR., HMMER User’s Guide, 2003中のFigure 1とと基本的に同じですが、本書の表記法に合わせて一部改変しています。解説として、図3.23と見比べると、例えば一致状態は図3.23では\(M_7\), \(M_8\), \(M_{11}\), \(M_{12}\)のようになっており、添え字は文字列\(x\)\(l\)番目の文字に対応して\(M_l\)みたいになっています。ですので一見すると図3.27\(M_r\)ではなく\(M_l\)としたほうがよいと思われたかもしれません。しかし、一般形としては、文字列\(x\)中の\(l\)番目の文字に合わせるのではなく、状態のシリアル番号として\(M_1\), \(M_2\), \(M_3\), \(M_4\)のようにしておくほうが都合がよいのだと解釈すればよいです。それゆえ添え字を\(l\)ではなく\(r\)としています。なお、「\(m\)個の出力確率をもつ」の\(m\)はpage102で定義された「文字の種類数」のことです。例えばアミノ酸配列の場合は\(m = 20\)、塩基配列の場合は\(m = 4\)だと解釈します。
    初刷の内容を以下のように訂正しますm(_ _)m。赤字部分が訂正箇所です。
    • \(M_r\):一致状態\(m\)個の出力確率をもつ。
    • \(D_r\):削除状態文字を出力しない。
    • \(I_r\):挿入状態\(m\)個の出力確率をもつ。
    • S:全体の開始状態。文字を出力しない。
    • N:N末端のアラインメントされていない状態。遷移時に出力する。
    • B:アラインメントされたパターンの開始状態。文字を出力しない。
    • E:アラインメントされたパターンの終了状態。文字を出力しない。
    • C:C末端のアラインメントされていない状態。遷移時に出力する。
    • J:結合セグメントのアラインメントされていない状態。遷移時に出力する。
    • T:全体の終了状態。文字を出力しない。
  • 初刷の「これは, 図3.24に比べて, …」について
    以下のように訂正しますm(_ _)m
    誤:「これは, 図3.24に比べて, \({\rm D \rightarrow I}\), \({\rm I \rightarrow D}\)の遷移がなく, 各位置のメインの状態である\({\rm M, D, I}\)からの…」
    正:「これは, 図3.24に比べて, \(D \rightarrow I\), \(I \rightarrow D\)の遷移がなく, 各位置のメインの状態である\(M, D, I\)からの…」
  • HMMER3Potter et al., Nucleic Acids Res., 2018
    InterProに参加している多くのDBで用いられているプロファイルHMMの検索ツールです。2022年4月19日現在の最新版はv3.3.2です。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。

HHblits
  • HHblitsRemmert et al., Nat Methods, 2011
    HMMを用いて、プロファイルとプロファイルのマッチングを実現したものです。クエリ配列とDB配列の両方をプロファイルHMM化して検索するのが特徴です。
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • プロファイル(profile)
    大まかには、複数配列のMSA結果をまとめたものです。本書では、「配列の特徴を示すパターンの表現」としており、PSSMそのものを指す場合や、もう少し柔軟に挿入・欠失も含めて表現する場合もあります。
  • 図3.28
    HHblitsの手順です。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • 配列DB
    配列データベースのことです。データベース(database; DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたもののことです。
  • クラスタ化(clustering)
    この場合は、配列DB中の似た配列をまとめるようなイメージです。
  • HHsearchSöding J., Bioinformatics, 2005
    リンク先は「HH-suite」です。HHsearchはその一部です。BLASTはクエリもDBも配列ですが、HHsearchはクエリもDBもHMMになっているのが主な違いという理解でよいです。本文中で述べられているように、HMMとHMMのアラインメントという理解でよいです。
  • HHsuite
    HHblitsとHHsearchを含むHMMを用いた配列検索ツールです。HHの名称は、HMM-HMMのアラインメントを行うことに由来します。
page107
  • UniProtKBBoutet et al., Methods Mol Biol., 2016
    UniProtの主要なリソースです。
  • PDB
    日本のPDBであるPDBjにリンクを張っています。
  • PfamMistry et al., Nucleic Acids Res., 2021
    配列特徴DBの1つです。Protein families database of alignments and HMMsの略であり、タンパク質のドメイン、それらを特徴づける配列パターンを表すHMMを登録したDBです。
  • SCOPAndreeva et al., Nucleic Acids Res., 2020
    タンパク質ドメインの立体構造を、2次構造のみに基づく分類であるクラス(class)からスタートして、フォールド(fold)、スーパーファミリー(superfamily)、ファミリー(family)の順に階層的に分類したデータベース(DB)です。SCOPは、Structural Classification of Proteinsの略です。人手による分類と計算機による自動分類法を組み合わせているのが特徴です。
  • プレフィルター(pre-filter)
    あらかじめ検索対象を絞るような操作だという理解でよいです。
  • カラムステートDB
    HHblitsがシステム側(検索されるDB側)で使う、プロファイルを表す219文字の配列のDBのことです。
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。

3.8.4 プロファイル-プロファイルのアラインメント

  • プロファイル(profile)
    大まかには、複数配列のMSA結果をまとめたものです。本書では、「配列の特徴を示すパターンの表現」としており、PSSMそのものを指す場合や、もう少し柔軟に挿入・欠失も含めて表現する場合もあります。
  • 感度(sensitivityまたはrecall)
    統計的な概念の1つです。この場合の「感度を上げる」は、本当に類縁関係にあるものを検出できるようにすること、という理解でよいです。
  • PSI-BLASTAltschul et al., Nucleic Acids Res., 1997
    position-specific iterated BLASTの略です。BLAST検索で得られたトップヒット群の位置特異的なスコア情報を用いてさらにBLAST検索を繰り返すことで、高感度な結果が得られる配列類似性検索アルゴリズムです。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • DB
    データベースのことです。
  • DELTA-BLASTBoratyn et al., Biol Direct., 2012
    リンク先はProtein BLASTですが、ここからさらにAlgorithmのオプションをDELTA-BLASTに変更したものが該当すると思われます。Domain Enhanced Lookup Time Accelerated BLASTの略で、ドメイン探索をもとに高速にDB検索を行う手法です。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 図3.29
    配列とプロファイルのアラインメントの概念図です。
page108
  • 図3.30
    プロファイルとプロファイルのアラインメントの計算です。

  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • 図3.29
    配列とプロファイルのアラインメントの概念図です。

  • プロファイル(profile)
    大まかには、複数配列のMSA結果をまとめたものです。本書では、「配列の特徴を示すパターンの表現」としており、PSSMそのものを指す場合や、もう少し柔軟に挿入・欠失も含めて表現する場合もあります。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • 図3.30
    プロファイルとプロファイルのアラインメントの計算です。

出現確率行列およびPSSM
  • 出現確率行列(probability matrix)
    MSAをとったときの位置数が列数、塩基配列の場合はACGTの4行をベースとして、それぞれの位置における各塩基の出現確率を算出した数値行列のことです。各位置の文字の出現確率を行列で表したものです。

  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。

  • 出現確率(probability of occurrence)
    この場合は、MSA中の各位置における、「塩基ごとの出現回数」を「その位置の全塩基数」で割ったもののことです。

  • 式(3.19)
    \[ S(f_{1i}, f_{2j}) = \sum_{a, b \in A} f_1(i, a) f_2(j, b) \delta (a, b) \tag{3.19} \]

  • PSSM
    リンク先は「Position weight matrix」です。位置特異的スコア行列(position specific score matrix)のことです。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。

  • 式(3.20)
    \[ S(PSSM_{1i}, PSSM_{2j}) = \sum_{a, b \in A} PSSM_1(i, a) PSSM_2(j, b) \log \frac{p(a, b)}{g(a) g(b)} \tag{3.20} \]

  • 相関係数(correlation coefficient)
    2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標です。相関係数は無次元量で、−1以上1以下の実数に値をとります。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。また相関係数が0のとき確率変数は無相関であるといいます。

プロファイルHMM
  • 式(3.18)
    初刷の内容を以下のように訂正しますm(_ _)m。
    変更前:\(S(\theta)\)
    変更後:\(S(x, Q \mid \theta)\)
    \[ \hat{Q} = argmax_Q S(x, Q \mid \theta) \tag{3.18} \]
  • Viterbiのアルゴリズム(Viterbi algorithm)
    リンク先は「ビタビアルゴリズム」です。観測された事象系列を結果として生じる隠された状態の最も尤もらしい並び(ビタビ経路といいます)を探す動的計画法アルゴリズムの一種であり、特に隠れマルコフモデルに基づいています。観測された事象系列の確率計算のアルゴリズムである 前向きアルゴリズム(forward algorithm)も密接に関連しています。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • 尤度(likelihood)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 文字列(string)
    この場合は、塩基配列やアミノ酸配列のことです。
page109
  • 式(3.21)
    \[ S_H(\theta_1, \theta_2) = \log \sum_x \frac{P(\theta_1, \theta_2)}{\prod_{l=1}^L g(x[l])} \tag{3.21} \]
  • 文字列(string)
    この場合は、塩基配列やアミノ酸配列のことです。

3.9 配列パターンの解析と表示

  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 情報エントロピー(entropy)
    リンク先は「情報量」です。情報理論の概念で、あるできごと(事象)が起きた際、それがどれほど起こりにくいかを表す尺度です。平均情報量ともいいます。
  • 出現確率(probability of occurrence)
    この場合は、MSA中の各位置における、「塩基ごとの出現回数」を「その位置の全塩基数」で割ったもののことです。
  • 式(3.22)
    \[ H_i(A) = - \sum_{a \in A} f_i(a) \log_2 f_i (a) \tag{3.22} \] 以下は記号の説明です:
    • \(A\)
      扱う文字の集合です。例えば塩基配列の場合は、A, C, G, Tの計4つです。
    • \(a\)
      \(A\)の中の各要素(1つ1つの文字)のことです。
    • \(f_i (a)\)
      位置\(i\)における文字\(a\)の出現確率のことです。
    • \(H_i (A)\)
      位置\(i\)の情報エントロピーです。例えば塩基配列なら4種類の塩基全ての情報を用いているので、丸括弧の中に\(A\)があるのだと理解すればよいです。
  • ビット(bit)
    情報理論、コンピューティング、デジタル通信における情報の基本単位です。二進数の1桁のことです。

  • 図3.31
    プリブノーボックスの情報エントロピーのプロットです。大腸菌のゲノム配列から取得した塩基の出現確率(表3.3)をもとに計算しています。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • プリブノーボックス(Pribnow box)
    真正細菌の遺伝子において、RNAポリメラーゼによる転写開始位置の上流10 bpの位置にみとめられる共通塩基配列のことです。-10領域、-10ボックス、あるいはTATAボックスとよばれることもあります。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • 出現確率(probability of occurrence)
    この場合は、MSA中の各位置における、「塩基ごとの出現回数」を「その位置の全塩基数」で割ったもののことです。
  • 情報エントロピー(entropy)
    リンク先は「情報量」です。情報理論の概念で、あるできごと(事象)が起きた際、それがどれほど起こりにくいかを表す尺度です。平均情報量ともいいます。

  • モチーフ(motif)
    タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • シーケンスロゴ(Sequence logo)Schneider and Stephens, Nucleic Acids Res., 1990
    MSAのコンセンサス配列を図示する手段の1つです。横軸が文字の位置、縦軸が式(3.23)で表される情報量です。すべての文字が同一(すなわちエントロピーが最小値の0)となっている位置をフィーチャーしたいので、エントロピーの最大値から引くような数式として表現されています。
  • 図3.32
    プリブノーボックスのシーケンスロゴです。文字の高さが、「2 - “図3.31の情報エントロピー”」となっていることがわかります。この場合の文字の集合は\(A\) = {“A”, “C”, “G”, “T”}なので、\(A\)の要素数\(K\) = 4です。したがって、\(H_{max}(A)\) = \(\log_2(K)\) = \(\log_2(4)\) = 2ということになります。それゆえ、たとえば位置\(i\) = 6の情報エントロピーは、図3.31に書かれているように\(H_i(A)\) = 0.35なので、図3.32では、\(L_i\) = \(L_6\) = 2 - 0.35 = 1.65となるのです。
  • プリブノーボックス(Pribnow box)
    真正細菌の遺伝子において、RNAポリメラーゼによる転写開始位置の上流10 bpの位置にみとめられる共通塩基配列のことです。-10領域、-10ボックス、あるいはTATAボックスとよばれることもあります。
  • 保存度
    この場合は、MSA実行結果の各位置において、どれだけ同じ塩基になっているかという度合いのことだと理解すればよいです。
  • 式(3.23)
    \[ L_i = H_{max} (A) - H_i (A) \tag{3.23} \] 以下は記号の説明です:
    • \(H_{max} (A)\)
      情報エントロピーの最大値のことです。\(H_{max} (A)\)の値は、扱う文字の集合\(A\)の要素数\(m\)の値のみで、\(H_{max} (A)\) = \(log_2 m\)として定まります。例えば塩基配列の場合は、A, C, G, Tの計4つですので、扱う文字の集合\(A\)の要素数\(m\) = 4です。したがって、塩基配列の場合は\(H_{max} (A)\) = \(\log_2 m\) = \(\log_2 (4)\) = 2です。同様に、アミノ酸配列の場合は20種類ですので、\(H_{max} (A)\) = \(\log_2 m\) = \(\log_2 (20)\) = 4.32です。
    • \(H_i (A)\)
      位置\(i\)の情報エントロピーです。例えば塩基配列なら4種類の塩基全ての情報を用いているので、括弧の中に\(A\)があるのだと理解すればよいです。式(3.22)で算出されます。
    • \(L_i\)
      シーケンスロゴの高さのことです。この値が大きいほど、位置\(i\)における配列の保存度が高い(その位置に同じ種類の塩基ばかりある)と解釈します。位置\(i\)の塩基がA, C, G, Tのどれにも偏っていない場合は\(L_i\)の値が0に近く、例えばMSAの特定の位置\(i\)が全てTのみだと\(L_i\)の最大値(この場合は2)になります。
  • 図3.31
    プリブノーボックスの情報エントロピーのプロットです。大腸菌のゲノム配列から取得した塩基の出現確率(表3.3)をもとに計算しています。
page110
  • 図3.32
    プリブノーボックスのシーケンスロゴです。文字の高さが、「2 - “図3.31の情報エントロピー”」となっていることがわかります。この場合の文字の集合は\(A\) = {“A”, “C”, “G”, “T”}なので、\(A\)の要素数\(K\) = 4です。したがって、\(H_{max}(A)\) = \(\log_2(K)\) = \(\log_2(4)\) = 2ということになります。それゆえ、たとえば位置\(i\) = 6の情報エントロピーは、図3.31に書かれているように\(H_i(A)\) = 0.35なので、図3.32では、\(L_i\) = \(L_6\) = 2 - 0.35 = 1.65となるのです。
  • 図3.33
    図3.13のRieske型鉄硫黄クラスタ結合部位の一部のシーケンスロゴです。

  • 出現確率(probability of occurrence)
    この場合は、MSA中の各位置における、「塩基ごとの出現回数」を「その位置の全塩基数」で割ったもののことです。
  • 式(3.24)
    \[ L_i (a) = f_i (a) L_i \tag{3.24} \] 以下は記号の説明です:
    • \(a\)
      扱う文字の集合である\(A\)の中の各要素(1つ1つの文字)のことです。例えば塩基配列の場合は、A, C, G, Tの計4つです。
    • \(f_i (a)\)
      位置\(i\)における文字\(a\)の出現確率のことです。
    • \(L_i\)
      シーケンスロゴの高さのことです。この値が大きいほど、位置\(i\)における配列の保存度が高い(その位置に同じ種類の塩基ばかりある)と解釈します。位置\(i\)の塩基がA, C, G, Tのどれにも偏っていない場合は\(L_i\)の値が0に近く、例えばMSAの特定の位置\(i\)が全てTのみだと\(L_i\)の最大値(この場合は2)になります。
    • \(L_i (a)\)
      シーケンスロゴの各文字\(a\)の高さのことです。\(L_i\)が位置\(i\)におけるシーケンスロゴの高さ、\(f_i (a)\)が位置\(i\)における文字\(a\)の出現確率ですので、文字ごとの高さ\(L_i (a)\)を全ての文字について足したものが\(L_i\)なのだと理解すればよいです。

  • シーケンスロゴ(Sequence logo)Schneider and Stephens, Nucleic Acids Res., 1990
    MSAのコンセンサス配列を図示する手段の1つです。横軸が文字の位置、縦軸が式(3.23)で表される情報量です。すべての文字が同一(すなわちエントロピーが最小値の0)となっている位置をフィーチャーしたいので、エントロピーの最大値から引くような数式として表現されています。
  • WebLogoCrooks et al., Genome Res., 2004
    webベースでシーケンスロゴを行えるサイトです。
  • Seq2LogoThomsen et al., Nucleic Acids Res., 2012
    webベースでシーケンスロゴを行えるサイトです。
  • R
    フリーのデータ解析環境です。Rパッケージとしては、seqLogoggseqlogoがあります。
  • Python
    プログラミング言語です。Python.jpという日本語のサイトもあります。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • 出現確率行列(probability matrix)
    MSAをとったときの位置数が列数、塩基配列の場合はACGTの4行をベースとして、それぞれの位置における各塩基の出現確率を算出した数値行列のことです。各位置の文字の出現確率を行列で表したものです。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 図3.33
    図3.13のRieske型鉄硫黄クラスタ結合部位の一部のシーケンスロゴです。
  • Rieske型鉄硫黄クラスタ(Rieske iron-sulfur cluster)
    リンク先は「鉄硫黄タンパク質」です。鉄硫黄タンパク質(iron-sulfur protein)は、酸化数が可変の二、三および四鉄中心を含む鉄・硫黄クラスター(Fe-S cluster)の存在で特徴づけられるタンパク質です。シトクロムbc1複合体およびシトクロムb6f複合体の鉄硫黄タンパク質成分です。1964年にRieskeらによって発見された最も単純なFe-S clusterが、[2Fe-2S]や[Fe2S2]クラスタと書かれるRieske型鉄硫黄クラスタです。2つのシステインと2つのヒスチジン(リスケタンパク質)が配位した構造をとるので、CとHを含むモチーフになっています。
  • 酸性残基(acidic residues)
    極性アミノ酸残基の中で、負電荷をもつアミノ酸残基のことです。具体的には、アスパラギン酸(3文字表記はAsp、1文字表記はD)とグルタミン酸(3文字表記はGlu、1文字表記はE)のことです。
  • 塩基性残基(basic residues)
    極性アミノ酸残基の中で、正電荷をもつアミノ酸残基のことです。具体的には、リシン(3文字表記はLys、1文字表記はK)、アルギニン(3文字表記はArg、1文字表記はR)、そしてヒスチジン(3文字表記はHis、1文字表記はH)のことです。
  • 極性中性残基(polar neutral residues)
    極性アミノ酸残基の中で、電荷をもたないアミノ酸残基のことです。具体的には、セリン(3文字表記はSer、1文字表記はS)、トレオニン(3文字表記はThr、1文字表記はT)、アスパラギン(3文字表記はAsn、1文字表記はN)、グルタミン(3文字表記はGln、1文字表記はQ)、そしてシステイン(3文字表記はCys、1文字表記はC)のことです。
  • 疎水性残基(hydrophobic residues)
    非極性アミノ酸残基のことです。具体的には、グリシン(3文字表記はGly、1文字表記はG)、アラニン(3文字表記はAla、1文字表記はA)、バリン(3文字表記はVal、1文字表記はV)、ロイシン(3文字表記はLeu、1文字表記はL)、イソロイシン(3文字表記はIle、1文字表記はI)、プロリン(3文字表記はPro、1文字表記はP)、メチオニン(3文字表記はMet、1文字表記はM)、フェニルアラニン(3文字表記はPhe、1文字表記はF)、トリプトファン(3文字表記はTrp、1文字表記はW)のことです。全部で9種類です。

page111
  • 例題3.9
    1ページ目が問題、2ページ目以降が解答例です。
    • 大腸菌K-12株(E. coli K-12)
      毒性の強い株であり、下痢の発作を引き起こします。実験目的で最も頻繁に利用される株です。
    • NC_000913
      大腸菌K-12株の完全ゲノム(Escherichia coli str. K-12 substr. MG1655, complete genome)です。
    • 遺伝子(gene)
      大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
    • 開始コドン(start codon)
      mRNA上でタンパク質の合成開始を指定するコドンのことです。
    • 塩基配列(nucleotide sequence)
      DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
    • MSA
      多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
    • 情報エントロピー(entropy)
      リンク先は「情報量」です。情報理論の概念で、あるできごと(事象)が起きた際、それがどれほど起こりにくいかを表す尺度です。平均情報量ともいいます。
    • GC含量(GC content)
      塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。

第3章 演習問題