出現確率行列(probability matrix)
MSAをとったときの位置数が列数、塩基配列の場合はACGTの4行をベースとして、それぞれの位置における各塩基の出現確率を算出した数値行列のことです。各位置の文字の出現確率を行列で表したものです。
文字(charactor)
この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
出現確率(probability of occurrence)
この場合は、MSA中の各位置における、「塩基ごとの出現回数」を「その位置の全塩基数」で割ったもののことです。
式(3.19)
\[
S(f_{1i}, f_{2j}) = \sum_{a, b \in A} f_1(i, a) f_2(j, b) \delta (a, b)
\tag{3.19}
\]
PSSM
リンク先は「Position weight matrix」です。位置特異的スコア行列(position
specific score
matrix)のことです。出現確率行列は、解析対象生物種のGC含量などによって値の意味合いが異なります。たとえばGC含量が異常に高い生物種の場合、その出現確率はGやCが全体として高くなるからです。その一方で、実際に知りたいことは、解析対象生物種の中での相対値であることが多いです。それゆえ、式(3.9)で示すような解析対象生物種のゲノム全体の出現確率で割り、その対数をとった値で評価したものがPSSMです。
式(3.20)
\[
S(PSSM_{1i}, PSSM_{2j}) = \sum_{a, b \in A} PSSM_1(i, a) PSSM_2(j, b)
\log \frac{p(a, b)}{g(a) g(b)} \tag{3.20}
\]
相関係数(correlation
coefficient)
2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標です。相関係数は無次元量で、−1以上1以下の実数に値をとります。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。また相関係数が0のとき確率変数は無相関であるといいます。