page038

第2章 ゲノム情報解析(発展編)

  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 多様性(diversity)
    幅広く性質の異なる群が存在することです。性質に類似性のある群が形成される点が特徴で、単純に「いろいろある」こととは異なります。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • エピジェネティクス(epigenetics)
    ゲノムの塩基配列自体は変わらないものの、その一部が化学的な修飾を受けて遺伝子の発現が制御され、それが維持される仕組みのことです。
  • 遺伝子発現(gene expression)
    遺伝子の情報が細胞における構造および機能に変換される過程のことです。
  • 統計(statistic)
    現象を調査することによって数量で把握すること、または、調査によって得られた数量データ(統計量)のことです。統計の性質を調べる学問は統計学です。
  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。

2.1 多様性の解析(パンゲノム解析)

  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
  • 真核生物(eukaryote)
    動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 統計(statistic)
    現象を調査することによって数量で把握すること、または、調査によって得られた数量データ(統計量)のことです。統計の性質を調べる学問は統計学です。

2.1.1 リシーケンシングとパンゲノム解析

  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • シーケンス(sequence)
    リンク先は「シークエンス」です。この場合は、DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
  • リシーケンシング(resequencingまたはre-sequencing)
    すでに配列決定された生物種のゲノムを再度シーケンスして解析する枠組みのことです。
  • Gao et al., Front Genet., 2020
    リシーケンシング(resequencingまたはre-sequencing)と明記されている論文の例です。
  • 一塩基置換(single-base nucleotide substitution)
    リンク先は「点突然変異」です。DNAやRNAのA、C、G、Tのうち1つ(1塩基)が別の塩基に置き換わってしまう突然変異のことです。
  • 一塩基多型(single nucleotide polymorphism; SNP)
    ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • Nakano et al., J Biomed Sci., 2016
    日本人の心房細動(atrial fibrillation)の病因(etiology)と、アルコール分解関連遺伝子(ADH1BとALDH2)のSNPとの関連について調べた論文です。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • 多様性(diversity)
    幅広く性質の異なる群が存在することです。性質に類似性のある群が形成される点が特徴で、単純に「いろいろある」こととは異なります。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • 一塩基変異(single nucleotide variation; SNV)
    SNP(ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られること)で定義された1%という基準に合致しない稀(rare)なもののことです。
  • Barton and Zeng, Mol Biol Evol., 2018
    「INDELがSNP やSNV に次いでよく見られるゲノムの多様性のタイプ」は、Small insertions and deletions (INDELs, ≤50 bp) are the most common type of variability after single nucleotide polymorphism (SNP). を根拠としています。
  • インデル(INDEL)
    ゲノム上の数十塩基程度の挿入(insertion)や欠失(deletion)のことです。deletion insertion polymorphism(DIP)ともよばれます。
  • DB
    データベースのことです。
  • dbSNPSayers et al., Nucleic Acids Res., 2021
    ヒトの一塩基変異(single nucleotide variation; SNV)、マイクロサテライト、小規模なインデルなどの情報からなるDBです。dbSNPのハンドブックには、INDEL以外の「挿入と欠失」をまとめた呼び方として、small-scale multi-base deletionsまたはinsertionsやdeletion insertion polymorphism(DIP)などがあげられています。
  • 1000 Genomes Project Consortium, Nature, 2012
    1,000人ゲノムプロジェクト論文です。実際には14の民族からなる1,092人の個体差を調べています。
  • Sudmant et al., Nature, 2015
    1,000人ゲノムプロジェクトの後継プロジェクト論文です。26の民族からなる2,504人の違いを調べています。

  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • バクテリア(bacteria)
    リンク先は「細菌」です。正確には真正細菌です。古細菌・真正細菌・真核生物という分類学上の3つのドメインの1つ、あるいはそこに含まれる生物のことです。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。
  • 多様性(diversity)
    幅広く性質の異なる群が存在することです。性質に類似性のある群が形成される点が特徴で、単純に「いろいろある」こととは異なります。
  • Tettelin et al., Proc Natl Acad Sci USA., 2005
    パンゲノム提唱論文です。パンゲノムは、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
page039
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • バクテリア(bacteria)
    リンク先は「細菌」です。正確には真正細菌です。古細菌・真正細菌・真核生物という分類学上の3つのドメインの1つ、あるいはそこに含まれる生物のことです。
  • 病原性(pathogenicity)
    真正細菌やウイルスなどの病原体が、他の生物に感染して宿主に感染症を起こす性質・能力のことです。
  • 大腸菌K-12株(E. coli K-12)
    毒性の強い株であり、下痢の発作を引き起こします。実験目的で最も頻繁に利用される株です。
  • 大腸菌O-157株(E. coli O-157)
    リンク先は「病原性大腸菌」です。食中毒の原因菌としても有名な腸管出血性大腸菌のことです。K-12にも言及されています。
  • 森 浩禎, 生物工学, 90: 293-297, 2012
    大腸菌(Escherichia coli)のパンゲノムについて触れられています。
  • リシーケンシング(resequencingまたはre-sequencing)
    すでに配列決定された生物種のゲノムを再度シーケンスして解析する枠組みのことです。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • dbSNPSayers et al., Nucleic Acids Res., 2021
    ヒトの一塩基変異(single nucleotide variation; SNV)、マイクロサテライト、小規模なインデルなどの情報からなるDBです。
  • インデル(INDEL)
    ゲノム上の数十塩基程度の挿入(insertion)や欠失(deletion)のことです。deletion insertion polymorphism(DIP)ともよばれます。

  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
  • デノボアセンブリ(de novo assembly)
    リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
  • メモリ(memory)
    リンク先は「主記憶装置」です。データを記憶する部品のことです。コンピュータが計算を実行する際に利用する、データを一時的に記憶する場所のことです。場所が大きいものほど「メモリが大きい」などと表現します。
  • ミスアセンブリ(mis-assembly)
    デノボアセンブリの結果として、キメラコンティグを生成してしまうことです。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • ガイド(guide)
    基準となる大まかな指標、目安などを示すもののことです。補助線のようなイメージで捉えるとよいと思います。
  • Card et al., PLoS One, 2014
    リファレンスゲノム配列が利用可能な場合には、ガイド(guide)として利用するのが基本というのがわかる論文です。 このリファレンス配列をガイドとして利用するアプローチは、reference-guided、reference-based、reference-assistedなどと表現されます。
  • リンクドリード(linked read)
    ショートリード技術を活用してロングリードを得る手段(技術)のことです。
  • 被覆率(カバレッジ; coverage)
    リンク先は「Coverage (genetics)」です。コンセンサス配列を構築する際に、コンセンサス配列の長さの何倍の総塩基数を用いたかという情報です。コンセンサス配列よりも総塩基数が少ない情報だと、コンセンサス配列を作ることがそもそもできません。コンセンサス配列が100塩基だとすると、それを構築する際に用いた元の総塩基数が500塩基だとすると、被覆率は5倍といった具合で計算します。一見すると「卵が先かニワトリが先かという議論なのでは?」という印象を受けるかもしれませんが、たとえばゲノム配列決定の場面などではゲノムサイズを推定する方法が存在しますので、そのゲノム配列を決定したい場合にどの程度の総塩基数のデータであればどの程度確からしいゲノム配列が得られるかもわかるのです。被覆率と同じ意味で深度(depth)という言葉も用いられますので、たとえば低い被覆率(low coverage)と浅い深度(shallow depth)は同じ意味です。
  • Zhou et al., Nat Commun., 2021
    リンクドリード入力として、リファレンスを用いてアセンブリを行うプログラムAquilaの論文です。

2.1.2 原核生物のパンゲノム解析

  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
  • バクテリア(bacteria)
    リンク先は「細菌」です。正確には真正細菌です。古細菌・真正細菌・真核生物という分類学上の3つのドメインの1つ、あるいはそこに含まれる生物のことです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • Sherman and Salzberg, Nat Rev Genet., 2020
    パンゲノム解析の総説です。「ゲノム中に占める遺伝子領域の割合が非常に高い(多くの場合90%超)」は、 Defining the pan-genome in terms of genes rather than DNA sequence is sensible for prokaryotes. Not only do genes comprise most (typically 90% or more) of the sequence content in these species,… を根拠としています。
  • 構造アノテーション(structural annotation)
    塩基配列から遺伝子領域を見つける作業です。
  • 図2.1
    バクテリアにおけるパンゲノム解析の概念図です。集合論的に表現すれば、パンゲノムは和集合(union)、コアゲノムは積集合(intersection)となります。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。
page040
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
  • 和集合(union)
    集合の集まり(集合族)に対して、それらの集合のいずれか少なくとも1つに含まれているような要素をすべて集めることにより得られる集合のことです。
  • 積集合(intersection)
    リンク先は「共通部分 (数学)」です。与えられた集合の集まり(族)すべてに共通に含まれる(集合を構成する個々の数学的対象のこと)をすべて含み、それ以外の元は含まない集合のことです。

  • 図2.1b

    バクテリアにおけるパンゲノム解析の概念図です。(b)は、(a)の結果を行列として示したものです。表形式なので(ちょっと不格好ですが)以下でも示しておきます。右端の2列が非必須ゲノムです。

    菌株1 菌株2 菌株3 コアゲノム アクセサリ遺伝子 ユニーク遺伝子
    gene1 \(\circ\) 1 yes
    gene2 \(\circ\) 1 yes
    gene3 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene4 \(\circ\) \(\circ\) 2 yes
    gene5 \(\circ\) 1 yes
    gene6 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene7 \(\circ\) \(\circ\) 2 yes
    gene8 \(\circ\) 1 yes
    gene9 \(\circ\) 1 yes
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。株と菌株は実質的に同じものを指します。
  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • 要素(element)
    たとえば数値ベクトルなら、ベクトル内の各数値のことです。数値行列でいえば、たとえば\(i\)\(\times j\)列の箇所にある数値のことを指します。Excelで「セル」とよんでいるものと同義です。行列を構成する「マス目」のことです。
  • オーソログ(ortholog)
    生物種で相同性がある遺伝子どうしのことです。
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 非必須ゲノム(dispensable genome)
    (バクテリアの場合は)コアゲノム以外の遺伝子の集合のことです。dispensableは「不要」とか「なくても困らない」とか「重要ではない」という意味の形容詞です。アクセサリゲノムとも訳されるようです。
  • Sherman and Salzberg, Nat Rev Genet., 2020
    パンゲノム解析の総説です。パンゲノム(pan-genome)はコアゲノム(core genome)と非必須ゲノム(dispensable genome)から構成されます。非必須ゲノムはさらに、1つの菌株のみに存在するユニーク遺伝子(unique gene)と、それ以外のアクセサリ遺伝子(accessory gene)から構成されます。このあたりは、“Defining a pan-genome”という節に記載されています。
  • ユニーク遺伝子(unique gene)
    パンゲノム解析対象のすべての菌株(strain)の中で、1つの菌株のみに存在する遺伝子群のことです。非必須ゲノムの構成要素の1つです。
  • アクセサリ遺伝子(accessory gene)
    パンゲノム解析対象のすべての遺伝子の中から、コアゲノムとユニーク遺伝子(unique gene)を除いた残りの遺伝子群のことです。「複数の菌株に存在するが、すべての株に存在するわけではない遺伝子群」のことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • PAVプロファイル(PAV profile)
    PAVはpresence/absence variationの略です。ゲノムごとに遺伝子の存在の有無をバイナリで表現したもののことです。
  • Hu et al., Bioinformatics, 2017
    EUPANという真核生物のパンゲノム解析プログラムの論文です。ゲノムごとに遺伝子の存在の有無をバイナリ(0または1のような2つの値のどちらか)で表現したpresence/absence variation(PAV)プロファイルの概念図がFig. 1の中央左側に示されています。

  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。株と菌株は実質的に同じものを指します。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
  • 解析対象に菌株4を加えた場合

    バクテリアにおけるパンゲノム解析の概念図である図2.1bと同じような形式で、gene6とgene10とgene11からなる菌株4を追加したものを示しておきます。

    菌株1 菌株2 菌株3 菌株4 コアゲノム アクセサリ遺伝子 ユニーク遺伝子
    gene1 \(\circ\) 1 yes
    gene2 \(\circ\) 1 yes
    gene3 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene4 \(\circ\) \(\circ\) 2 yes
    gene5 \(\circ\) 1 yes
    gene6 \(\circ\) \(\circ\) \(\circ\) \(\circ\) 4 yes
    gene7 \(\circ\) \(\circ\) 2 yes
    gene8 \(\circ\) 1 yes
    gene9 \(\circ\) 1 yes
    gene10 \(\circ\) 1 yes
    gene11 \(\circ\) 1 yes
  • 解析対象を菌株2と3のみにした場合

    バクテリアにおけるパンゲノム解析の概念図である図2.1bと同じような形式で、菌株2と3のみの結果を示しておきます。

    菌株2 菌株3 コアゲノム アクセサリ遺伝子 ユニーク遺伝子
    gene2 \(\circ\) 1 yes
    gene3 \(\circ\) \(\circ\) 2 yes
    gene4 \(\circ\) 1 yes
    gene6 \(\circ\) \(\circ\) 2 yes
    gene7 \(\circ\) \(\circ\) 2 yes
    gene8 \(\circ\) 1 yes
    gene9 \(\circ\) 1 yes
  • サンプリング(sampling)
    リンク先は「標本調査」です。母集団から標本を抽出することです。母集団(ある解析対象生物種のすべての個体)をすべて調査対象とする全数調査は、予算的な面からも非現実的です。このため、現実的な数の菌株(strain)を抽出して、手元の情報のみから母集団の性質を統計学的に推定する方法が標本調査です。生命科学系のほぼすべての研究は、標本調査によって得られています。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • パンゲノムとコアゲノムのプロット図の例
    EUPAN論文(Hu et al., Bioinformatics, 2017)の Fig. 1の中央下側(⑦)にも、 ゲノム数が増えるとパンゲノムが増えてコアゲノムが減っていくイメージが示されています。パンゲノムの増加のイメージ図については、「実験医学別冊 論文図表を読む作法」の第7章にあるAccumulation curveとも対応しています。

2.1.3 パンゲノムデータ解析と統計

  • Nourdin-Galindo et al., Front Cell Infect Microbiol., 2017
    サケ科魚類の流行病であるリケッチア敗血症の原因菌Piscirickettsia salmonisを対象として、地理的・遺伝的に代表的な19株のパンゲノム解析を行った論文です。Fig. 2Bが「パンゲノムとコアゲノムのプロット図」の例です。計6個のプロットのうち、右下まで伸びている●(red circle)のプロットが凡例の1番上のCore-Genome All Genomesに、そして右上まで伸びている◆(red diamond)のプロットが凡例の上から2番目のPan-Genome All Genomesに対応します。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
  • ランダムサンプリング(random sampling)
    リンク先は「標本調査」です。母集団から標本を抽出することです。母集団(ある解析対象生物種のすべての個体)をすべて調査対象とする全数調査は、予算的な面からも非現実的です。このため、現実的な数の菌株(strain)を抽出して、手元の情報のみから母集団の性質を統計学的に推定する方法が標本調査です。生命科学系のほぼすべての研究は、標本調査によって得られています。サンプリングとランダムサンプリングは、実質的に同じ意味です。
page041
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
  • ヒープスの法則(Heaps’ law)
    リンク先は「Heaps’ law」です。バクテリアのパンゲノム解析において、横軸が菌株数、縦軸が遺伝子数のプロットをとったときに、パンゲノムを構成する遺伝子数の増加の程度を表現する際によく用いられる数式という理解でよいです。
  • べき乗則(power law)
    リンク先は「冪乗則(べきじょうそく)」です。べき乗則とも書かれます。「べき分布(power law distribution)」もこのリンク先です。バクテリアのパンゲノム解析において、横軸が菌株数、縦軸が遺伝子数のプロットをとったときに、コアゲノムを構成する遺伝子数の減少の程度を表現する際によく用いられる数式という理解でよいです。統計モデルの1つであり、\(f(x) = ax^k\)のような形で表されることが多いです(\(a\)\(k\)は定数)。\(x\)に相当する説明変数のスケールが変わる(単位がmmからcmに変わるとかそういうイメージ)と\(a\)\(k\)の値も変わりますが、関数自体の形は変わらないのが特徴です。両対数プロットをとると直線性を示すという説明もよくなされます。
  • 曲線あてはめ(curve fitting)
    実験的に得られたデータまたは制約条件に最もよく当てはまるような曲線を求めることです。
  • Figure 2Bの曲線
    Nourdin-Galindo et al., Front Cell Infect Microbiol., 2017Fig. 2Bのことです。
  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
  • Costa et al., Bioinform Biol Insights, 2020
    原核生物のパンゲノム解析の総説です。

  • 図2.1b

    バクテリアにおけるパンゲノム解析の概念図です。(b)は、(a)の結果を行列として示したものです。表形式なので(ちょっと不格好ですが)以下でも示しておきます。右端の2列が非必須ゲノムです。この表作成作業は、ゲノム(strain)間での同一遺伝子の対応付けであるため、オーソログ同定作業と同義です。

    菌株1 菌株2 菌株3 コアゲノム アクセサリ遺伝子 ユニーク遺伝子
    gene1 \(\circ\) 1 yes
    gene2 \(\circ\) 1 yes
    gene3 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene4 \(\circ\) \(\circ\) 2 yes
    gene5 \(\circ\) 1 yes
    gene6 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene7 \(\circ\) \(\circ\) 2 yes
    gene8 \(\circ\) 1 yes
    gene9 \(\circ\) 1 yes
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。株と菌株は実質的に同じものを指します。
  • アノテーション(annotation)
    この場合は、塩基配列に対して生物学的意味を注釈付けすることです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 参照DB
    この場合は、手元にある未知機能の塩基配列に注釈付けを行う際に用いる「これまでに蓄積されてきた遺伝子機能に関する情報を収集したデータベース」のことです。
  • タンパク質産物(protein product)
    mRNAの情報に基づいて、合成されたタンパク質のことです。「遺伝子産物」とか「タンパク質産物」と表現する場合が結構ありますので、産物という表現に慣れておいてもらいたいという意図でつけています。
  • transposase
    トランスポゾンの末端に結合し、カットアンドペーストメカニズムまたは複製転移メカニズムによってゲノムの別の部分への移動を触媒する酵素です。トランスポザーゼのことです。
  • 仮想タンパク質(hypothetical protein)
    リンク先は「Hypothetical protein」です。実験的な証拠はないものの、おそらくそうであろうと予測されたタンパク質のことです。
  • 乳酸菌(Lactic acid bacteria)
    代謝により乳酸を産生する細菌類の総称です。ヨーグルト、乳酸菌飲料、漬け物など食品の発酵に寄与します。一部の乳酸菌は、腸などの消化管(腸内細菌)や膣に常在して、他の微生物と共生あるいは拮抗することによって腸内環境の恒常性維持に役立っていると考えられています。
  • DFASTTanizawa et al., Bioinformatics, 2018
    DFASTは、乳酸菌を含むバクテリア用のアノテーションプログラムです。ゲノムやコンティグなどの塩基配列のmulti-FASTAファイルを入力として与えて実行すると、構造アノテーションと機能アノテーション結果が返されます。
  • 谷澤ら, 日本乳酸菌学会誌, 28:94-100, 2017b(NGS連載第10回)
    「2,599遺伝子中463個がhypothetical protein」は、この解説記事の本文中では明記されていません。しかし、この中の図1で見えているfeatures.tsvファイル中の”product”列内で、“hypothetical protein”をカウントした結果が463個でした。
  • Cho et al., Nat Commun., 2013
    トラゲノム解読論文です。本文中では改めては引用していません。
  • Mittal et al., Sci Rep., 2019
    ネコ科ゲノム比較系論文です。上記のトラゲノム配列中に約百万個のエラー(1塩基置換, single nucleotide substitution)が含まれていたことを報告しています。これも本文中では改めては引用していません。
  • コミュニティアノテーション(community annotation)
    興味ある生物種の特徴や性質を理解した研究者のコミュニティで、継続的なアップデートや修正を行うことです。
  • オーソログ(ortholog)
    生物種で相同性がある遺伝子どうしのことです。

2.1.4 オーソログの同定

  • 配列類似性検索(sequence similarity search)
    この場合は、手元にあるアノテーションしたい塩基配列(query sequenceとかクエリ側などといいます)を、公共配列DB(DB側などといいます)に対して問い合わせて、DB側に似た配列が存在するかどうかを調べることです。この類似性検索作業の実体は、配列のアラインメントです。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
  • 構造アノテーション(structural annotation)
    塩基配列から遺伝子領域を見つける作業です。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 図2.2a
    ゲノム(菌株)間での同一遺伝子の対応付け(オーソログの同定)の図です。(a)は(multi-)FASTA形式ファイルの例です。
  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。株と菌株は実質的に同じものを指します。
  • FASTA形式ファイル
    リンク先は「FASTA format」です。複数の遺伝子配列情報が1つのファイルに格納されているのでmulti-FASTAとよばれることもありますが、今の時代は1つの配列情報のみからなるsingle-FASTAファイルとして取り扱う局面のほうがむしろ稀であるため、事実上同一視して差し支えありません。
  • 配列DB
    配列データベースのことです。データベース(database; DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたもののことです。
  • 閾値(threshold)
    境目となる値のことです。この場合は、「問い合わせる側の配列」と「問い合わせられる側の配列」が類似していると判断する境目として設定する値のことです。

  • 図2.2b
    ゲノム(菌株)間での同一遺伝子の対応付け(オーソログの同定)の図です。(b)はBLASTを用いた配列類似性検索例です。BLASTで問い合わせる側をquery側、問い合わせられる側をデータベース(DB)側などといいます。
  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。株と菌株は実質的に同じものを指します。
page042
  • 図2.2a
    ゲノム(菌株)間での同一遺伝子の対応付け(オーソログの同定)です。

  • ベストヒット(best hit)
    クエリ配列と最も類似度が高かったDB側の配列のことです。
  • 図2.2c
    ゲノム(菌株)間での同一遺伝子の対応付け(オーソログの同定)の図です。(c)は双方向のヒット結果のみを示した概念図です。2つの菌株間でのオーソログ同定を行う際によく用いられるのが、双方向ベストヒット(bi-directional best hit)あるいは相互ベストヒット(reciprocal best hit)という基準です。具体的には、BLASTを用いた全遺伝子どうしの比較(all-versus-all BLAST comparison)がよく行われます。
  • オーソログ(ortholog)
    生物種で相同性がある遺伝子どうしのことです。この場合は「菌株で類似性が高い遺伝子どうしのこと」だと読み替えればよいです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 双方向ベストヒット(bi-directional best hit)
    今は2つの菌株間で同一遺伝子を対応付けようとしています。「片方の株をクエリ側、もう片方の株をDB側にしてBLASTして得られたベストヒット」が一方向のベストヒットに相当します。これに加えて、「クエリ側とDB側を入れ替えてもう一度同じ作業を行って得られたベストヒット」で矛盾なく相思相愛でベストヒットになっているもの、あるいはその一連の作業のことです。相互ベストヒット(reciprocal best hit)ともいいます。
  • orthoFinderEmms and Kelly, Genome Biol., 2019
    オーソログ同定プログラムです。

2.1.5 真核生物のパンゲノム解析

  • 哺乳類(mammal)
    哺乳綱(ほにゅうこう)に属する動物の総称です。
  • 植物(plant)
    草や木などのように、根があって場所が固定されて生きているような生物のことです。対義語は動物です。
  • ゲノムサイズ(genome size)
    (正確にはハプロイドゲノムだと思いますが)ある生物種がもつゲノムの総塩基数という理解でよいです。
  • 真核生物(eukaryote)
    動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • エクソン(exon)
    デオキシリボ核酸(DNA)またはリボ核酸(RNA)の塩基配列中で成熟mRNAに残る部分です。
  • Piovesan et al., BMC Res Notes, 2019
    ヒト遺伝子の統計情報論文です。「ヒトはエクソンがゲノムの数%しか占めていない」は、Table 2中のTotalというところのExonが174,797,813 bp、そしてIntronが3,555,747,074 bpという結果より、174,797,813/ (174,797,813 + 3,555,747,074) = 0.04685584から、5%未満であるということを主な根拠としています。もちろんTable 2はprotein-coding transcriptsに限定した結果ですので、それ以外を含めるとさらに分母の数値が大きくなることは容易に想像がつきます。よって、「ゲノムの数%」と書いてよいと判断しています。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 多様性(diversity)
    幅広く性質の異なる群が存在することです。性質に類似性のある群が形成される点が特徴で、単純に「いろいろある」こととは異なります。
  • イントロン(intron)
    転写はされるが最終的に機能する転写産物からスプライシングによって除去される塩基配列のことです。
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
page043
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
  • Sherman and Salzberg, Nat Rev Genet., 2020
    パンゲノム解析の総説です。真核生物の場合は、コアゲノムが「個体間で共通してみられる領域を結合したもの(積集合)」、パンゲノムが「コアゲノム以外の領域(dispensable genome)をコアゲノム内に挿入して作成したようなもの(和集合)」として定義されます。具体的なイメージは、Fig. 1bに提示されています。

  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 図2.1b

    バクテリアにおけるパンゲノム解析の概念図です。(b)は、(a)の結果を行列として示したものです。表形式なので(ちょっと不格好ですが)以下でも示しておきます。右端の2列が非必須ゲノムです。この表作成作業は、ゲノム(strain)間での同一遺伝子の対応付けであるため、オーソログ同定作業と同義です。

    菌株1 菌株2 菌株3 コアゲノム アクセサリ遺伝子 ユニーク遺伝子
    gene1 \(\circ\) 1 yes
    gene2 \(\circ\) 1 yes
    gene3 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene4 \(\circ\) \(\circ\) 2 yes
    gene5 \(\circ\) 1 yes
    gene6 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene7 \(\circ\) \(\circ\) 2 yes
    gene8 \(\circ\) 1 yes
    gene9 \(\circ\) 1 yes
  • PAVプロファイル(PAV profile)
    PAVはpresence/absence variationの略です。ゲノムごとに遺伝子の存在の有無をバイナリで表現したもののことです。上記図2.1bの左表のことです。
  • Hu et al., Bioinformatics, 2017
    EUPANという真核生物のパンゲノム解析プログラムの論文です。PAVに基づく解析(PAV-based analysis)は、Fig. 1中で、PAV-based pan-genome analysesやPAV-based GWASなどとも表現されていることがわかります。map-to-pan戦略もFig. 1に書かれています。バイナリのフラグを立てる作業は、具体的には「マップされれば1、されなければ0」とすることです。
  • ゲノムサイズ(genome size)
    (正確にはハプロイドゲノムだと思いますが)ある生物種がもつゲノムの総塩基数という理解でよいです。
  • 真核生物(eukaryote)
    動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
  • 和集合(union)
    集合の集まり(集合族)に対して、それらの集合のいずれか少なくとも1つに含まれているような要素をすべて集めることにより得られる集合のことです。
  • 積集合(intersection)
    リンク先は「共通部分 (数学)」です。与えられた集合の集まり(族)すべてに共通に含まれる(集合を構成する個々の数学的対象のこと)をすべて含み、それ以外の元は含まない集合のことです。
  • map-to-pan戦略
    Hu et al., Bioinformatics, 2017で提唱されたパンゲノム解析戦略です。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
  • マッピング(mapping)
    リードデータがゲノム配列上のどこに由来するかを調べる作業のことですが、実質的にはアラインメントと同じです。
  • バイナリ(binary)
    二進法のことです。yesかnoか、1か0かということです。本文中の直後の「フラグ」は、旗をたてるかたてないかという意味で用いています。
  • Wang et al., Nature, 2018
    コメのパンゲノム解析論文です。EUPANが利用されている論文例です。

  • 真核生物(eukaryote)
    動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • トマト(tomato)
    南アメリカのアンデス山脈高原地帯原産のナス科ナス属の植物、また、その果実のことです。多年生植物で、果実は食用として利用されます。緑黄色野菜の一種です。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • Tomato Genome Consortium, Nature, 2012
    トマトのゲノム配列決定論文です。
  • 系統(lineage)
    この場合は、トマトという生物種の中の特定の品種(同一種の栽培植物や飼養動物で、形態や性質の変異が遺伝的に分離・固定されたもの)という理解でよいです。
  • 栽培(cultivation)
    野菜や樹木などの植物、キノコ、藻類などを植えて育てることです。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 遺伝的多様性(genetic diversity)
    (同一生物種内の)遺伝子型(ある生物の個体が持つ遺伝物質の構成)の多様性のことです。
  • 品種改良(breeding)
    栽培植物や家畜などにおいて、より人間に有用な品種を作り出すことです。育種のことです。
  • Gao et al., Nat Genet., 2019
    トマトのパンゲノム解析論文です。系統的・地理的に代表的な725株(この論文ではaccessionsと表現されている)のゲノム配列を用いてパンゲノムを構築し、リファレンスゲノムでは報告されていなかった4,873個もの遺伝子を同定したという論文です。
  • 非必須ゲノム(dispensable genome)
    (バクテリアの場合は)コアゲノム以外の遺伝子の集合のことです。dispensableは「不要」とか「なくても困らない」とか「重要ではない」という意味の形容詞です。アクセサリゲノムとも訳されるようです。
  • 図2.1b

    バクテリアにおけるパンゲノム解析の概念図です。(b)は、(a)の結果を行列として示したものです。右端の2列が非必須ゲノムです。

    菌株1 菌株2 菌株3 コアゲノム アクセサリ遺伝子 ユニーク遺伝子
    gene1 \(\circ\) 1 yes
    gene2 \(\circ\) 1 yes
    gene3 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene4 \(\circ\) \(\circ\) 2 yes
    gene5 \(\circ\) 1 yes
    gene6 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene7 \(\circ\) \(\circ\) 2 yes
    gene8 \(\circ\) 1 yes
    gene9 \(\circ\) 1 yes
  • ゲノム編集(genome editing)
    部位特異的ヌクレアーゼを利用して、思い通りに標的遺伝子を改変する技術のことです。部位特異的ヌクレアーゼとしては、2005年以降に開発・発見された、ZFN、TALEN、CRISPR/Cas9を中心としています。
  • GABA
    リンク先は「γ-アミノ酪酸」です。GABAはGamma-AminoButyric Acidの略です。アミノ酸のひとつで、主に抑制性の神経伝達物質として機能している物質です。
  • Della Coletta et al., Genome Biol., 2021
    農産物のパンゲノム解析の総説です。パンゲノムとゲノム編集(genome editing)で品種改良を行うイメージなどが記載されています。

2.1.6 その他の多様性解析(染色体再構成や構造変異)

  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • 多様性(diversity)
    幅広く性質の異なる群が存在することです。性質に類似性のある群が形成される点が特徴で、単純に「いろいろある」こととは異なります。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • SNV
    一塩基変異(single nucleotide variation)のことです。SNP(ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られること)で定義された1%という基準に合致しない稀(rare)なもののことです。
  • Nguyen et al., Am J Med Genet C Semin Med Genet., 2015
    ヒト5番染色体短腕(5p)の欠失に関する総説です。
  • 猫鳴き症候群
    リンク先は「染色体異常」です。丸顔で両眼隔離・発育障害・知能障害・子ネコ様の鳴き声などの異常が起きる、染色体異常に伴う病気(症候群)のことです。
  • Alkan et al., Nat Rev Genet., 2011
    構造変異(structural variation; SV)に関する総説です。
  • コピー数変異(Copy Number Variation; CNV)
    リンク先は「コピー数多型」です。ある集団のなかで1細胞あたりのコピー数が個体間で異なるゲノムの領域のことです。遺伝子重複反復配列に関する事柄と同義です。コピー数多型ともいいます。
  • 遺伝子重複(gene duplication)
    遺伝子を含むDNAのある領域が重複する現象のことです。遺伝子重複によって生じた2つの遺伝子はパラログ(paralog)とよばれます。異なる生物に存在する相同な機能を持った遺伝子群であるオーソログもこのリンク先になります。
  • リピート(repeat)
    リンク先は「反復配列」です。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。ゲノム上での存在様式の違いによって、大きく「縦列反復配列またはタンデムリピート(tandem repeat)」と「散在反復配列(dispersed repeat)」の2つのクラスに分類されます。
  • 分節重複(segmental duplication)
    リンク先は「Low copy repeats」です。セグメント重複やゲノム重複とも訳されるようです。10-300 Kbの長さで、95%以上の類似性を持った領域がゲノム上の複数個所に存在することを指します。染色体再構成(Chromosomal Rearrangement)とも表現されるようです。ヒトでは、Y染色体に特に多く存在するようです。
  • Della Coletta et al., Genome Biol., 2021
    農産物のパンゲノム解析の総説です。
  • 染色体再構成(Chromosomal Rearrangement)
    リンク先は「Chromosomal rearrangement」です。染色体の構造の変化を伴う染色体異常の一種です。欠失(deletion)、重複(duplication)、逆位(inversion)、転座(translocation)もこれに含まれます。
  • 逆位(inversion)
    リンク先は「Chromosomal inversion」です。染色体の一部の領域が逆向きになることです。
  • 転座(translocation)
    リンク先は「染色体転座」です。染色体の異常な再配列が引き起こされる現象のことです。相互転座(reciprocal translocation)とロバートソン転座(Robertsonian translocation)の2つの主要なタイプが存在します。相互転座は非相同染色体間で一部が交換されることで生じる染色体異常であり、2つの異なる染色体断片が交換されます。ロバートソン転座では、2つの非相同染色体が連結されます。転座によって離れていた遺伝子が連結されることで、融合遺伝子が生じる可能性があります。がんゲノム解析分野でよく話題になる融合遺伝子検出プログラム開発などを志向するヒトは、このあたりの原理も正しく理解しておかないと厳しいかと思います。
  • 図2.1a
    バクテリアにおけるパンゲノム解析の概念図です。(a)は、3種類の菌株の仮想ゲノム配列です。gene4が菌株1と菌株2の間で向きが変わっていますが、これが逆位(inversion)の具体例です。
  • Alkan et al., Nat Rev Genet., 2011
    Alkan論文のことです。Figure 1に構造変異の例が示されています。
  • Della Coletta et al., Genome Biol., 2021
    Della Coletta論文のことです。Fig. 1に構造変異の例が示されています。

page044
  • Alkan et al., Nat Rev Genet., 2011
    Alkan論文のことです。Figure 1に構造変異の例が示されています。
  • Della Coletta et al., Genome Biol., 2021
    Della Coletta論文のことです。Fig. 1に構造変異の例が示されています。

  • 構造変異(structural variation; SV)
    リンク先は「Structural variation」です。染色体レベルの構造の変異(多様性)のことです。染色体再構成(Chromosomal Rearrangement)とほとんど意味は同じで、挿入(insertion)や欠失(deletion)、重複(duplication)、コピー数変異(Copy Number Variation; CNV)、逆位(inversion)、転座(translocation)など様々なものの総称という理解でよいです。
  • Feuk et al., Nat Rev Genet., 2006
    構造変異(structural variation; SV)に関する総説です。オープンアクセスではありません。「かつて構造変異(SV)という言葉は、1,000塩基以上あるINDELや逆位などのゲノムの多様性を指す総称として定義されていた」の根拠として引用している論文です。
  • インデル(INDEL)
    ゲノム上の数十塩基程度の挿入(insertion)や欠失(deletion)のことです。deletion insertion polymorphism(DIP)ともよばれます。
  • Ho et al., Nat Rev Genet., 2020
    構造変異に関する総説です。「様々なSV同定用プログラム」は、Table 1にリストアップされています。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。
  • MethodsX
    論文のMethods部分に特化したオープンアクセス雑誌という理解でよいと思います。
  • Chow et al., MethodsX, 2019
    MethodsXに掲載された論文例です。転座の一種である相互転座(reciprocal translocation)の状況を、プログラムを用いてどのように捉えたかという一連の流れがコマンドオプションつきで丁寧に記載されています。
  • 転座(translocation)
    リンク先は「染色体転座」です。染色体の異常な再配列が引き起こされる現象のことです。相互転座(reciprocal translocation)とロバートソン転座(Robertsonian translocation)の2つの主要なタイプが存在します。相互転座は非相同染色体間で一部が交換されることで生じる染色体異常であり、2つの異なる染色体断片が交換されます。ロバートソン転座では、2つの非相同染色体が連結されます。
  • ナノポア(Nanopore)
    文脈によって、「分析対象である1本鎖DNA分子がナノポア内を通過すると、塩基の種類に応じて特徴的な電流の変化(ionic current fluctuation)が観測されるのを利用してロングリードデータを得るシーケンス技術」、「その技術を利用したシーケンサ」、そして「そのメーカー」のことを指します。
  • ロングリード(long read)
    数千~数万塩基程度の長さをもつリードのことです。
  • NanoSVStancu et al., Nat Commun., 2017
    構造変異(structural variation; SV)検出プログラムです。
  • IGVThorvaldsdóttir et al., Brief Bioinform., 2013
    IGVは、Integrative Genomics Viewerの略です。生物種に特化していないゲノム解析分野の代表的な可視化ツール(ビューアまたはブラウザ)です。
  • PubMed
    文献検索サイトです。

2.2 ハプロタイプフェージング

  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 接合性(zygosity)
    生物の形質(生物のもつ性質や特徴のこと)に関するアレル(SNPが観測された塩基またはそれを含む遺伝子)の類似性のことです。アレル間の塩基配列の類似性のことです。
  • ジェノタイピング(genotyping)
    シンプルにいえば「遺伝子型を解析すること」です。ある個体のDNA配列をDNAシーケンシングなどによって識別し、他の個体のDNA配列や基準となるDNA配列と比較することによって、遺伝子型(genotype)の違いを検出する方法のことです。ジェノタイピングにより、ある個体が両親から受け継いだ対立遺伝子(アレル)を明らかにすることができます。
  • ゲノムワイド関連解析(genome-wide association study; GWAS)
    リンク先は「Genome-wide association study」です。ある集団内に存在する個体間の形質と塩基配列の違い(たとえばSNPや遺伝子型)との関連をゲノム全体で調べ,形質と関連する塩基配列の違いを統計的に検出する方法です。
  • 多重比較問題(multiple comparison problem)
    リンク先は「Multiple comparisons problem」です。有意水準を変えずに一度に複数のSNPの検定を行うと、本当は有意ではないSNPsが有意と判定されてしまう問題と理解すればよいです。
  • 倍数性(ploidyまたはpolyploidy)
    生物がゲノムを何セットもつかということです。1倍体またはハプロイド(haploid)、2倍体またはディプロイド(diploid)、3倍体またはトリプロイド(triploid)、倍数体(polyploid)などもこのリンク先です。ヒトの染色体総数を2n = 46と表現することもありますが、このnは単相数(haploid number)のことを指しており、基本数xとは別の概念であるので注意してください。単層数nは「生殖細胞中の染色体数」として定義されます。なお、基本数xは「ゲノム1セットあたりの染色体数」です。
  • 品種改良(breeding)
    栽培植物や家畜などにおいて、より人間に有用な品種を作り出すことです。育種のことです。

2.2.1 ジェノタイピング

  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • 哺乳類(mammal)
    哺乳綱(ほにゅうこう)に属する動物の総称です。
  • 相同染色体(homologous chromosome)
    リンク先は「相同」です。精子や卵子のような生殖細胞(gamete)以外のヒトの体細胞(somatic cell)は、44本の常染色体(1~22番までの染色体)と2本の性染色体(女性は2本のX染色体のペア、男性はX染色体とY染色体のペア)の計46本の染色体をもちます。相同染色体は、性染色体以外の対応する染色体の対のことです。たとえば、母親由来の3番染色体と父親由来の3番染色体は、その2対で相同染色体です。
  • 精子(spermatozoon)
    雄性の生殖細胞の1つです。動物、藻類やコケ植物、シダ植物、一部の裸子植物(イチョウなど)にみられます。
  • 卵子(ovum)
    リンク先は「卵細胞」です。雌性で不動の配偶子です。卵細胞や卵(らん)ともよばれます。
  • 生殖細胞(germ cell)
    生殖において遺伝情報を次世代へ伝える役割をもつ細胞です。胚細胞ともいいます。
  • 体細胞(somatic cell)
    多細胞生物を構成する細胞のうち生殖細胞以外の細胞のことです。
  • 常染色体(autosomal chromosomeまたはautosome)
    性染色体以外の染色体のことであり、ヒトの体細胞は22対、44本の常染色体をもちます。性染色体どの染色体が何番であるかは本来は大きさ順で決められていましたが、一部発見時の誤りがあったため実際の大きさとは必ずしも比例しない場合があります。たとえばヒトの21番染色体は、22番染色体よりも小さいです。
  • 性染色体(sex chromosome)
    雌雄異体の生物で雌雄によって形態や数が異なる染色体、もしくは形態的な差異が見られないが性決定に関与する染色体のことです。染色体構成を常染色体および性染色体を明らかにして示すときは、常染色体の1セットを記号Aで示し、2n=2A+XY, n=A+Yなどと表記します。
  • 相同(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。相同という言葉自体の説明はほとんどなく、「相同性」や「相同である」といったあたりの説明がほとんどです。対義語は相似(外見や機能は似ているが共通の祖先に由来しないこと)です。
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
  • ジェノタイピング(genotyping)
    シンプルにいえば「遺伝子型を解析すること」です。ある個体のDNA配列をDNAシーケンシングなどによって識別し、他の個体のDNA配列や基準となるDNA配列と比較することによって、遺伝子型(genotype)の違いを検出する方法のことです。ジェノタイピングにより、ある個体が両親から受け継いだ対立遺伝子(アレル)を明らかにすることができます。
  • 国際HapMap計画International HapMap Consortium, Nature, 2003
    ヒトゲノムのハプロタイプマップを構築することを目標とした計画です。
  • ハプロタイプフェージングの例
    • ジャガイモ(potato)の論文:Zhou et al., Nat Genet., 2020
    • 蛾(moth)の論文:Yen et al., Gigascience, 2020
      ウッドタイガー(模様が近いので「木のトラ?!」なのですかね)とよばれるErebidae科の蛾(ガ)です。和名は、ヒメキシタヒトリ(Arctia plantaginis)です。
    • 牛(cattle)の論文:Low et al., Nat Commun., 2020
      アンガス牛(Angus)とブラーマン牛(Brahman)の2つの亜種のゲノムをトリオビニング法(trio binning)で高解像度で決定したという論文です。 ここでいうトリオは、「両親とその子孫(offspring)」の3人で1組という意味です。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。

  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 相同染色体(homologous chromosome)
    リンク先は「相同」です。リンク先は「相同」です。精子や卵子のような生殖細胞(gamete)以外のヒトの体細胞(somatic cell)は、44本の常染色体(1~22番までの染色体)と2本の性染色体(女性は2本のX染色体のペア、男性はX染色体とY染色体のペア)の計46本の染色体をもちます。相同染色体は、性染色体以外の対応する染色体の対のことです。たとえば、母親由来の3番染色体と父親由来の3番染色体は、その2対で相同染色体です。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • 対立遺伝子(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
page045
  • アルコール(alcohol)
    炭化水素の水素原子をヒドロキシ基(-OH)で置き換えた物質の総称です。ただし、芳香環の水素原子を置換したものはフェノール類とよばれ、アルコールと区別されます。最初に「アルコール」として認識された物質は、酒に含まれるエタノール(酒精)です。この歴史的経緯により、エタノールもしくは酒を指して「アルコール」と言うことも多いです。
  • 代謝(metabolism)
    生命の維持のために有機体が行う、外界から取り入れた無機物や有機化合物を素材として行う一連の合成や化学反応のことです。
  • アセトアルデヒド(acetaldehyde)
    アルデヒドの一種です。IUPAC命名法では エタナール(ethanal)ともいい、他に酢酸アルデヒド、エチルアルデヒドなどの別名があります。自然界では植物の正常な代謝過程で産生され、特に果実などに多く含まれています。また、人体においてはアルコールの代謝によって生成されて、一般に二日酔いの原因と見なされているほか、たばこの依存性を高めるともいわれ、発がん性があります。
  • アルコール脱水素酵素(ADH)
    リンク先は「アルコールデヒドロゲナーゼ」です。アルコールを酸化してアルデヒドにする反応を触媒する酵素です。アルコール脱水素酵素ともよばれます。人間の場合、少なくとも6種のアイソフォームが存在します。肝臓に多く存在し、エタノールを摂取した時に働きます。
  • 酢酸(acetic acid)
    簡単なカルボン酸の一種です。IUPAC命名法では、酢酸は許容慣用名であり、系統名はエタン酸(ethanoic acid)です。純粋なものは冬に凍結することから氷酢酸(ひょうさくさん)とよばれます。2分子の酢酸が脱水縮合すると別の化合物の無水酢酸となります。食酢(す、ヴィネガー)に含まれる弱酸で、強い酸味と刺激臭をもちます。遊離酸・塩・エステルの形で植物界に広く分布します。酸敗したミルク・チーズのなかにも存在します。
  • アルデヒド脱水素酵素(ALDH2)
    リンク先は「アルデヒドデヒドロゲナーゼ」です。アルデヒドからカルボン酸への酸化反応を触媒する酵素群およびそれをコードする遺伝子群です。生物一般に存在し、基質である有害なアルデヒドを代謝することで多くの生理的機能をもちます。現在までにヒトゲノム中には19個のALDH遺伝子が存在することが知られており、ヒトにおけるALDH遺伝子の欠損はアルコール(エタノール)の摂取によるフラッシング反応や、シェーグレン・ラルソン症候群などの先天性異常を引き起こすこと、様々な疾患のリスクを増減させることが知られています。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。

  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 接合性(zygosity)
    生物の形質(生物のもつ性質や特徴のこと)に関するアレル(SNPが観測された塩基またはそれを含む遺伝子)の類似性のことです。アレル間の塩基配列の類似性のことです。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • 座位
    リンク先は「遺伝子座」です。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。あるアレルの染色体上の位置のことです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • ヘテロ接合(heterozygous)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)の状態のことを指す言葉です。「ヘテロ接合である」とか「ヘテロ接合型」といいます(英語はheterozygousで共通)。そしてヘテロ接合の細胞や個体を「ヘテロ接合体(heterozygote)」といいます。
  • ホモ接合(homozygous)
    リンク先は「ホモ接合型」です。2倍体個体において、相同な染色体ペアの双方のアレルが同じとき、その座位(サイト)の状態のことを指す言葉です。「ホモ接合である」とか「ホモ接合型」といいます(英語はhomozygousで共通)。そしてホモ接合の細胞や個体を「ホモ接合体(homozygote)」といいます。
  • 図2.3a
    遺伝子型と表現型の図です。リファレンス配列と同じ(または多数派に相当する)ほうを野生型アレル(wild-type allele)またはメジャーアレル(major allele)、そうでない(少数派)ほうを変異型アレル(mutant allele)またはマイナーアレル(minor allele)といいます。
  • Maeda et al., Acta Neuropathol Commun., 2020
    野生型アレル(wild-type allele)や変異型アレル(mutant allele)という表現が使われるという例として取り上げた論文です。
  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。
  • ジェノタイピング(genotyping)
    シンプルにいえば「遺伝子型を解析すること」です。ある個体のDNA配列をDNAシーケンシングなどによって識別し、他の個体のDNA配列や基準となるDNA配列と比較することによって、遺伝子型(genotype)の違いを検出する方法のことです。ジェノタイピングにより、ある個体が両親から受け継いだ対立遺伝子(アレル)を明らかにすることができます。
  • Scheben et al., Plant Biotechnol J., 2017
    ジェノタイピングに関する総説です。

  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • dbSNPSayers et al., Nucleic Acids Res., 2021
    ヒトの一塩基変異(single nucleotide variation; SNV)、マイクロサテライト、小規模なインデルなどの情報からなるDBです。
  • rs671
    ヒトリファレンスゲノム(GRCh38.p13というバージョン)において、12番染色体の111,803,962番目に存在するSNV(Single Nucleotide Variation; 一塩基変異)です。アルデヒド脱水素酵素(ALDH2)という遺伝子上にあります。リファレンス上のこの位置はGです。ヨーロッパ(European)やアフリカ(African)のヒトは、Gを持つ割合が0.99以上です。一方、東アジア(East Asian)のヒトはGを持つ割合が0.7821となっていることがここの情報からわかります。
  • ヒトゲノム計画(Human Genome Project)
    ヒトのゲノムの全塩基配列を解析するプロジェクトです。ヒトゲノムの概要版(ドラフトとよばれます)の論文は2001年に(Lander et al., Nature, 2001)、そして完全版は2022年に(Nurk et al., Science, 2022)発表されています。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • GRCh38.p12
    これは2017/12/21にリリースされたヒトのリファレンスゲノムです。2019/02/28にGRCh38.p13が、そして2022/02/03にGRCh38.p14がリリースされています。
  • 図2.3b
    遺伝子型と表現型の図です。(b)は表現型のほうです。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
page046
  • Jiang et al., Oncotarget, 2017
    東アジア(Eastern Asia)の人々について、rs671と胃がん(gastric cancer)との関連を調べた論文です。
  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。
  • 疾患(disease)
    リンク先は「病気」です。疾患は、一般には熱や風邪など生活上の病気には用いられず、伝染病や癌など深刻な病気に用いられ、命に関わるようなニュアンスがあります。
  • 単一遺伝子疾患(single gene disordersまたはmonogenic diseases)
    リンク先は「遺伝子疾患」です。遺伝子の異常が原因になって起きる疾患の総称です。
  • APC遺伝子
    APCはadenomatous polyposis coliの略です。この遺伝子によってコードされるタンパク質は、DP2.5(deleted in polyposis 2.5)としても知られます。APCタンパク質はβ-カテニンの濃度を負に制御する調節因子であり、細胞接着に関与するE-カドヘリンと相互作用します。APC遺伝子の変異は大腸がんにつながる可能性があります。APCはがん抑制遺伝子に分類されます。がん抑制遺伝子は、癌性腫瘍につながる可能性のある、無制御な細胞増殖を防ぎます。APC遺伝子から産生されるタンパク質は、細胞の腫瘍への成長が決定されるいくつかの細胞過程で重要な役割を果たしています。
  • 家族性大腸腺腫症(familial adenomatous polyposis; FAP)
    大腸に100個以上のポリープ(ポリポーシス)が発生する遺伝的な疾患です。家族性大腸ポリポーシス、家族性腺腫性ポリポーシスなどともよばれます。常染色体顕性遺伝(常染色体優性遺伝)の遺伝疾患であり、原因遺伝子はAPC遺伝子であることが判明しています。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • Marees et al., Int J Methods Psychiatr Res., 2018
    表現形質(phenotypic trait)という言葉が使われている論文です。論文の中身には立ち入っていません。

2.2.2 ジェノタイピングと統計

  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • Hidaka et al., Carcinogenesis, 2015
    日本人の胃がん発症の飲酒量との関連について調べた論文です。「罹患群457人と対照群457人」の比較を行っていることがFigure 1の左下あたりの数値からわかります。
  • ADH
    リンク先は「アルコールデヒドロゲナーゼ」です。アルコール代謝関連遺伝子であり、具体的にはアルコール脱水素酵素(アルコールを酸化してアルデヒドにする反応を触媒する酵素)です。肝臓に多く存在し、エタノールを摂取した時に働きます。人間の場合、少なくとも6種のアイソフォームが存在します。Hidaka et al., Carcinogenesis, 2015が調べたのは、そのうちの3つ(ADH1B、ADH1C、ALDH2)です。
  • 胃がん(gastric cancer)
    胃に生じる上皮性悪性腫瘍・癌の総称です。初期の症状には、胸やけ、上腹部の痛み、吐き気、食欲不振などがあります。進行すると、体重減少、嘔吐、嚥下困難、下血などの症状が出現します。がんは胃以外にも広がり、とりわけ肝臓、肺、骨、腹膜、リンパ節などに転移することがあります。
  • 検診(screening)
    リンク先は「がん検診」です。がんの症状がない人々において、存在が知られていないがんを見つけようとする医学的検査(スクリーニング)のことです。がん検診でがんの徴候が見つかった場合、がんの診断を確実なものにするために、より確実性の高い二次検査が行われます。
  • 血液(blood)
    動物の体内を巡る主要な体液で、全身の細胞に栄養分や酸素を運搬し、二酸化炭素や老廃物を運び出すための媒体です。
  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。
  • コホート研究(cohort study)
    分析疫学における手法の1つであり、特定の要因に曝露した集団と曝露していない集団を一定期間追跡し、研究対象となる疾病の発生率を比較することで、要因と疾病発生の関連を調べる観察研究の一種です。要因対照研究(factor-control study)ともよばれます。

  • Hidaka et al., Carcinogenesis, 2015
    Hidaka論文です。「飲酒量(①飲まない、②少し飲む、③多く飲む)と表現型との関連」は、Table 1に示されています。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 分割表(contingency table)
    統計学または日本工業規格において、2つ以上の変数(名義尺度が一般的)の間の関係を記録し分析するためのものです。クロス集計表(cross table)ともよばれます。
  • 図2.4a
    コホート研究によって得られたデータの解析例です。(c)は、RStudioで実行しています。
  • 原著論文(original paper)
    査読を経て受理されれば刊行される一般的な学術論文のことです。この場合は、Hidaka et al., Carcinogenesis, 2015の論文を指します。
  • カイ二乗検定(chi-square test)
    帰無仮説が正しければ検定統計量が漸近的にカイ二乗分布に従うような統計的検定法の総称です。
  • \(p\)値(p-value)
    リンク先は「有意」です。2群間比較の場合は、罹患群と対照群の2つの分布に差がないという帰無仮説が正しいという仮定のもとで、\(p\)値で示された確率で起こる程度の珍しさであると解釈します。実用上は帰無仮説のことをほとんど意識することはなく、シンプルに\(p\)値が1に近いほど現在比較している2群間で差がない、そして0に近いほど差があると解釈します。
  • 帰無仮説(null hypothesis)
    リンク先は「仮説検定」です。統計的仮説検定を行う際に、拠り所として設定する仮説という理解でよいです。この仮説が正しいと仮定したうえで、その仮説に従う母集団から実際に観察された標本が抽出される確率を求めて、その確率が非常に小さければ統計的に有意だと判定します。
  • 仮想データ1や仮想データ2
    図2.4aのうち、中央と右側の分割表のことです。
  • サンプルサイズ
    リンク先は「Sample size determination」です。「罹患群457人と対照群457人」の比較の場合は、サンプルサイズは罹患群と対照群ともに457です。「罹患群62人と対照群98人」の比較の場合は、サンプルサイズは罹患群が62、対照群が98です。
  • 図2.4の作成に用いたRスクリプトファイル
    rcode_fig2.4.Rです。「\(p\)値が限りなく0に近い値(5.6333e-10)になる」ことがわかるコードも含めています。左記目次の付録でも解説しています。

page047
  • 図2.4
    コホート研究によって得られたデータの解析例です。

  • カイ二乗検定(chi-square test)
    帰無仮説が正しければ検定統計量が漸近的にカイ二乗分布に従うような統計的検定法の総称です。
  • \(p\)値(p-value)
    リンク先は「有意」です。2群間比較の場合は、罹患群と対照群の2つの分布に差がないという帰無仮説が正しいという仮定のもとで、\(p\)値で示された確率で起こる程度の珍しさであると解釈します。実用上は帰無仮説のことをほとんど意識することはなく、シンプルに\(p\)値が1に近いほど現在比較している2群間で差がない、そして0に近いほど差があると解釈します。

  • Hidaka et al., Carcinogenesis, 2015
    「ジェノタイピングによって得られた遺伝子型ごとの分布を調べている」は、Table 2に示されています。
  • ジェノタイピング(genotyping)
    シンプルにいえば「遺伝子型を解析すること」です。ある個体のDNA配列をDNAシーケンシングなどによって識別し、他の個体のDNA配列や基準となるDNA配列と比較することによって、遺伝子型(genotype)の違いを検出する方法のことです。ジェノタイピングにより、ある個体が両親から受け継いだ対立遺伝子(アレル)を明らかにすることができます。
  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。
  • AAをもっているヒトの割合が非常に小さい
    これは、rs671の説明のおさらいになりますが、ヒトリファレンスゲノム(GRCh38.p13というバージョン)上のこの位置はGです。ヨーロッパ(European)やアフリカ(African)のヒトは、Gを持つ割合が0.99以上です。一方、東アジア(East Asian)のヒトはGを持つ割合が0.7821となっていることがここの情報からわかります。ある個体が父親由来母親由来ともにリファレンスゲノム上の塩基(G)と異なってAになっている場合をAAとしています。よって、Hidaka論文で調べたときに\((457 + 457 =)914\)人中36名だけがAAだったというのは妥当といえます。
  • 罹患
    病気になること(疾患にかかること)です。
  • 図2.4b
    コホート研究によって得られたデータの解析例です。
  • サンプルサイズ
    リンク先は「Sample size determination」です。「罹患群457人と対照群457人」の比較の場合は、サンプルサイズは罹患群と対照群ともに457です。「罹患群62人と対照群98人」の比較の場合は、サンプルサイズは罹患群が62、対照群が98です。
  • 胃がん(gastric cancer)
    胃に生じる上皮性悪性腫瘍・癌の総称です。初期の症状には、胸やけ、上腹部の痛み、吐き気、食欲不振などがあります。進行すると、体重減少、嘔吐、嚥下困難、下血などの症状が出現します。がんは胃以外にも広がり、とりわけ肝臓、肺、骨、腹膜、リンパ節などに転移することがあります。
  • 相乗効果(synergy)
    ある要素が他の要素と合わさる事によって単体で得られる以上の結果を上げることです。シナジー効果と同じ意味です。
  • ADH
    リンク先は「アルコールデヒドロゲナーゼ」です。アルコール代謝関連遺伝子であり、具体的にはアルコール脱水素酵素(アルコールを酸化してアルデヒドにする反応を触媒する酵素)です。肝臓に多く存在し、エタノールを摂取した時に働きます。人間の場合、少なくとも6種のアイソフォームが存在します。Hidaka et al., Carcinogenesis, 2015が調べたのは、そのうちの3つ(ADH1B、ADH1C、ALDH2)です。
  • 統計解析(statistical analysis)
    この場合は、統計的仮説検定の意味で用いていますが、検定をメインとしたデータ解析全般という捉え方でもよいです。
  • RStudio
    オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語およびその開発実行環境であるRの機能拡張版という理解でよいです。RStudioは、内部的にRを動かしています。
  • 図2.4c
    コホート研究によって得られたデータの解析例です。(c)はデータ解析環境RStudioでの実行例です。
  • カイ二乗検定(chi-square test)
    帰無仮説が正しければ検定統計量が漸近的にカイ二乗分布に従うような統計的検定法の総称です。Rではchisq.testという名前の関数で利用可能です。
  • 数値行列(numerical matrix)
    数字を縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • \(p\)値(p-value)
    リンク先は「有意」です。2群間比較の場合は、罹患群と対照群の2つの分布に差がないという帰無仮説が正しいという仮定のもとで、\(p\)値で示された確率で起こる程度の珍しさであると解釈します。実用上は帰無仮説のことをほとんど意識することはなく、シンプルに\(p\)値が1に近いほど現在比較している2群間で差がない、そして0に近いほど差があると解釈します。
  • スクリーンショット(screenshot)
    コンピュータのモニタもしくはその他の視覚出力デバイス上に表示されたものの全体または一部分を写した画像のことです。スクリーンキャプチャやスクリーンダンプともよばれます。略して、スクショともよばれます。
  • PC
    パーソナルコンピュータ(パソコン)のことです。
page048
  • Phredスコア(phred score)
    「Phredクオリティスコア」と同義です。自動DNAシーケンシング用のプログラムphredに用いられているベースコールのスコアです。式(1.1)の説明部分でもクオリティスコアに言及していますが、直感的にはA・C・G・Tそれぞれのシグナル強度が同程度でわずかながら高い値だったとしてGとコールされた場合は、そのGに付随するphredクオリティスコアは低い値になります。逆に、A・C・Gのシグナル強度が非常に低く、Tのシグナル強度が非常に高かった場合、コールされたTに付随するphredクオリティスコアは高い値になります。

2.2.3 ゲノムワイド関連解析(GWAS)

  • Hidaka et al., Carcinogenesis, 2015
    日本人の胃がん発症の飲酒量との関連について調べた論文です。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 相同染色体(homologous chromosome)
    リンク先は「相同」です。精子や卵子のような生殖細胞(gamete)以外のヒトの体細胞(somatic cell)は、44本の常染色体(1~22番までの染色体)と2本の性染色体(女性は2本のX染色体のペア、男性はX染色体とY染色体のペア)の計46本の染色体をもちます。相同染色体は、性染色体以外の対応する染色体の対のことです。たとえば、母親由来の3番染色体と父親由来の3番染色体は、その2対で相同染色体です。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • ゲノムワイド関連解析(genome-wide association study; GWAS)
    リンク先は「Genome-wide association study」です。ある集団内に存在する個体間の形質と塩基配列の違い(たとえばSNPや遺伝子型)との関連をゲノム全体で調べ,形質と関連する塩基配列の違いを統計的に検出する方法です。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • \(p\)値(p-value)
    リンク先は「有意」です。2群間比較の場合は、罹患群と対照群の2つの分布に差がないという帰無仮説が正しいという仮定のもとで、\(p\)値で示された確率で起こる程度の珍しさであると解釈します。実用上は帰無仮説のことをほとんど意識することはなく、シンプルに\(p\)値が1に近いほど現在比較している2群間で差がない、そして0に近いほど差があると解釈します。
  • Zhao et al., Nat Commun., 2011
    イネ(rice)のGWAS論文です。
  • マンハッタンプロット(Manhattan plot)
    リンク先は「Manhattan plot」です。横軸をゲノム全体(あるいは一部)、そして縦軸を\(-\log(pvalue)\)として注目すべきSNPが大きな値となるように表現したプロットのことです。ニューヨーク市の中心街であるマンハッタンのビル群(Manhattan skyline)をイメージして名付けられたようです。
  • Hammond et al., Elife, 2021
    マンハッタンプロットがある論文例です(Fig. 1)。
  • 多重比較問題(multiple comparison problem)
    リンク先は「Multiple comparisons problem」です。この場合は、有意水準を変えずに一度に複数のSNPの検定を行うと、本当は有意ではないSNPが有意と判定されてしまう問題と理解すればよいです。
  • 有意水準(significance level)
    リンク先は「有意」です。どの程度の正確さをもって帰無仮説(着目する形質の違いとSNPに関連がない)を棄却するかを表す定数(閾値)のことです。通常α(あるふぁ)と略記されます。\(p\)値が有意水準α未満の場合に、帰無仮説を棄却します。
  • 偽陽性(false positives;FPs)
    リンク先は「第一種過誤と第二種過誤」です。本当は着目する形質との関連がないにもかかわらずあるとしてしまう誤りのことです。この「偽陽性」に相当するのが「第一種過誤(Type I error)」です。
  • マンハッタンプロットで縦軸が7.3付近に水平線が引かれている例
    Hammond et al., Elife, 2021Fig. 1では赤い点線が引かれています。
  • genome-wide significance
    GWASでよく用いられる閾値のことであり、\(5×10^{-8}\)です。
  • 閾値(threshold)
    境目となる値のことです。この場合は、「着目する形質の違いと関連している」と判断する境目として設定する値のことです。

  • 例題2.1
    1ページ目が問題、2ページ目以降が解答例です。

2.2.4 ロングリード時代のハプロタイプフェージング

  • 相同染色体(homologous chromosome)
    リンク先は「相同」です。精子や卵子のような生殖細胞(gamete)以外のヒトの体細胞(somatic cell)は、44本の常染色体(1~22番までの染色体)と2本の性染色体(女性は2本のX染色体のペア、男性はX染色体とY染色体のペア)の計46本の染色体をもちます。相同染色体は、性染色体以外の対応する染色体の対のことです。たとえば、母親由来の3番染色体と父親由来の3番染色体は、その2対で相同染色体です。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • ジェノタイピング(genotyping)
    シンプルにいえば「遺伝子型を解析すること」です。ある個体のDNA配列をDNAシーケンシングなどによって識別し、他の個体のDNA配列や基準となるDNA配列と比較することによって、遺伝子型(genotype)の違いを検出する方法のことです。ジェノタイピングにより、ある個体が両親から受け継いだ対立遺伝子(アレル)を明らかにすることができます。
  • リファレンス配列(reference sequence)
    この場合は、マッピング対象のゲノム配列のことです。
  • Nielsen et al., Nat Rev Genet., 2011
    ジェノタイピングなどに関する総説です。「ジェノタイピングがリファレンス配列との比較に基づいていること」は、Having aligned the fragments of one or more individuals to a reference genome, ‘SNP calling’ identifies variable sites, whereas ‘genotype calling’ determines the genotype for each individual at each site.を根拠としています。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • International HapMap Consortium, Nature, 2003
    国際HapMap計画の論文です。「アレルという言葉が個体内と個体間の両方の意味で用いられていること」は、Human DNA sequence variationという節の文章を根拠としています。
  • 解像度(resolution)
    ビットマップ画像における画素の密度を示す数値のことです。画像を表現する格子の細かさを解像度と呼び、一般に1インチをいくつに分けるかという分割数で表します。
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
  • Hidaka et al., Carcinogenesis, 2015
    日本人の胃がん発症の飲酒量との関連について調べた論文です。遺伝子型がAGまたはAAの変異型アレルをもつ個体は、論文中ではALDH2 A allele carriersと表現されています。
  • ALDH2
    リンク先は「アルデヒドデヒドロゲナーゼ」です。アルデヒド脱水素酵素のことです。アルデヒドからカルボン酸への酸化反応を触媒する酵素群およびそれをコードする遺伝子群です。生物一般に存在し、基質である有害なアルデヒドを代謝することで多くの生理的機能をもちます。現在までにヒトゲノム中には19個のALDH遺伝子が存在することが知られており、ヒトにおけるALDH遺伝子の欠損はアルコール(エタノール)の摂取によるフラッシング反応や、シェーグレン・ラルソン症候群などの先天性異常を引き起こすこと、様々な疾患のリスクを増減させることが知られています。
  • rs671
    ヒトリファレンスゲノム(GRCh38.p13というバージョン)において、12番染色体の111,803,962番目に存在するSNV(Single Nucleotide Variation; 一塩基変異)です。アルデヒド脱水素酵素(ALDH2)という遺伝子上にあります。リファレンス上のこの位置はGです。ヨーロッパ(European)やアフリカ(African)のヒトは、Gを持つ割合が0.99以上です。一方、東アジア(East Asian)のヒトはGを持つ割合が0.7821となっていることがここの情報からわかります。

  • ハプロタイプ(haplotype)
    haploid genotype(半数体の遺伝子型)の略です。2倍体生物の場合、ハプロタイプは各遺伝子座位にある対立遺伝子のいずれか一方の組み合わせのことです。この場合は、「どちらか一方の親由来のゲノム配列」のことです。限定的な意味としては、「同一染色体上で統計学的に見て関連のある、つまり遺伝的に連鎖している多型(SNPなど)の組み合わせ」のことも指します。このような組み合わせがわかれば、ある範囲内について、少数の対立遺伝子を同定することで他の多型座位も決めることができるからです。このような情報を収集したのが、国際HapMap計画です。この2種類のハプロタイプの意味についてはこの段落で述べています。後者のほうは、本文中では「SNPsとして観測された同一染色体上のアレルの並びのこと」だと述べています。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
page049
  • Kang et al., Am J Hum Genet., 2004
    “haplotype phasing”という言葉が最初に出現した論文だと思われます。
  • NGS
    次世代シーケンシング(next-generation sequencing)技術のことです。この場合は、安価に大量の配列データを得ることができないような時代背景でしたという意味で用いています。ショートリードが本格的に広まり始めたのは2008年頃です。
  • 1000 Genomes Project Consortium, Nature, 2012
    1,000人ゲノムプロジェクト論文です。実際には14の民族からなる1,092人の個体差を調べています。
  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • 国際HapMap計画International HapMap Consortium, Nature, 2003
    両親とその子孫(offspring)という3人1組のトリオ(trio)を60組(60組×3人 = 180人)、そして血縁関係のない89人を加えた合計269人に対して、数百万SNPsのジェノタイピングを行っています。
  • トリオ(trio)
    この場合は、「両親とその子孫(offspring)」の3人で1組という意味です。
  • 血縁(blood relative)
    共通の祖先を有している関係、あるいは有しているものと信じられている関係のことです。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • 減数分裂(meiosis)
    真核生物の細胞分裂の様式の1つです。動物では配偶子(コケ・シダ類などでは胞子)を形成する際に行われ、生じた娘細胞では染色体数が分裂前の細胞の半分になります。
  • 相同染色体(homologous chromosome)
    リンク先は「相同」です。精子や卵子のような生殖細胞(gamete)以外のヒトの体細胞(somatic cell)は、44本の常染色体(1~22番までの染色体)と2本の性染色体(女性は2本のX染色体のペア、男性はX染色体とY染色体のペア)の計46本の染色体をもちます。相同染色体は、性染色体以外の対応する染色体の対のことです。たとえば、母親由来の3番染色体と父親由来の3番染色体は、その2対で相同染色体です。
  • フェージングあるいは相化
    アレルの並びを明らかにすることです。
  • Browning and Browning, Nat Rev Genet., 2011
    ハプロタイプフェージングの総説です。

  • ジェノタイピング(genotyping)
    シンプルにいえば「遺伝子型を解析すること」です。ある個体のDNA配列をDNAシーケンシングなどによって識別し、他の個体のDNA配列や基準となるDNA配列と比較することによって、遺伝子型(genotype)の違いを検出する方法のことです。ジェノタイピングにより、ある個体が両親から受け継いだ対立遺伝子(アレル)を明らかにすることができます。
  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • ハプロタイプ(haplotype)
    haploid genotype(半数体の遺伝子型)の略です。2倍体生物の場合、ハプロタイプは各遺伝子座位にある対立遺伝子のいずれか一方の組み合わせのことです。「どちらか一方の親由来のゲノム配列」または「SNPsとして観測された同一染色体上のアレルの並びのこと」です。
  • トリオ(trio)
    この場合は、「両親とその子孫(offspring)」の3人で1組という意味です。
  • ALDH2
    リンク先は「アルデヒドデヒドロゲナーゼ」です。アルデヒド脱水素酵素のことです。アルデヒドからカルボン酸への酸化反応を触媒する酵素群およびそれをコードする遺伝子群です。生物一般に存在し、基質である有害なアルデヒドを代謝することで多くの生理的機能をもちます。現在までにヒトゲノム中には19個のALDH遺伝子が存在することが知られており、ヒトにおけるALDH遺伝子の欠損はアルコール(エタノール)の摂取によるフラッシング反応や、シェーグレン・ラルソン症候群などの先天性異常を引き起こすこと、様々な疾患のリスクを増減させることが知られています。
  • rs671
    ヒトリファレンスゲノム(GRCh38.p13というバージョン)において、12番染色体の111,803,962番目に存在するSNV(Single Nucleotide Variation; 一塩基変異)です。アルデヒド脱水素酵素(ALDH2)という遺伝子上にあります。リファレンス上のこの位置はGです。ヨーロッパ(European)やアフリカ(African)のヒトは、Gを持つ割合が0.99以上です。一方、東アジア(East Asian)のヒトはGを持つ割合が0.7821となっていることがここの情報からわかります。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • リファレンス配列(reference sequence)
    リンク先は「Reference genome」です。この場合は、GRCh38.p13のようなヒトのリファレンスゲノムのことです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • 野生型アレル(wild-type allele)
    リファレンス配列と同じ(または多数派に相当する)アレルのことです。メジャーアレル(major allele)ともいいます。
  • 変異型アレル(mutant allele)
    リファレンス配列と異なる(または少数派に相当する)アレルのことです。マイナーアレル(minor allele)ともいいます。
  • バイナリ(binary)
    二進法のことです。1か0かということです。
  • ロングリード(long read)
    数千~数万塩基程度の長さをもつリードのことです。
  • ハプロタイプの相
    ハプロタイプの並びのことです。
  • 国際HapMap計画International HapMap Consortium, Nature, 2003
    ヒトゲノムのハプロタイプマップを構築することを目標とした計画です。
  • Clarkアルゴリズム:Clark AG., Mol Biol Evol., 1990
    ハプロタイプを推定(inference)するアルゴリズムです。
  • 最尤推定法(method of maximum likelihood)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法です。最尤法は、最尤推定法の略です。EMアルゴリズム(Expectation-Maximization algorithm)は、確率モデルのパラメータを最尤推定する手法の1つであり、観測不可能な潜在変数に確率モデルが依存する場合に用いられます。
  • 遺伝統計学分野の記事

  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • \(p\)値(p-value)
    リンク先は「有意」です。2群間比較の場合は、罹患群と対照群の2つの分布に差がないという帰無仮説が正しいという仮定のもとで、\(p\)値で示された確率で起こる程度の珍しさであると解釈します。実用上は帰無仮説のことをほとんど意識することはなく、シンプルに\(p\)値が1に近いほど現在比較している2群間で差がない、そして0に近いほど差があると解釈します。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • 相同組換え(homologous recombination)
    遺伝的組換えの一種であり、2つの類似または同一の核酸分子(生物では通常DNAですが、ウイルスではRNAの場合もあるので、ここでは核酸分子と表現しています)の間でヌクレオチド配列が交換される過程のことです。相同組換えは、DNA2本鎖の双方の鎖に起こった有害な切断(2本鎖切断)を正確に修復するために細胞で最も広く利用されている手法です。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 表現形質(phenotypic trait)
    表現型と形質を組み合わせた表現です。この場合は、表現型と同じ意味で使っています。Marees et al., Int J Methods Psychiatr Res., 2018で使われています。
  • ハプロタイプ(haplotype)
    haploid genotype(半数体の遺伝子型)の略です。2倍体生物の場合、ハプロタイプは各遺伝子座位にある対立遺伝子のいずれか一方の組み合わせのことです。「どちらか一方の親由来のゲノム配列」または「SNPsとして観測された同一染色体上のアレルの並びのこと」です。
  • genome-wide significance
    GWASでよく用いられる閾値のことであり、5×10-8です。
  • 閾値(threshold)
    境目となる値のことです。この場合は、有意水準(significance level)に置き換えても問題ありません。どの程度の正確さをもって帰無仮説(着目する形質の違いとSNPに関連がない)を棄却するかを表す定数(閾値)のことです。通常α(あるふぁ)と略記されます。\(p\)値が有意水準α未満の場合に、帰無仮説を棄却します。
  • Hammond et al., Elife, 2021
    マンハッタンプロットがある論文例でも紹介したものです。「genome-wide significanceの閾値は満たさないものの、ある程度\(p\)値が低い”suggestive” SNPに関する議論」は、この論文のタイトル中のsuggestive significance thresholdsという言葉からも見当がつくと思います。
  • ロングリード(long read)
    数千~数万塩基程度の長さをもつリードのことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
page050
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
  • GWAS
    リンク先は「Genome-wide association study」です。ゲノムワイド関連解析(genome-wide association study)の略です。ある集団内に存在する個体間の形質と塩基配列の違い(たとえばSNPや遺伝子型)との関連をゲノム全体で調べ,形質と関連する塩基配列の違いを統計的に検出する方法です。

  • ロングリード(long read)
    数千~数万塩基程度の長さをもつリードのことです。
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
  • Browning and Browning, Nat Rev Genet., 2011
    ハプロタイプフェージングの総説です。ロングリード普及前のハプロタイプフェージングの全体像は、この総説でほぼ把握できます。
  • デノボアセンブリ(de novo assembly)
    リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • マッピング(mapping)
    リードデータがゲノム配列上のどこに由来するかを調べる作業のことですが、実質的にはアラインメントと同じです。
  • Zhang et al., Comput Struct Biotechnol J., 2019
    ハプロタイプフェージングの総説です。「ロングリードのデノボアセンブリに基づく戦略と、リファレンスゲノムへのマッピングに基づく戦略のどちらかで行われる」は、Abstract中のwe review existing methods for alignment-based and assembly-based haplotype phasing for heterozygous diploid and polyploid genomes,…を根拠としています。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • 1倍体(haploid)
    リンク先は「倍数性」です。ハプロイドと同じ意味です。有性生殖をする動物の多くは、両親から配偶子を通してそれぞれ1セットのゲノムを受け取り、計2セットのゲノムを持つ2倍体(ヒトは2n = 46)です。倍数性については本文中でも後述しています。
  • 生殖細胞(germ cell)
    生殖において遺伝情報を次世代へ伝える役割をもつ細胞です。胚細胞ともいいます。
  • 配偶子(gamete)
    生物の生殖細胞のうち、接合して新しい個体を作るもののことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • Campoy et al., Genome Biol., 2020
    アンズのハプロタイプフェージング論文です。
  • アンズ(杏子またはアプリコット)
    バラ科サクラ属の落葉小高木です。アプリコットと英名でよばれることもあります。
  • 花粉(pollen)
    種子植物門の植物の花の雄しべから出る粉状の細胞です。雄しべの先端にある葯(やく)という袋の中で形成されます。花粉は、雄しべの葯から出て雌しべの柱頭に付くまでの間の粉状のものの抽象的な呼び名です。花粉は基本的に多細胞体です。

2.2.5 倍数性と品種改良

  • バイオインフォ(bioinfo)
    バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 前提条件(prerequisiteまたはprecondition)
    ある物事が成り立つためにあらかじめ満たされていなければならない条件のことです。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • 1倍体(haploid)
    リンク先は「倍数性」です。ハプロイドと同じ意味です。有性生殖をする動物の多くは、両親から配偶子を通してそれぞれ1セットのゲノムを受け取り、計2セットのゲノムを持つ2倍体(ヒトは2n = 46)です。倍数性については本文中でも後述しています。
  • 2倍体(diploid)
    リンク先は「倍数性」です。生物がゲノムを何セットもつかという概念を倍数性といい、2セットもつ生物を2倍体またはディプロイドといいます。ゲノム1セットあたりの染色体数(基本数)はxで表され、ヒトの場合はx = 23となります。ヒトを含むは2倍体は、2xとして表すことができます。
  • 魚類(fish)
    脊椎動物亜門 Vertebrataから四肢動物を除外した動物群のことです。日常語で魚(さかな)とよばれる動物のことです。
  • 穀類(cereal)
    リンク先は「穀物」です。植物から得られる食材の総称の1つで、澱粉質(でんぷんしつ)を主体とする種子を食用とするものです。狭義にはイネ科作物の種子(米や麦など)のみを指し、広義にはこれにマメ科作物の種子(豆)や他科の作物の種子を含みます。この場合は、本文中でのちにジャガイモを例に話を展開していることからも想像できますが、後者の意味で用いています。穀類は世界各地で農作物として大規模に栽培され、主食として利用されています。
  • 品種改良(breeding)
    栽培植物や家畜などにおいて、より人間に有用な品種を作り出すことです。育種のことです。

  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • 基本数(monoploid number)
    リンク先は「倍数性」です。ゲノム1セットあたりの染色体数のことを指します。ユニークな染色体数という理解でもよいです。x=23のように表現します。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • マウス(mouse)
    リンク先は「ハツカネズミ」です。ネズミ目(齧歯目)ネズミ科 ハツカネズミ属の1種です。学名はMus musculusです。
  • イヌ(dog)
    ネコ目(食肉目)イヌ科イヌ属に分類される哺乳類の一種です。
  • ジャガイモ(potato)
    ナス科ナス属の多年草の植物。南アメリカのアンデス山脈原産。世界中で栽培され、デンプンが多く蓄えられる地下茎が芋の一種として食用されます。芋から発芽した芽や皮などには、ソラニンという有害物質が含まれています。
  • 体細胞(somatic cell)
    多細胞生物を構成する細胞のうち生殖細胞以外の細胞のことです。
  • 生殖細胞(germ cell)
    生殖において遺伝情報を次世代へ伝える役割をもつ細胞です。胚細胞ともいいます。
  • 減数分裂(meiosis)
    真核生物の細胞分裂の様式の1つです。動物では配偶子(コケ・シダ類などでは胞子)を形成する際に行われ、生じた娘細胞では染色体数が分裂前の細胞の半分になります。
  • 栽培品種(cultivar)
    一般的には望ましい性質を選抜した増殖可能な植物の集合です。選択・交雑・突然変異等により人為的(育種、品種改良)あるいは自然に生じ、他の栽培品種や原種と識別される特性を安定して有し、かつ、その特性を保持したまま殖やすことができます。遺伝的に均一か否かは問いません。栽培品種は主に農業・園芸の分野で古くから利用され、園芸分野においては園芸品種の語が使われることがあります。また、誤解の恐れがなければ単に品種と表記されることも多いです。
  • Potato Genome Sequencing Consortium, Nature, 2011
    塊茎作物(tuber crop)であるジャガイモ(potato)のゲノム配列決定論文です。

  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 倍数性(ploidyまたはpolyploidy)
    生物がゲノムを何セットもつかということです。1倍体またはハプロイド(haploid)、2倍体またはディプロイド(diploid)、3倍体またはトリプロイド(triploid)、倍数体(polyploid)などもこのリンク先です。ヒトの染色体総数を2n = 46と表現することもありますが、このnは単相数(haploid number)のことを指しており、基本数xとは別の概念であるので注意してください。単層数nは「生殖細胞中の染色体数」として定義されます。なお、基本数xは「ゲノム1セットあたりの染色体数」です。
  • 1倍体(haploid)
    リンク先は「倍数性」です。ハプロイドと同じ意味です。有性生殖をする動物の多くは、両親から配偶子を通してそれぞれ1セットのゲノムを受け取り、計2セットのゲノムを持つ2倍体(ヒトは2n = 46)です。倍数性については本文中でも後述しています。
  • 2倍体(diploid)
    リンク先は「倍数性」です。生物がゲノムを何セットもつかという概念を倍数性といい、2セットもつ生物を2倍体またはディプロイドといいます。ゲノム1セットあたりの染色体数(基本数)はxで表され、ヒトの場合はx = 23となります。ヒトを含むは2倍体は、2xとして表すことができます。
  • 倍数体(polyploid)
    ゲノムを2セット以上もつ生物のことです。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • 単相数(haploid number)
    生殖細胞中の染色体数のことです。
  • 基本数(monoploid number)
    リンク先は「倍数性」です。ゲノム1セットあたりの染色体数のことを指します。ユニークな染色体数という理解でもよいです。x=23のように表現します。
  • 生殖細胞(germ cell)
    生殖において遺伝情報を次世代へ伝える役割をもつ細胞です。胚細胞ともいいます。
  • ジャガイモ(potato)
    ナス科ナス属の多年草の植物。南アメリカのアンデス山脈原産。世界中で栽培され、デンプンが多く蓄えられる地下茎が芋の一種として食用されます。芋から発芽した芽や皮などには、ソラニンという有害物質が含まれています。
page051
  • ジャガイモ(potato)
    ナス科ナス属の多年草の植物。南アメリカのアンデス山脈原産。世界中で栽培され、デンプンが多く蓄えられる地下茎が芋の一種として食用されます。芋から発芽した芽や皮などには、ソラニンという有害物質が含まれています。
  • 配偶子(gamete)
    生物の生殖細胞のうち、接合して新しい個体を作るもののことです。
  • Potato Genome Sequencing Consortium, Nature, 2011
    塊茎作物(tuber crop)であるジャガイモ(potato)のゲノム配列決定論文です。4倍体のジャガイモの場合は2n = 4x = 48、2倍体のジャガイモの場合は2n = 2x = 24、配偶子(1倍体または半数体)の状態では1n = 1x = 12と表現されています。

  • 倍数性(ploidyまたはpolyploidy)
    生物がゲノムを何セットもつかということです。1倍体またはハプロイド(haploid)、2倍体またはディプロイド(diploid)、3倍体またはトリプロイド(triploid)、倍数体(polyploid)などもこのリンク先です。ヒトの染色体総数を2n = 46と表現することもありますが、このnは単相数(haploid number)のことを指しており、基本数xとは別の概念であるので注意してください。単層数nは「生殖細胞中の染色体数」として定義されます。なお、基本数xは「ゲノム1セットあたりの染色体数」です。
  • 品種改良(breeding)
    栽培植物や家畜などにおいて、より人間に有用な品種を作り出すことです。育種のことです。
  • 植物(plant)
    草や木などのように、根があって場所が固定されて生きているような生物のことです。対義語は動物です。
  • 種なしスイカ
    多くの種子を含むスイカの果実が種子を生成しないように処理されてできたスイカのことです。スイカは本来2倍体です(2n = 2x = 22; Guo et al., Nat Genet., 2013)。2倍体スイカを発芽後にコルヒチン処理し、倍加させ4倍体にします。4倍体の雌しべに2倍体の花粉を授粉させ、3倍体の種子を作ります。この3倍体を育て結実させると、種子が正常に発育しないため、種子のないスイカができます。
  • 種子(seed)
    種子植物で有性生殖によって形成される散布体です。一般には、単に種(たね)とよばれることが多いです。種子は親植物の組織起源の種皮(しゅひ)という皮に包まれ、その中には受精卵から発育した幼い植物体、すなわち胚が入っています。種子はめしべにある胚珠(はいしゅ)から発達します。
  • 養殖(aquaculture)
    リンク先は「養殖業」です。魚介類や海藻などの水棲生物を人為的に繁殖させることです。
  • 長野県水産試験場
  • 生殖(reproduction)
    生物が自らと同じ種に属する個体をつくることです。
  • 交雑(crossbreed)
    生物学においては、異なる種や異なる亜種の関係にある動物・植物を特に人工的に組み合わせて交配させ、繁殖し雑種を作ることです。異種交配ともいいます。
  • 傳田郁夫, バイオサイエンスとインダストリー, 65: 596-599, 2007
    信州サーモンについて述べた記事です。

2.3 多様なゲノム情報の可視化、格納、そして利用

  • リファレンスゲノム配列
    研究対象生物種を代表する基準となるゲノム配列のことです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • グラフ構造(graph structure)
    リンク先は「グラフ (データ構造)」です。ノード(頂点・節点・点; node)群とノード間の連結関係を表すエッジ(枝・辺・線; edge)群で構成される構造のことです。
  • ゲノムグラフ(genome graph)
    多様なゲノム情報をグラフ構造で格納するものです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。

2.3.1 ゲノム情報の可視化(ゲノムブラウザ)

  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 多様性(diversity)
    幅広く性質の異なる群が存在することです。性質に類似性のある群が形成される点が特徴で、単純に「いろいろある」こととは異なります。
  • NCBISayers et al., Nucleic Acids Res., 2021
    バイオテクノロジーや分子生物学に関連する一連のデータベースの構築および運営、そして研究に用いられるソフトウェアの開発を行っており、バイオインフォマティクスにおける重要なリソースとなっています。GenBankPubMeddbSNPなど、生命科学分野の主要なリソースを提供する大元締め的なところです。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • SV
    リンク先は「Structural variation」です。構造変異(structural variation)のことです。染色体レベルの構造の変異(多様性)のことです。染色体再構成(Chromosomal Rearrangement)とほとんど意味は同じで、挿入(insertion)や欠失(deletion)、重複(duplication)、コピー数変異(Copy Number Variation; CNV)、逆位(inversion)、転座(translocation)など様々なものの総称という理解でよいです。
  • dbSNPSayers et al., Nucleic Acids Res., 2021
    ヒトの一塩基変異(single nucleotide variation; SNV)、マイクロサテライト、小規模なインデルなどの情報からなるDBです。SNPのような比較的規模の小さな(≦ 50 bp)構造変異(structural variation; SV)の情報が収められています。
  • dbVARSayers et al., Nucleic Acids Res., 2021
    比較的規模の大きな(> 50 bp)SVの情報が収められています。
  • Variation ViewerSayers et al., Nucleic Acids Res., 2021
    ヒト用の可視化ツール(ビューアまたはブラウザ)です。
  • Variant ViewerSheppard et al., Nucleic Acids Res., 2016
    酵母用の可視化ツール(ビューアまたはブラウザ)です。
  • Rice Pan-Genome Browser(RPAN)Sun et al., Nucleic Acids Res., 2017
    コメ用の可視化ツール(ビューアまたはブラウザ)です。

  • IGVThorvaldsdóttir et al., Brief Bioinform., 2013
    IGVは、Integrative Genomics Viewerの略です。生物種に特化していないゲノム解析分野の代表的な可視化ツール(ビューアまたはブラウザ)です。
  • ゲノムブラウザ
    一般に、カリフォルニア大学サンタクルーズ校(University of California at Santa Cruz; UCSC)が提供するUCSC Genome Browserや、Ensemblが提供するEnsembl genome browserのことを指します。
  • PC
    パーソナルコンピュータ(パソコン)のことです。
  • FASTA形式(FASTA format)
    リンク先は「FASTA format」です。シーケンスデータの代表的な記述形式です。1つのシーケンスのデータは、“>”で始まる1行のヘッダ行と、2行目以降の実際のシーケンス文字列で構成されます。複数の遺伝子配列情報が1つのファイルに格納されているのでmulti-FASTAとよばれることもあります。しかし、今の時代は1つの配列情報のみからなるsingle-FASTAファイルとして取り扱う局面のほうがむしろ稀であるため、事実上同一視して差し支えありません。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • アノテーション(annotation)
    この場合は、塩基配列に対して生物学的意味を注釈付けすることです。
  • NCBISayers et al., Nucleic Acids Res., 2021
    バイオテクノロジーや分子生物学に関連する一連のデータベースの構築および運営、そして研究に用いられるソフトウェアの開発を行っており、バイオインフォマティクスにおける重要なリソースとなっています。GenBankPubMeddbSNPなど、生命科学分野の主要なリソースを提供する大元締め的なところです。
  • UCSC Genome Browser
    カリフォルニア大学サンタクルーズ校(University of California at Santa Cruz; UCSC)提供のゲノムブラウザです。
  • Genome Data Viewer(GDV)Sayers et al., Nucleic Acids Res., 2021
    NCBI提供です。旧バージョンはMap Viewerです。
  • 真核生物(eukaryote)
    動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
  • Database of Genomic Variants(DGV)MacDonald et al., Nucleic Acids Res., 2014
  • がん(cancer)
    リンク先は「悪性腫瘍」です。生体内の自律的な制御を受けずに勝手に増殖を行うようになった細胞集団、つまり腫瘍の中でも、特に周囲の組織に浸潤し、または転移を起こす腫瘍のことです。がん(ガンまたは癌)ともよばれ、死亡につながることも多いです。
  • 個体(individual)
    この場合は、患者という理解でよいです。
  • International Cancer Genome Consortium (ICGC)ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium, Nature, 2020
    全ゲノム横断的がん解析プロジェクトの論文です。
  • SV
    リンク先は「Structural variation」です。構造変異(structural variation)のことです。染色体レベルの構造の変異(多様性)のことです。染色体再構成(Chromosomal Rearrangement)とほとんど意味は同じで、挿入(insertion)や欠失(deletion)、重複(duplication)、コピー数変異(Copy Number Variation; CNV)、逆位(inversion)、転座(translocation)など様々なものの総称という理解でよいです。
  • Lee et al., Nucleic Acids Res., 2020
    UCSC Genome Browserの論文です。
  • Variation ViewerSayers et al., Nucleic Acids Res., 2021
    ヒト用の可視化ツール(ビューアまたはブラウザ)です。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • 坊農秀雅, Dr. Bonoの生命科学データ解析第2版, 2021
page052

2.3.2 ゲノム情報の格納(FASTA形式)とアラインメント

  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • GRCh38
    これは2013/12/17にリリースされた古いバージョンのヒトゲノム情報です。2019/02/28にGRCh38.p13が、そして2022/02/03にGRCh38.p14がリリースされています。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • 選択的配列(alternative sequence)
    この場合は、ヒトのリファレンスゲノムの一続きの配列の中には含めづらいが、確かにマイナーとはいえヒトのゲノム配列の一部として存在するもの、という理解でよいです。選択的配列という表現はあまり一般的ではないと思います。
  • Sherman and Salzberg, Nat Rev Genet., 2020
    パンゲノム解析の総説です。「alternate(代替)またはalternative sequence(選択的配列)のように表現される」は、Inclusion of alternate sequences.という節を根拠としています。
  • alt
    選択的配列(alternative sequence)のことです。この場合は、ヒトのリファレンスゲノムの一続きの配列の中には含めづらいが、確かにマイナーとはいえヒトのゲノム配列の一部として存在するもの、という理解でよいです。
  • GRCh38.p13
    これは2019/02/28にリリースされたヒトゲノム情報です。639配列から構成されますが、そのうち261個が選択的配列です (正確にはFASTA形式ファイルのdescription行に”alt”という文字列を含んでいます)。
  • アラインメントプログラム(aligner)
    リンク先は「シーケンスアラインメント」です。この場合は、手元の塩基配列(またはアミノ酸配列)をクエリ(アラインメントする側)として、ヒトリファレンスゲノム配列(アラインメントされる側)上の類似した領域を特定できるように並べるプログラムのことです。

  • aligner
    リンク先は「シーケンスアラインメント」です。アラインメントプログラム(alignment program)のことです。この場合は、手元の塩基配列(またはアミノ酸配列)をクエリ(アラインメントする側)として、ヒトリファレンスゲノム配列(アラインメントされる側)上の類似した領域を特定できるように並べるプログラムのことです。
  • 選択的配列(alternative sequence)
    この場合は、ヒトのリファレンスゲノムの一続きの配列の中には含めづらいが、確かにマイナーとはいえヒトのゲノム配列の一部として存在するもの、という理解でよいです。選択的配列という表現はあまり一般的ではないと思います。
  • リファレンス配列(reference sequence)
    リンク先は「Reference genome」です。この場合は、GRCh38.p13のようなヒトのリファレンスゲノムのことです。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • SV
    リンク先は「Structural variation」です。構造変異(structural variation)のことです。染色体レベルの構造の変異(多様性)のことです。染色体再構成(Chromosomal Rearrangement)とほとんど意味は同じで、挿入(insertion)や欠失(deletion)、重複(duplication)、コピー数変異(Copy Number Variation; CNV)、逆位(inversion)、転座(translocation)など様々なものの総称という理解でよいです。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • 図2.5a
    多様なゲノム配列の保持戦略の図です。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
  • マッピング(mapping)
    リードデータがゲノム配列上のどこに由来するかを調べる作業のことですが、実質的にはアラインメントと同じです。
  • 変異箇所を含むリード
    この場合はリファレンスゲノム配列と~数%程度の程度の違いや、インデル(INDEL)を含むリードという理解でよいです。
  • リピート(repeat)
    リンク先は「反復配列」です。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。
  • 変異解析(variant analysis)
    SNPインデル(INDEL)のような、リファレンスゲノム配列と比較して一部が異なっているような箇所を見つける解析だという理解でよいです。
  • bwaLi and Durbin, Bioinformatics, 2009
    変異解析分野でよく利用されているalignerです。なお、このプログラム自体はNGS黎明期に開発されたものですが、現在でも継続的にアップデートがなされています。Bwaの”alt-aware”モードというよりは、BWA-MEM(Li, H., Bioinformatics, 2014)という独立した名前のほうがよく知られているかもしれません。
page053

2.3.3 ゲノム情報の格納(グラフ形式)とアラインメント

  • FASTA形式ファイル
    リンク先は「FASTA format」です。複数の遺伝子配列情報が1つのファイルに格納されているのでmulti-FASTAとよばれることもありますが、今の時代は1つの配列情報のみからなるsingle-FASTAファイルとして取り扱う局面のほうがむしろ稀であるため、事実上同一視して差し支えありません。
  • リファレンス(reference)
    リンク先は「Reference genome」です。この場合は、リファレンスゲノム配列のことです。ある生物種を代表する基準となるゲノム配列のことです。
  • 選択的配列(alternative sequence)
    この場合は、ヒトのリファレンスゲノムの一続きの配列の中には含めづらいが、確かにマイナーとはいえヒトのゲノム配列の一部として存在するもの、という理解でよいです。選択的配列という表現はあまり一般的ではないと思います。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • ゲノムグラフ(genome graph)
    多様なゲノム情報をグラフ構造で格納するものです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • グラフ構造(graph structure)
    リンク先は「グラフ (データ構造)」です。ノード(頂点・節点・点; node)群とノード間の連結関係を表すエッジ(枝・辺・線; edge)群で構成される構造のことです。この場合は、図2.5bのような構造のことです。
  • グラフ表示戦略(graphical representation strategy)
    リンク先は「グラフ理論」です。この場合は、頂点(node)の集合と辺(edge)の集合で構成されるグラフ構造で、メインのリファレンスゲノム配列と、サブの選択的配列を表現する戦略のことです。
  • Paten et al., Genome Res., 2017
    ゲノムグラフの総説です。ゲノムグラフ(genome graph)という概念は、多様なゲノム情報をグラフ構造で格納するものであり、近年主流になりつつあるグラフ表示(graphical representation)戦略です。
  • パス(pass)
    この場合は、頂点(node)に相当する各塩基を、それを結ぶ辺(edge)をなぞっていった軌跡という理解でよいです。
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
  • インデル(INDEL)
    ゲノム上の数十塩基程度の挿入(insertion)や欠失(deletion)のことです。deletion insertion polymorphism(DIP)ともよばれます。
  • 多様性(diversity)
    幅広く性質の異なる群が存在することです。性質に類似性のある群が形成される点が特徴で、単純に「いろいろある」こととは異なります。

  • 図2.5
    多様なゲノム配列の保持戦略の図です。
  • 概念図(conceptual diagram)
    物事を理解しやすいように描いた簡便な図のことです。
  • Paten et al., Genome Res., 2017
    ゲノムグラフの総説です。以下の4つのゲノムグラフの具体的なイメージとしては、Figure 2が参考になると思います。
    • de Bruijnグラフ(de Bruijn graph; DBG)
    • 有向非巡回グラフ(directed acyclic graph; DAG)
    • 双方向グラフ(bidirected graph)。配列グラフ(sequence graph)ともよばれます。
    • biedgedグラフ。biedged配列グラフともよばれます。
  • パス(pass)
    この場合は、頂点(node)に相当する各塩基を、それを結ぶ辺(edge)をなぞっていった軌跡という理解でよいです。
  • グラフ構造(graph structure)
    リンク先は「グラフ (データ構造)」です。この場合は、リード中の各k-merを頂点(node)、そして頂点間をその方向性にしたがって向きのある辺(edge)で結んだ構造のことです。この場合は、図2.5b-dのような構造のことです。
  • Sherman and Salzberg, Nat Rev Genet., 2020
    パンゲノム解析の総説です。「パスごとに色分けしたグラフ(colored graph」については、この論文中のFigure 2cの説明文周辺に長所短所が述べられています。色という付加的な情報をグラフに与えることで、(多様性の数だけ色の数が必要になるという副作用をもつものの)グラフ構造の肥大化を抑えることができます。
  • CortexIqbal et al., Nat Genet., 2012
    パンゲノムを色付きのDBG(colored DBG; C-DBG)として保持するためのデータ構造例です。
  • Bloom Filter Trie(BFT)Holley et al., Algorithms Mol Biol., 2016
    パンゲノムを色付きのDBG(colored DBG; C-DBG)として保持するためのデータ構造例です。BFTは、ブルームフィルタトライ木(Bloom Filter Trie)の略です。ブルームフィルタ(Bloom Filter)が参考になると思います。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • ゲノムグラフ(genome graph)
    多様なゲノム情報をグラフ構造で格納するものです。
  • グラフ理論(graph theory)
    頂点(node)の集合と辺(edge)の集合で構成されるグラフに関する数学の理論のことです。頂点(node)と辺(edge)もこのリンク先です。頂点はノード、辺はエッジとも表現されます。たとえば駅の路線図の場合は、駅が頂点、路線が辺としてグラフで表すことができます。このように、「つながり方」に着目して抽象化された「点とそれらをむすぶ線」の概念がグラフであり、グラフがもつ様々な性質を探求するのがグラフ理論です。
  • Břinda et al., Genome Biol., 2021
    de Bruijn graphs (DBG)ベースのパンゲノムグラフを効率的に計算するためのアルゴリズムProphAsmに関する論文です。

  • aligner
    リンク先は「シーケンスアラインメント」です。アラインメントプログラム(alignment program)のことです。この場合は、手元の塩基配列(またはアミノ酸配列)をクエリ(アラインメントする側)として、ヒトリファレンスゲノム配列(アラインメントされる側)上の類似した領域を特定できるように並べるプログラムのことです。
  • マップ(map)
    マッピングのことです。
  • ゲノムグラフ(genome graph)
    多様なゲノム情報をグラフ構造で格納するものです。「ゲノムグラフ化」というのは、マップされる側のリファレンス配列が図2.5のb-dのような形式になること、という理解でよいです。
  • bwaLi and Durbin, Bioinformatics, 2009
    変異解析分野でよく利用されているalignerです。なお、このプログラム自体はNGS黎明期に開発されたものですが、現在でも継続的にアップデートがなされています。Bwaの”alt-aware”モードというよりは、BWA-MEM(Li, H., Bioinformatics, 2014)という独立した名前のほうがよく知られているかもしれません。
  • 従来型aligner
    図2.5aのような、multi-FASTAファイル形式のリファレンス配列に対してマップするプログラムのことを指しています。
  • ゲノムグラフを前提としたアラインメントプログラム(aligner)
  • ベンチマーク(benchmark)
    その性能を基準として良し悪しを比較する対象という意味で用いています。この場合の主な比較対象はvgということになります。

2.3.4 ゲノムグラフの可視化と格納形式

  • ゲノムグラフ(genome graph)
    多様なゲノム情報をグラフ構造で格納するものです。
  • 多重配列アラインメント(multiple sequence alignment; MSA)
    リンク先は「多重整列」です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • Chowdhury and Garai, Genomics, 2017
    MSAの総説です。
  • グラフ構造(graph structure)
    リンク先は「グラフ (データ構造)」です。ノード(頂点・節点・点; node)群とノード間の連結関係を表すエッジ(枝・辺・線; edge)群で構成される構造のことです。この場合は、図2.5b-dのような構造のことです。
  • レイアウト(layout)
    何をどこにどのように配置(割り付け)するかということです、また、そのような配置(割り付け)をする行為も意味します。
  • Eizenga et al., Annu Rev Genomics Hum Genet., 2020
    Eizenga論文で、パンゲノムグラフの総説です。Figure 2にある4つのレイアウトのうち、真ん中の2つがMSAっぽい可視化です。
  • 公共交通機関(public transport)
    不特定多数の人々が利用する交通機関のことです。なお、タクシーについては、これを公共交通機関に含むという解釈と含まないという解釈があるようです。しかし、今議論の対象としているのは、実質的にバスや電車の路線図です。
  • 路線図(route map)
    鉄道・バスや道路、送電線等の路線・施設(停留所等)の接続・配置関係を相対的に示した図表のことです。
  • Sequence Tube MapBeyer et al., Bioinformatics, 2019
    Eizenga論文Figure 2の「公共交通機関の路線図の表示技術を内部的に用いた1番下のレイアウト」の原著論文です。
  • Wick et al., Bioinformatics, 2015
    Eizenga論文Figure 2の「絡まった紐のように見える1番上のレイアウト(force-directed layout)」の原著論文です。プログラムは、Bandageとして提供されています。塩基レベルの解像度というよりは、全体像を把握するのに適した描画手段といえます。ヒトゲノム完全版の論文(Nurk et al., Science, 2022)のFig. 2は、このBandageで描画されています。
  • Eizenga et al., Annu Rev Genomics Hum Genet., 2020
    Eizenga論文で、パンゲノムグラフの総説です。Table 1に特徴ごとにまとめた可視化ツールがリストアップされています。

page054
  • ゲノムグラフ(genome graph)
    多様なゲノム情報をグラフ構造で格納するものです。
  • FASTA形式(FASTA format)
    リンク先は「FASTA format」です。シーケンスデータの代表的な記述形式です。1つのシーケンスのデータは、“>”で始まる1行のヘッダ行と、2行目以降の実際のシーケンス文字列で構成されます。複数の遺伝子配列情報が1つのファイルに格納されているのでmulti-FASTAとよばれることもあります。しかし、今の時代は1つの配列情報のみからなるsingle-FASTAファイルとして取り扱う局面のほうがむしろ稀であるため、事実上同一視して差し支えありません。
  • Variant Call Format(VCF)
    変異解析の出力結果を格納するファイル形式です。
  • Danecek et al., Bioinformatics, 2011
    Variant Call Format(VCF)形式の原著論文です。VCFtoolsというプログラムも提供しています。VCFの仕様はこちらです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • Graphical Fragment Assembly(GFA)形式
    パンゲノム情報を保持する形式です。
  • Gonnella et al., Bioinformatics, 2019
    GFA形式の配列グラフの可視化ツールGfaVizの論文です。おそらくこれがGFA形式の原著論文です。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • SAM/BAM形式Li et al., Bioinformatics, 2009
    リンク先は「Binary Alignment Map」です。従来のリファレンス配列に対するマッピング結果の格納形式です。
  • Graph Alignment Map(GAM)形式
  • Graph Alignment Format(GAF)形式
    • ゲノムグラフに対してアラインメントを行った結果を保持する形式です。
    • テキスト形式のPairwise mApping Format(PAF)を一般化したものであり、GFA形式で保持されたグラフへのマッピングを記述することができます。
    • パンゲノムグラフの総説(Eizenga et al., Annu Rev Genomics Hum Genet., 2020)でも言及されています。

2.4 エピゲノム解析

  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 化学的な修飾(chemical modification)
    リンク先は「修飾塩基」です。DNA塩基配列の一部が修飾を受けることです。染色体の最も基本な構成要素はDNAとヒストンですが、ヒストンのアセチル化やメチル化といった修飾も(本文の文脈的には含みませんが気持ちとしては)暗に含みます。
  • 遺伝子発現(gene expression)
    遺伝子の情報が細胞における構造および機能に変換される過程のことです。
  • エピジェネティクス(epigenetics)
    ゲノムの塩基配列自体は変わらないものの、その一部が化学的な修飾を受けて遺伝子の発現が制御され、それが維持される仕組みのことです。
  • バイオインフォ(bioinfo)
    バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • 感度(sensitivityまたはrecall)
    統計的な概念の1つです。たとえば手元に1,000塩基の長さのゲノム領域があり、そのうちの一続きの754塩基の領域が真のCpGアイランド(CpG island; CGI)だったとします。なんでもいいですが、たとえばある①②③というCGI検出基準で1,000塩基の長さのゲノム領域を与えてCGIの予測を行ったとします。今我々はどの塩基がCGIかどうかというyes or noの情報を知っているので、たとえば以下の4つの情報を得ることができたとします:真陽性(TP) = 648、真陰性(TN) = 186塩基、偽陽性(FP) = 60、偽陰性(FN) = 106。感度はTP/(TP + FN)で表されますので、この場合は648/(648 + 106) = 0.8594のように計算します。分野によって呼び方が結構異なり、true positive rate (TPR)とよばれることもあります。用いた①②③というCGI検出基準で「本当にCGI領域である塩基をどれだけ多くCGI領域である塩基だと正しく判定できたか」という評価基準だと理解すればよいです。
  • 特異度(specificityまたはselectivity)
    統計的な概念の1つです。たとえば手元に1,000塩基の長さのゲノム領域があり、そのうちの一続きの754塩基の領域が真のCpGアイランド(CpG island; CGI)だったとします。なんでもいいですが、たとえばある①②③というCGI検出基準で1,000塩基の長さのゲノム領域を与えてCGIの予測を行ったとします。今我々はどの塩基がCGIかどうかというyes or noの情報を知っているので、たとえば以下の4つの情報を得ることができたとします:真陽性(TP) = 648、真陰性(TN) = 186塩基、偽陽性(FP) = 60、偽陰性(FN) = 106。特異度はTN/(TN + FP)で表されますので、この場合は186/(186 + 60) = 0.7561のように計算します。分野によって呼び方が結構異なり、true negative rate (TNR)とよばれることもあります。用いた①②③というCGI検出基準で「本当にCGI領域でない塩基をどれだけ多くCGI領域でない塩基だと正しく判定できたか」という評価基準だと理解すればよいです。

2.4.1 エピジェネティクス

  • 一卵性双生児(identical twinsまたはmonozygotic twins)
    1つの受精卵(卵子)が分裂(多胚化)して生まれた双生児(そうせいじ)のことです。双生児は、同じ母親の胎内で同時期に発育して生まれた2人の子供のことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • クローン(clone)
    同一の起源を持ち、なおかつ均一な遺伝情報を持つ核酸、細胞、個体の集団のことです。1903年、ハーバート・ウェッバーが、栄養生殖によって増殖した個体集団を指す生物学用語として”clone”という語を考案したようです。本来の意味は「挿し木」のようです。生命科学分野でよく行われるクローニング(cloning)は、クローンを作成すること、という意味ですね。
  • クローン猫
    リンク先は「CC (猫)」です。家庭用ペットのクローンとしては世界初の事例となった猫です。
  • Shin et al., Nature, 2002
    クローン猫の論文です。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 化学的な修飾(chemical modification)
    リンク先は「修飾塩基」です。DNA塩基配列の一部が修飾を受けることです。染色体の最も基本な構成要素はDNAとヒストンですが、ヒストンのアセチル化やメチル化といった修飾も(本文の文脈的には含みませんが気持ちとしては)暗に含みます。
  • エピジェネティクス(epigenetics)
    ゲノムの塩基配列自体は変わらないものの、その一部が化学的な修飾を受けて遺伝子の発現が制御され、それが維持される仕組みのことです。
  • エピゲノム(epigenome)
    リンク先は「Epigenome」です。修飾を受けたゲノムのことです。
  • DNAメチル化(DNA methylation)
    DNA中の塩基の炭素原子にメチル基修飾が付加される化学反応です。真核生物や原核生物に広く見られます。特に真核生物の場合、CpGアイランド(CGI)部分などのゲノム領域でよく見られ、エピジェネティクスに深く関わり複雑な生物の体を正確に形づくるために必須の仕組みであると考えられています。がんの形成や進行にも関わっていると考えられています。
  • ヒストン修飾(histone modification)
    リンク先は「ヒストン」です。ヒストンのアセチル化やメチル化といった修飾のことです。染色体の最も基本な構成要素はDNAとヒストンですので、ゲノムだけでなくヒストンの化学修飾も重要なのだと解釈すればよいです。
  • エピジェネティック修飾(epigenetic modification)
    リンク先は「エピジェネティクス」です。ゲノムの塩基配列自体は変わらないものの、その一部が化学的な修飾を受けて遺伝子の発現が制御され、それが維持される仕組みが存在します。この仕組みのことをエピジェネティクス、そして修飾を受けたゲノムのことをエピゲノムといいます。DNAメチル化やヒストン修飾(ヒストンのアセチル化やメチル化)とよばれるものがこの修飾の実体であり、エピジェネティック修飾ともよばれます。

  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • 肝細胞(hepatocyte)
    肝臓の70~80%を構成する約20μm大の細胞です。タンパク質の合成と貯蔵、炭水化物の変換、コレステロール、胆汁酸、リン脂質の合成、並びに、内生および外生物質の解毒、変性、排出に関与します。また、胆汁の生成と分泌を促進する働きももちます。肝細胞の平均寿命は5ヶ月で再生可能です。
  • 筋細胞(muscle cellまたはmyocyte)
    筋肉を構成する細胞であり、筋芽細胞とよばれる胚性前駆細胞から発生します。Myocyteという語は心筋細胞または平滑筋細胞を指す場合に用いられ、これらはどちらも小細胞です。骨格筋細胞は長く線維状で多くの核を持ち、筋線維とよばれます。
  • 受精卵(zygote)
    卵生殖を行う生物種の雌雄の配偶子(精子と卵子)が結合して形成する最初の細胞のことです。受精済みの卵子という理解でもよいです。
  • 細胞型(cell types)
    リンク先は「細胞分化」です。目や肺や心臓などを構成する様々な器官で特有の機能を果たすために、細胞が不可逆的変化した最終形態のタイプのことです。「肝細胞」という型や、「筋細胞」という型という風に理解すればよいです。
  • 分化(differentiation)
    本来は単一(あるいは同一)であった細胞が、複雑化したり、異質化したりしていくさまのことです。この場合は、実質的に「細胞分化」と同じです。
  • 胚発生(embryogenesis)
    多細胞生物が受精卵(単為発生の場合もあります)から成体になるまでの過程を指します。広義には老化や再生も含まれます。
  • 癌化(canceration)
    リンク先は「悪性腫瘍」です。細胞が生体内の自律的な制御を受けずに勝手に増殖を行うようになることです。正常細胞が癌細胞に変わることという理解でもよいです。
  • 老化(aging)
    生物学的には時間の経過とともに生物の個体に起こる変化のことです。その中でも特に、生物が死に至るまでの間に起こる機能低下やその過程のことを指します。
  • Klutstein et al., Cancer Res., 2016
    DNAメチル化の総説です。「癌化や老化にもエピジェネティック修飾が重要な役割を果たしている」は、この論文のタイトル(DNA Methylation in Cancer and Aging)からも明らかですね。
  • 国際ヒトエピゲノムコンソーシアム(IHEC)Stunnenberg et al., Cell, 2016
    International Human Epigenome Consortium (IHEC)は、2010年に設立されています。「ヒトのエピゲノムのリファレンスマップ」は、「ヒト正常細胞の化学修飾の全体像」のようなイメージです。
  • Stunnenberg et al., Cell, 2016
    DNAメチル化の総説です。「バイオインフォマティクス標準」や「開発するツールの調整」という部分は、Main text中の「A critical component of IHEC is to coordinate the development of common bioinformatics standards, data models and analytical tools to organize, integrate and display the epigenomic data generated.」を根拠にしています。「バイオインフォマティクス標準」は、「統一的なファイル形式の策定」のようなイメージでよいです。
  • バイオインフォ(bioinfo)
    バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • ステレオタイプ(stereotype)
    多くの人に浸透している先入観、思い込み、認識、固定観念、レッテル、偏見、差別などの類型化された観念を指す用語です。
  • コンソーシアム(consortium)
    2つ以上の個人、企業、団体、政府(あるいはこれらの任意の組み合わせ)から成る団体のことです。共同で何らかの目的に沿った活動を行ったり、共通の目標に向かって資源を蓄える目的で結成されます。

2.4.2 DNAメチル化とCpGアイランド(CGI)

  • DNAメチル化(DNA methylation)
    DNA中の塩基の炭素原子にメチル基修飾が付加される化学反応です。真核生物や原核生物に広く見られます。特に真核生物の場合、CpGアイランド(CGI)部分などのゲノム領域でよく見られ、エピジェネティクスに深く関わり複雑な生物の体を正確に形づくるために必須の仕組みであると考えられています。がんの形成や進行にも関わっていると考えられています。本文中では「シトシンのピリミジン環の5位炭素原子へのメチル基の付加反応」のみにしか言及していませんが、正確には「アデニンのプリン環の6位窒素原子へのメチル基の付加反応」もあります。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • エピジェネティック修飾(epigenetic modification)
    リンク先は「エピジェネティクス」です。ゲノムの塩基配列自体は変わらないものの、その一部が化学的な修飾を受けて遺伝子の発現が制御され、それが維持される仕組みが存在します。この仕組みのことをエピジェネティクス、そして修飾を受けたゲノムのことをエピゲノムといいます。DNAメチル化やヒストン修飾(ヒストンのアセチル化やメチル化)とよばれるものがこの修飾の実体であり、エピジェネティック修飾ともよばれます。
  • Zhang et al., Genome Biol., 2015
    DNAメチル化の予測に関する論文です。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • シトシン(cytosine)
    核酸を構成する5種類の主な塩基のうちの1つで、ピリミジン塩基です。
  • ピリミジン(pyrimidine)
    有機化合物の一種で、ベンゼンの1,3位の炭素が窒素で置換されたものです。分子式 C4H4N2、分子量80.09の複素環式芳香族化合物のアミンの一種で、特有の刺激臭をもちます。核酸やヌクレオチドを構成する核酸塩基として知られるチミン(T)、シトシン(C)、ウラシル(U)は、ピリミジンの誘導体です。
page055
  • 5-メチルシトシン(5mC)
    DNA塩基の1つであるシトシン(C)がメチル化されたものです。ピリミジン環の5位炭素原子にメチル基が付加されたシトシンのことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • DNAメチル化酵素(DNA Methyltransferase; DNMT)
    リンク先は「DNAメチルトランスフェラーゼ」です。DNAへのメチル基の転移を触媒する酵素ファミリーです。DNAメチル化は幅広い生物学的機能をもちます。既知のDNAメチル基転移酵素はすべて、メチル基の供与体としてS-アデノシルメチオニンを利用します。
  • 5mC
    5-メチルシトシンのことです。DNA塩基の1つであるシトシン(C)がメチル化されたものです。ピリミジン環の5位炭素原子にメチル基が付加されたシトシンのことです。
  • 脱アミノ化(deamination)
    リンク先は「脱アミノ」です。分子からアミン(アンモニアの水素原子を炭化水素基または芳香族原子団で置換した化合物の総称)を除去する化学反応のことです。人体では、脱アミノ反応は肝臓で行われるアミノ酸分解の過程です。アミノ酸からαアミノ基が取り外されるとアンモニアへ転換され、αアミノ基が除去されたあとのアミノ酸の残余は、糖新生に使われるか分解されます。また、アンモニアは、尿素回路で窒素排泄物質である尿素または尿酸へ変換されます。尿素と尿酸は血液中に放出され、最終的に尿として排出されます。
  • チミン(thymine)
    デオキシリボ核酸(DNA)を構成する塩基の1つで、ピリミジンの誘導体です。5-メチルウラシルともよばれるように、ウラシルの5位の炭素をメチル化した構造をもちます。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • ホットスポット(hot spotまたはhotspot)
    局地的に何らかの値が高かったり、局地的に(何らかの活動が)活発であったりする地点・場所・地域のことを指すための用語です。この場合は、「ゲノム中で突然変異が起こりやすいのがCGという2連続塩基の場所だ」と理解すればよいです。
  • Lienert et al., Nat Genet., 2011
    これ自体はオープンアクセスではないですが、Zhang et al., Genome Biol., 2015論文中で、Lienert論文を引用して「CpG sites are under-represented in the human genome relative to their expected frequency as a result of being mutation hotspots, where the deamination of methylated cytosines encourages CpG sites to mutate to TpG sites.」だと記載しています。したがって、Lienert論文が「CGという2連続塩基の場所は突然変異のホットスポット」の根拠になります。

  • CpGサイト
    ゲノム中でCGという2連続塩基になっている箇所のことです。
  • CpGアイランド(CpG island; CGI)
    シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • 脊椎動物(Vertebrata)
    動物の分類のひとつで、後口動物の脊索動物門に属する単系統群です。哺乳類、鳥類、爬虫類、両生類、魚類からなる系統群です。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
  • CG抑制(CG suppression)
    リンク先は「CG suppression」です。脊椎動物のゲノムでは、ほとんどの部分でCGの出現頻度がそのゲノムのGC含量から期待される値よりも大幅に低いという現象のことです。
  • Takata et al., Nature, 2017
    Abstractに「CG抑制(CG suppression, CG-suppression)という現象は、長い年月をかけて蓄積されてきた前述のCGからTGへの変異によるものと考えられている」と記載されています。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • Gardiner-Garden and Frommer, J Mol Biol., 1987
    一番最初に「CGの出現頻度が少ない(ヒト)ゲノムにおいて、相対的にCGが多く出現する領域」であるCpGアイランド(CpG island; CGI)について、具体的に定義した論文だと思います。

2.4.3 連続塩基の出現頻度解析

  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • 2連続塩基
    リンク先は「k-mer」です。k-merというのは、1塩基ずつずらして得られる塩基数がkの部分配列のことです。この場合は、k = 2のk-merに相当します。たとえばGCCTTAという塩基配列からは、GC, CC, CT, TT, TAという計5種類の2-merが得られます。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
  • ヒトゲノムドラフト論文:Lander et al., Nature, 2001
    「GC含量が41%」は、Visual inspection (Fig. 9) confirms that local GC content undergoes substantial long-range excursions from its genome-wide average of 41%.を根拠としています。また、「CpGが期待値よりも低い」というあたりは、The dinucleotide CpG is notable because it is greatly under-represented in human DNA, occurring at only about one-fifth of the roughly 4% frequency that would be expected by simply multiplying the typical fraction of Cs and Gs (0.21 × 0.21).を根拠としています。

  • 表2.1

    ヒトゲノム中の2連続塩基の出現確率です。(a)ゲノム全体、(b)上流1,000塩基のみ。

    2-mer 期待値 観測値 観測値/期待値
    (a)ゲノム全体
    AA 0.087025 0.097420 1.119454
    AT 0.087025 0.076963 0.884376
    TA 0.087025 0.065324 0.750632
    TT 0.087025 0.097643 1.122009
    CC 0.042025 0.052404 1.246976
    CG 0.042025 0.009991 0.237748
    GC 0.042025 0.042837 1.019332
    GG 0.042025 0.052448 1.248019
    AC 0.060475 0.050360 0.832741
    AG 0.060475 0.070006 1.157600
    CA 0.060475 0.072592 1.200364
    CT 0.060475 0.070023 1.157876
    GA 0.060475 0.059413 0.982438
    GT 0.060475 0.050457 0.834346
    TC 0.060475 0.059409 0.982366
    TG 0.060475 0.072710 1.202318
    (b) 上流1,000塩基のみ
    AA 0.0576 0.071978 1.249616
    AT 0.0576 0.049498 0.859348
    TA 0.0576 0.042502 0.737873
    TT 0.0576 0.069764 1.211172
    CC 0.0676 0.082975 1.227441
    CG 0.0676 0.037947 0.561346
    GC 0.0676 0.068652 1.015569
    GG 0.0676 0.081545 1.206289
    AC 0.0624 0.048794 0.781949
    AG 0.0624 0.072280 1.158327
    CA 0.0624 0.067853 1.087388
    CT 0.0624 0.071798 1.150613
    GA 0.0624 0.060089 0.962971
    GT 0.0624 0.047740 0.765058
    TC 0.0624 0.060347 0.967103
    TG 0.0624 0.066238 1.061512

    表2.1の作成に用いたRスクリプトファイルは、rcode_table2.1.Rです。このRスクリプトの冒頭部分からも何となくわかるかもしれませんが、本文中で書いている「ゲノム配列とアノテーション情報は、UCSCから取得したhg19のバージョンを利用した」の実体は、下記の2つのRパッケージです。

page056
  • 期待値(expected value)
    ヒトゲノム中のACGT各塩基の出現確率は、それぞれA = 0.295, T = 0.295, C = 0.205, G = 0.205です。この値に基づいて算出した2-merの理論上の出現確率のことです。
  • 観測値(observed value)
    ヒトゲノム全体の情報から得られた、2-merの実際の出現確率のことです。

  • 表2.1b
    ヒトゲノム中の2連続塩基の出現確率で、(b)上流1,000塩基のみの結果です。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • TSS
    リンク先は「転写 (生物学)」です。転写開始点(transcription start site)の略です。RNAの転写が開始される部位のことであり、転写されたRNAの1番目の塩基の位置に相当します。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • 期待値(expected value)
    ヒトゲノム中のACGT各塩基の出現確率は、それぞれA = 0.295, T = 0.295, C = 0.205, G = 0.205です。この値に基づいて算出した2-merの理論上の出現確率のことです。
  • 観測値(observed value)
    ヒトゲノム全体の情報から得られた、2-merの実際の出現確率のことです。
  • O/E
    観測値/期待値(Observed/Expected = Obs/Exp)のことです。表2.2に具体的な数値が示されています。
  • プロモータ(promoter)
    遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
  • Saxonov et al., Proc Natl Acad Sci USA., 2006
    ヒトゲノムのCpG解析論文です。「転写制御領域(つまりプロモータ)近辺にCGIsが濃縮されていることを示す客観的な指標であり」は、この論文中のTable 1を根拠としています。この論文自体は、ヒトゲノム中のプロモータはCpG含有量が高いもの(72%)と低いもの(残りの28%)の(two distinct classes)に大別されるという内容です。
  • Ioshikhes and Zhang, Nat Genet., 2000
    ヒトゲノムのCpG解析論文です。オープンアクセスではありません。CpGアイランド(CpG island; CGI)の特徴を利用して、プロモータとよく定義される転写開始点(transcription start site; TSS)の上流1,500塩基から下流500塩基までの領域にあるCGIsを、TSSから離れた場所にあるものと区別できたり、CGIを含むプロモータの約93%を正しく予測できたという論文です。
  • 表2.1
    ヒトゲノム中の2連続塩基の出現確率です。(a)ゲノム全体、(b)上流1,000塩基のみ。Saxonov論文(Saxonov et al., Proc Natl Acad Sci USA., 2006)の結果を一部含むと書いていますが、それはTable 1のWhole genomeと1 kb upstream regionsの結果のことです。

  • Saxonov論文
    「Saxonov論文のTable 1ではGC含量が38%」は、この論文中のTable 1においてWhole genomeのGC contentが0.38と記載されていることを根拠としています。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
  • Lander論文
    ヒトゲノムの概要版(ドラフトとよばれます)の論文です。
  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • hg19
    UCSC Genome Browserから辿れるヒトゲノム配列のことです。hgはhuman genomeの略、19はバージョンだと解釈すればよいです。GRCh37というバージョンとhg19というバージョンのものが実質的に同じものだということがここを見ればわかります。
  • どちらが正しいかという議論は本質的ではなく…のところ
    本音としては、Saxonov論文の38%というのは間違いだと思っています。その理由は、NにはCやGが含まれているからです。Nの数を分母のみに加えておきながら、Nの中に含まれるCやGの数を分子には一切加えていないというのはやはりまずいと思っています。が、そんなことをあれこれ考えるのなら、2022年に出たヒトゲノム完全版(Nurk et al., Science, 2022)のデータで調べるほうがよっぽど有意義だとは思います。そういう意味で、本文中の書き方自体はあれでよいだろうと思っています。

  • 例題2.2
    1ページ目が問題、2ページ目以降が解答例です。

2.4.4 CGI領域の予測と性能評価指標(感度や特異度)

  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • Gardiner-Garden and Frommer, J Mol Biol., 1987
    CpGアイランド(CpG island; CGI)について具体的に①CGの観測値/期待値(= Obs/Exp = O/E)が0.6以上、②GC含量が50%以上、③その領域の長さが200 bp以上と定義した論文です。本章で「CGIの3条件」とよんでいる原著論文です。
  • O/E
    2連続塩基CGの観測値/期待値(Observed/Expected = Obs/Exp)のことです。表2.2にもO/Eの数値が示されていますが、これは(a)ゲノム全体や(b)上流1,000塩基という領域の、計16種類の2-merの値です。ここでのO/Eは、CGI候補領域について、CGという2-merに限定したものです。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
  • Tahir et al., J Biosci., 2019
    本章で「CGIの3条件」とよんでいるものを、GGF principleと表現した論文です。
  • Chuang et al., PLoS One, 2011
    本章で「CGIの3条件」とよんでいるものを、GGF criteriaと表現した論文です。
  • CGIの3条件
    Gardiner-Garden and Frommer, J Mol Biol., 1987によって定義された、ゲノム中のCpGアイランド(CGI)の条件です。
    • ①CGの観測値/期待値(= Obs/Exp = O/E)が0.6以上
    • ②GC含量が50%以上
    • ③その領域の長さが200 bp以上
  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • Aluエレメント(Alu要素, Alu配列, Alu element)
    リンク先は「Alu要素」です。「高いO/E値とGC含量をもつ約280 bpの短鎖散在反復配列(SINE)の一種」です。ヒトゲノムで多く見られます。SINEは、同じ単位配列が隣接せずに散在しているリピート(散在反復配列)のうち、単位配列が短いリピートのことです。数百 bpの長さをもち、tRNA・rRNA・snRNAなどのncRNAに由来する配列です。
  • 偽陽性(false positive; FP)
    リンク先は「第一種過誤と第二種過誤」です。本当は着目する形質との関連がないにもかかわらずあるとしてしまう誤りのことです。この「偽陽性」に相当するのが「第一種過誤(Type I error)」です。
  • Tahir et al., J Biosci., 2019
    CpGアイランド(CpG island; CGI)同定の総説です。「Aluエレメント(高いO/E値とGC含量をもつ約280 bpのSINE)が偽陽性として誤検出されてしまうという問題」は、(この文章の切り抜きだけではわかりにくいですが…)この論文中の1ページ目のThe minimum sequence length of the island was amplified to prevent Alu sequences.周辺の記述を根拠としています。
  • Takai and Jones, Proc Natl Acad Sci USA., 2002
    CpGISの論文です。「領域の長さが500 bp以上とすることでAluが偽陽性として含まれる可能性を大幅に下げる戦略」が、上記のThe minimum sequence length of the island was amplified to prevent Alu sequences.につながっています。Aluは約280 bpなので、「閾値を500 bp以上にすれば検出されないでしょ」ということです。この論文の具体的なCGI検出基準は以下の通りです。3つすべての基準が厳しめになっていることがわかります。
    • ①CGの観測値/期待値(= Obs/Exp = O/E)が0.65以上
    • ②GC含量が55%以上
    • ③その領域の長さが500 bp以上

page057
  • Takai and Jones, Proc Natl Acad Sci USA., 2002
    Takai論文です。Figure 3がAluをうまく除外してCGIを検出できた例です。
  • 偽陰性(false negative; FN)
    リンク先は「第一種過誤と第二種過誤」です。この場合は、本当はCGIであるにもかかわらずCGIではないとしてしまう誤りのことです。「偽陰性」に相当するのが「第二種過誤(Type II error)」です。
  • 閾値(threshold)
    境目となる値のことです。この場合は、「CGIだと判定する基準」に置き換えても問題ありません。たとえば「がんに罹患しているかどうか」を占う問題で考えると、判定基準を極端に緩めることは(本当はがんではないヒトも含めて)ほぼ全員をがんだと占うことと同義です。また、逆に今度は判定基準を極端に厳しくすることは(本当はがんのヒトも含めて)ほぼ全員をがんではないと占うことと同義だと考えると理解しやすいでしょう。
  • 感度(sensitivityまたはrecall)
    統計的な概念の1つです。たとえば手元に1,000塩基の長さのゲノム領域があり、そのうちの一続きの754塩基の領域が真のCpGアイランド(CpG island; CGI)だったとします。なんでもいいですが、たとえばある①②③というCGI検出基準で1,000塩基の長さのゲノム領域を与えてCGIの予測を行ったとします。今我々はどの塩基がCGIかどうかというyes or noの情報を知っているので、たとえば以下の4つの情報を得ることができたとします:真陽性(TP) = 648、真陰性(TN) = 186塩基、偽陽性(FP) = 60、偽陰性(FN) = 106。感度はTP/(TP + FN)で表されますので、この場合は648/(648 + 106) = 0.8594のように計算します。分野によって呼び方が結構異なり、true positive rate (TPR)とよばれることもあります。用いた①②③というCGI検出基準で「本当にCGI領域である塩基をどれだけ多くCGI領域である塩基だと正しく判定できたか」という評価基準だと理解すればよいです。
  • 特異度(specificityまたはselectivity)
    統計的な概念の1つです。たとえば手元に1,000塩基の長さのゲノム領域があり、そのうちの一続きの754塩基の領域が真のCpGアイランド(CpG island; CGI)だったとします。なんでもいいですが、たとえばある①②③というCGI検出基準で1,000塩基の長さのゲノム領域を与えてCGIの予測を行ったとします。今我々はどの塩基がCGIかどうかというyes or noの情報を知っているので、たとえば以下の4つの情報を得ることができたとします:真陽性(TP) = 648、真陰性(TN) = 186塩基、偽陽性(FP) = 60、偽陰性(FN) = 106。特異度はTN/(TN + FP)で表されますので、この場合は186/(186 + 60) = 0.7561のように計算します。分野によって呼び方が結構異なり、true negative rate (TNR)とよばれることもあります。用いた①②③というCGI検出基準で「本当にCGI領域でない塩基をどれだけ多くCGI領域でない塩基だと正しく判定できたか」という評価基準だと理解すればよいです。
  • バイオインフォ(bioinfo)
    バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • 混同行列(confusion matrix)
    リンク先は「Confusion matrix」です。英語ですが、様々な指標の計算式が網羅されています。たとえば手元に1,000塩基の長さのゲノム領域があり、そのうちの一続きの754塩基の領域が真のCpGアイランド(CpG island; CGI)だったとします。なんでもいいですが、たとえばある①②③というCGI検出基準で1,000塩基の長さのゲノム領域を与えてCGIの予測を行ったとします。今我々はどの塩基がCGIかどうかというyes or noの情報を知っているので、たとえば以下の4つの情報を得ることができたとします:真陽性(TP) = 648、真陰性(TN) = 186塩基、偽陽性(FP) = 60、偽陰性(FN) = 106。この4種類の情報を表形式でまとめたものが混同行列です。実用上我々が行うのは、この場合は1,000塩基分の要素からなる真のバイナリベクトル(真のCGIの塩基は1で、そうでない塩基は0みたいな情報かならるベクトル)と、もう1つの①②③というCGI検出基準で予測によって得られたバイナリベクトル(CGIだと予測された塩基は1で、CGIでないと予測された塩基は0みたいな情報かならるベクトル)が得られますので、この要素数が同じ2つのベクトルを用意する作業のみです。この2つのベクトル入力として与えると、混同行列を自動的に作成して感度や特異度などの様々な評価指標を一気に算出できるRのパッケージ(関数)が存在します。ゆとりができたらスクリプト例を示します。
  • \(p\)値(p-value)
    リンク先は「有意」です。この場合は\(p\)値を例に出さないほうがよかったかもしれませんが、感覚的には「\(p\)値が0に近いほど、その塩基はCGIっぽい」ような統計量だと理解すればよいです。
  • ROC曲線(ROC curve)
    リンク先は「受信者操作特性」です。ROCはReceiver Operating Characteristicの略です。感度と特異度は、「感度を上げるようCGI判定基準を厳しくすると特異度が下がる」、「特異度を上げようとCGI判定基準を緩めると感度が下がる」という関係にあります。それゆえ、判定基準自体をいろいろと変化させることで、横軸に「1 - 特異度」、縦軸に「感度」というプロットを描くことができます。このプロットがROC曲線です。リンク先の「受信者操作特性」の説明は難解かもしれませんが、実用上は、「ROC曲線の下部面積(Are Under the ROC curve; AUC)」の値が重要で、これが1に近いほど精度の高いプログラムなのだと理解しておけば充分です。
  • Osabe et al., Bioinform Biol Insights., 2019
    AUCで性能評価をしている論文例です。

2.4.5 転写制御領域(転写因子とシスエレメント)

  • CpGサイト
    ゲノム中でCGという2連続塩基になっている箇所のことです。
  • 哺乳類(mammal)
    哺乳綱(ほにゅうこう)に属する動物の総称です。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • メチル化(methylation)
    リンク先は「DNAメチル化」です。DNA中の塩基の炭素原子にメチル基修飾が付加される化学反応です。真核生物や原核生物に広く見られます。特に真核生物の場合、CpGアイランド(CGI)部分などのゲノム領域でよく見られ、エピジェネティクスに深く関わり複雑な生物の体を正確に形づくるために必須の仕組みであると考えられています。がんの形成や進行にも関わっていると考えられています。本文中では「シトシンのピリミジン環の5位炭素原子へのメチル基の付加反応」のみにしか言及していませんが、正確には「アデニンのプリン環の6位窒素原子へのメチル基の付加反応」もあります。
  • Jones PA, Nat Rev Genet., 2012
    DNAメチル化の総説です。この論文自体はオープンアクセスではありません。「CpGサイトは、哺乳類のゲノムでは大抵の場合メチル化されている」は、以下のZhang論文中で、この論文を引用してAlthough CpG sites are mainly methylated across the mammalian genomeと述べていることを根拠としています。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • Zhang et al., Genome Biol., 2015
    DNAメチル化の予測に関する論文です。「CGI上にあるCpGサイトはほとんどメチル化されておらず」は、CpG sites are under-represented in the human genome relative to their expected frequencyを根拠としています。
  • 遺伝子発現(gene expression)
    遺伝子の情報が細胞における構造および機能に変換される過程のことです。
  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • Tahir et al., J Biosci., 2019
    CpGアイランド(CpG island; CGI)同定の総説です。「実際に検出されるCGIは、CpGを高頻度にもつ500~2,000塩基の領域であり、ヒトゲノム中には約3万個のCGIが存在する」は、CGIs are the long stretches of DNA (0.5 – 2 kb) with high levels of CpGs and there are about 30,000 CGIs in the human genome.を根拠としています。
  • プロモータ(promoter)
    遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
  • TSS
    リンク先は「転写 (生物学)」です。転写開始点(transcription start site)の略です。RNAの転写が開始される部位のことであり、転写されたRNAの1番目の塩基の位置に相当します。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 発生
    リンク先は「胚発生(embryogenesis)」です。つまり、この場合は、胚発生の略称という意味で「発生」と書いています。多細胞生物が受精卵から成体になるまでの過程のことです。広義には老化や再生も含まれます。
  • 分化(differentiation)
    本来は単一(あるいは同一)であった細胞が、複雑化したり、異質化したりしていくさまのことです。
  • Jeziorska et al., Proc Natl Acad Sci USA., 2017
    Jeziorska論文のことです。「遺伝子本体内(gene bodyやintragenicと表現される)にある約9,000 CGIsは発生や分化の過程でメチル化される」は、Abstract中のThe human genome contains ∼30,000 CpG islands (CGIs). While CGIs associated with promoters nearly always remain unmethylated, many of the ∼9,000 CGIs lying within gene bodies become methylated during development and differentiation.を根拠としています。

  • Jeziorska論文
  • TSS
    リンク先は「転写 (生物学)」です。転写開始点(transcription start site)の略です。RNAの転写が開始される部位のことであり、転写されたRNAの1番目の塩基の位置に相当します。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • プロモータCGI (promoter CGI)
    転写開始点(TSS)上流にあるCpGアイランドのことです。Jeziorska et al., Proc Natl Acad Sci USA., 2017でこのような表現がなされています。
  • intergenic CGI
    転写開始点(TSS)下流にあるCpGアイランドのことです。Jeziorska et al., Proc Natl Acad Sci USA., 2017でこのような表現がなされています。
  • Maunakea et al., Nature, 2010
    “intragenic promoter”という表現をしている論文です。プロモータを転写開始点より上流の領域だと都合よく解釈すると、だんだん混乱してくるので注意してください。
  • Cassiano and Silva-Rocha, mSystems, 2020
    バクテリアのプロモータ予測ツールの総説(手法比較論文)です。「プロモータの定義は研究者によって大きく異なる」は、While the definition of promoters could vary widelyを根拠としています。

  • プロモータ(promoter)
    遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
  • 転写因子(transcription factor; TF)
    DNAに特異的に結合するタンパク質のことです。DNA上のプロモータ領域に、基本転写因子とよばれるものと、RNAポリメラーゼ(RNA合成酵素)が結合し、転写が開始します。DNAの遺伝情報をRNAに転写する過程を促進、あるいは逆に抑制します。転写因子はこの機能を単独で、または他のタンパク質と複合体を形成することによって実行します。ヒトのゲノム上には、転写因子をコードする遺伝子がおよそ1,800個程度存在するとの推定がなされています。
  • 遺伝子発現(gene expression)
    遺伝子の情報が細胞における構造および機能に変換される過程のことです。
  • DNA結合タンパク質(DNA-binding protein; DBP)
    DNA結合ドメインを有するタンパク質のことです。DBPの結合部位は、transcription factor binding site (TFBS)とも略記されます。
  • シスエレメント(cis-regulatory elementまたはcis-acting regulatory element; CRE)
    同一DNA配列上(これがcisの意味)の遺伝子発現を調節する領域のことです。ここでの同一DNA配列というのは、たとえば4番染色体上のDNA配列という意味です(正確には同じ4番染色体で母親由来とか父親由来というレベルで同一配列であることまで要求していると思います)。この「4番染色体上の(片方の親由来の)DNA配列」上に遺伝子発現を調節する領域(つまりシスエレメント)があったとすると、そのシスエレメントと同じ「4番染色体上の(片方の親由来の)DNA配列」上の別の領域の遺伝子発現を調節する、ということです。たとえば7番染色体上のDNA配列上のどこかの遺伝子発現を調節するわけではない、という風に理解するとよいです。
  • エンハンサ(enhancer)
    特定の遺伝子の転写の可能性を高めるためにタンパク質(アクティベータ)が結合する、短い(50~1500 bp)DNA領域のことです。多くの場合、これらのエンハンサに結合するタンパク質は転写因子とよばれます。エンハンサはシスに作用し、遺伝子から最大で100万 bpも離れている場合もあり、転写開始部位の上流に位置する場合も下流に位置する場合もあります。エンハンサは原核生物と真核生物の双方に存在し、ヒトのゲノム中には数十万個のエンハンサが存在するといわれています。
  • サイレンサ(silencer)
    リンク先は「サイレンサー (遺伝学)」です。リプレッサとよばれる転写調節因子が結合するDNA配列のことです。DNAには遺伝子が含まれ、mRNA産生の鋳型となります。その後、mRNAはタンパク質へと翻訳されます。リプレッサがDNAのサイレンサ領域に結合すると、RNAポリメラーゼによるDNAからRNAへの転写が妨げられます。転写が遮断されるとRNAからタンパク質への翻訳は不可能となります。サイレンサは、このようにタンパク質としての発現を防いでいます。
  • インシュレータ(insulator)
    リンク先は「インスレーター (遺伝学)」です。DNAの配列上、遠く離れた位置にある遺伝子の発現の調節を行うシス調節エレメントの一種です。インシュレータは真核生物に存在し、標的遺伝子のプロモータから離れた場所で機能し、通常300~2000 bpの長さをもちます。インシュレータには配列特異的なDNA結合タンパク質の結合部位のクラスタが含まれ、染色体内および染色体間の相互作用を媒介します。
  • Rojano et al., Brief Bioinform., 2019
    制御領域系の総説です。この論文では、cis-regulatory elementのような表現になっています。「シスエレメントは、TSS近傍にあるプロモータ内の結合部位だけではなく、数千塩基上流にあるエンハンサ(enhancer)やサイレンサ(silencer)、そしてインシュレータ(insulator)とよばれる領域も含んでいる」は、regulatory elements, such as enhancers, transcription factor binding sites and DNA methylation regionsやRepresentation of the effects of cis-regulatory element: enhancers (A), silencers (B) and insulators (C).という記述を根拠としています。

  • シスエレメント(cis-regulatory elementまたはcis-acting regulatory element; CRE)
    同一DNA配列上(これがcisの意味)の遺伝子発現を調節する領域のことです。ここでの同一DNA配列というのは、たとえば4番染色体上のDNA配列という意味です(正確には同じ4番染色体で母親由来とか父親由来というレベルで同一配列であることまで要求していると思います)。この「4番染色体上の(片方の親由来の)DNA配列」上に遺伝子発現を調節する領域(つまりシスエレメント)があったとすると、そのシスエレメントと同じ「4番染色体上の(片方の親由来の)DNA配列」上の別の領域の遺伝子発現を調節する、ということです。たとえば7番染色体上のDNA配列上のどこかの遺伝子発現を調節するわけではない、という風に理解するとよいです。
  • トランスエレメント(trans-regulatory element)またはトランス因子(trans-acting factor)
    リンク先は「トランス (分子生物学)」です。シスエレメントに作用する物質のことを指し、DNA結合タンパク質(DNA-binding protein; DBP)が該当します。miRNAやlncRNAなどのncRNAも含みます。
  • DBP
    DNA結合タンパク質(DNA-binding protein)、つまりDNA結合ドメインを有するタンパク質のことです。DBPの結合部位は、transcription factor binding site (TFBS)とも略記されます。
  • Narlikar and Ovcharenko, Brief Funct Genomic Proteomic., 2009
    制御エレメント同定系の総説です。この論文では、regulatory elementsと表現されています。
  • Rojano et al., Brief Bioinform., 2019
    制御領域系の総説です。「トランスエレメントは、DBP以外にmiRNAやlncRNAなどのncRNAも含む」は、These include cis- and trans-regulatory elements that bind transcription factors (TFs) and other proteins, such as enhancers or promoters [5], and transcribed non-coding regions with regulatory roles, such as micro RNAs (miRNAs) [6] and long non-coding RNAs (lncRNAs) [7].を根拠としています。
  • 遺伝子発現(gene expression)
    遺伝子の情報が細胞における構造および機能に変換される過程のことです。
  • エンハンサ(enhancer)
    特定の遺伝子の転写の可能性を高めるためにタンパク質(アクティベータ)が結合する、短い(50~1500 bp)DNA領域のことです。多くの場合、これらのエンハンサに結合するタンパク質は転写因子とよばれます。エンハンサはシスに作用し、遺伝子から最大で100万 bpも離れている場合もあり、転写開始部位の上流に位置する場合も下流に位置する場合もあります。エンハンサは原核生物と真核生物の双方に存在し、ヒトのゲノム中には数十万個のエンハンサが存在するといわれています。
page058
  • アクティベータ(activator)
    リンク先は「アクチベーター」です。遺伝子の転写を増加させるタンパク質です。エンハンサに結合して転写を活性化させるものです。
  • サイレンサ(silencer)
    リンク先は「サイレンサー (遺伝学)」です。リプレッサとよばれる転写調節因子が結合するDNA配列のことです。DNAには遺伝子が含まれ、mRNA産生の鋳型となります。その後、mRNAはタンパク質へと翻訳されます。リプレッサがDNAのサイレンサ領域に結合すると、RNAポリメラーゼによるDNAからRNAへの転写が妨げられます。転写が遮断されるとRNAからタンパク質への翻訳は不可能となります。サイレンサは、このようにタンパク質としての発現を防いでいます。
  • リプレッサ(repressor)
    リンク先は「リプレッサー」です。サイレンサに結合して転写を抑制するものです。

  • インシュレータ(insulator)
    リンク先は「インスレーター (遺伝学)」です。DNAの配列上、遠く離れた位置にある遺伝子の発現の調節を行うシス調節エレメントの一種です。インシュレータは真核生物に存在し、標的遺伝子のプロモータから離れた場所で機能し、通常300~2000 bpの長さをもちます。インシュレータには配列特異的なDNA結合タンパク質の結合部位のクラスタが含まれ、染色体内および染色体間の相互作用を媒介します。
  • クロマチン(chromatin)
    真核細胞内に存在するDNAとタンパク質の複合体のことです。ヒト2倍体細胞に納められているDNAの総延長はおよそ2 mに達します。これを直径約10 μmの核に収納するための構造がクロマチンです。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソーム(nucleosome)です。クロマチンは凝集の度合いによりヘテロクロマチン(heterochromatin)とユークロマチン(euchromatin)に分類されます。遺伝子密度が低い領域や遺伝子発現が抑制されている領域は、強く折りたたまれてヘテロクロマチンを形成する傾向にあります。一方、遺伝子の転写が活発な領域のクロマチンは比較的緩んでおり、ユークロマチンとよばれます。
  • Vogelmann et al., Nucleus, 2011
    インシュレータの総説です。「インシュレータは、クロマチンの立体構造の制御を行う領域」は、Chromatin insulators may be key determinants of the proper organization of eukaryotic chromosomes.などを根拠としています。
  • CCCTC結合因子(CCCTC-binding factor; CTCF)
    リンク先は「CTCF」です。ヒトではCTCF遺伝子にコードされる転写因子です。CTCFは、転写の調節、インスレーター活性、V(D)J組換え、クロマチン構造の調節など、多くの細胞過程に関与すると考えられています。CTCFは、ニワトリのc-myc遺伝子の負の調節因子として発見されました。このタンパク質は規則的に配置された3つのリピート配列に結合することが判明し、そのコア配列はCCCTCであったためCCCTC結合因子と名付けられました。CTCFの主要な機能は、クロマチンの三次元構造の調節であると考えられています。CTCFはDNAの鎖を束ねてクロマチンのループを形成し、核ラミナのような細胞構造へDNAを固定します。また、CTCFは活性なDNA領域とヘテロクロマチン領域の境界の決定も行っています。
  • 転写因子(transcription factor; TF)
    DNAに特異的に結合するタンパク質のことです。DNA上のプロモータ領域に、基本転写因子とよばれるものと、RNAポリメラーゼ(RNA合成酵素)が結合し、転写が開始します。DNAの遺伝情報をRNAに転写する過程を促進、あるいは逆に抑制します。転写因子はこの機能を単独で、または他のタンパク質と複合体を形成することによって実行します。ヒトのゲノム上には、転写因子をコードする遺伝子がおよそ1,800個程度存在するとの推定がなされています。
  • Ong and Corces, Nat Rev Genet, 2014
    CTCFの総説です。インシュレータの最もよく知られているものが、CCCTC結合因子(CCCTC-binding factor; CTCF)とよばれる転写因子が結合する領域です。(若干順番が前後しますが)CTCFが「細胞ごとに異なるメチル化やオープンクロマチンの状態を調べる目的でも利用されている」例は、Fig. 2です。
  • CTCF
    リンク先は「CTCF」です。CCCTC結合因子(CCCTC-binding factor)のことです。ヒトではCTCF遺伝子にコードされる転写因子です。CTCFは、転写の調節、インスレーター活性、V(D)J組換え、クロマチン構造の調節など、多くの細胞過程に関与すると考えられています。CTCFは、ニワトリのc-myc遺伝子の負の調節因子として発見されました。このタンパク質は規則的に配置された3つのリピート配列に結合することが判明し、そのコア配列はCCCTCであったためCCCTC結合因子と名付けられました。CTCFの主要な機能は、クロマチンの三次元構造の調節であると考えられています。CTCFはDNAの鎖を束ねてクロマチンのループを形成し、核ラミナのような細胞構造へDNAを固定します。また、CTCFは活性なDNA領域とヘテロクロマチン領域の境界の決定も行っています。
  • エンハンサ(enhancer)
    特定の遺伝子の転写の可能性を高めるためにタンパク質(アクティベータ)が結合する、短い(50~1500 bp)DNA領域のことです。多くの場合、これらのエンハンサに結合するタンパク質は転写因子とよばれます。エンハンサはシスに作用し、遺伝子から最大で100万 bpも離れている場合もあり、転写開始部位の上流に位置する場合も下流に位置する場合もあります。エンハンサは原核生物と真核生物の双方に存在し、ヒトのゲノム中には数十万個のエンハンサが存在するといわれています。
  • プロモータ(promoter)
    遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
  • 転写(transcription)
    一般に染色体またはオルガネラのDNAの塩基配列(遺伝子)を元に、RNAが合成されることです。
  • ヌクレオソーム(nucleosome)
    真核生物におけるDNAのパッケージングの基本的単位です。ヌクレオソームの構造は8つのヒストンタンパク質に巻き付いたDNA断片から構成され、概念的には糸巻きに巻き付いた糸に類似しています。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソームです。各ヌクレオソームの8つのヒストンタンパク質はヒストン8量体とよばれ、その周囲には約1.65ターンのDNAが巻きついています。ヒストン8量体はヒストンH2A、H2B、H3、H4各2コピーずつから構成されます。
  • ヒストン(histone)
    真核生物のクロマチン(染色体)を構成する主要なタンパク質です。ヒストンは、長い DNA分子を折りたたんで核内に収納する役割をもちます。ヒストンはDNAに結合するタンパク質の大部分を占め、ヒストンとDNAの重量比はほぼ1:1です。コアヒストンはH2A、H2B、H3、H4の4種類に分類されます。それぞれ2分子ずつ集まり、ヒストン8量体(ヒストンオクタマー)を形成します。1つのヒストン8量体は、約146 bpのDNAを左巻きに約1.65回巻き付け、ヌクレオソームを構築します。ヌクレオソームはクロマチン構造の最小単位です。
  • オープンクロマチン(open chromatin)
    リンク先は「クロマチン」です。クロマチンは、真核細胞内に存在するDNAとタンパク質の複合体のことです。クロマチンを構築するうえで最も基本となる構造は、ヒストン8量体の周囲に2ターン弱のDNAが巻きついているヌクレオソームです。オープンクロマチンとは、このヌクレオソームがほどけて(ヒストン8量体が外れて)いる状態のクロマチン構造のことです。それゆえ、オープンクロマチン領域とは、ヒストン8量体が外れてDNAがむき出しの状態になっている領域のことを指します。クロマチンは、凝集度の高いヘテロクロマチンと凝集度の低いユークロマチンの2種類だと理解しているヒトがおそらく多く、ユークロマチンとオープンクロマチンの位置づけが不明瞭な印象を受けるかもしれません。ユークロマチン自体はヌクレオソーム構造が比較的緩んでいるという程度の定義であるため、ユークロマチンの中でも明確に「ヒストン8量体が外れてDNAがむき出しの状態になっている領域」を指したいことと、本文中でも後述しますがそのような領域を検出する実験技術のイノベーションがあったことにより、(ユークロマチンではなく)オープンクロマチンという表現が頻用されるようになったのだと理解すればよいと思います。
  • ヘテロクロマチン(heterochromatin)
    細胞周期の間も常に凝縮されたクロマチンの形状、または種類のことです。転写されず、濃い色が観察されます。セントロメアとテロメア周辺によく見つかり、主に短い配列の繰り返し構造をとっています。
  • Barkess and West, Epigenomics, 2012
    インシュレータの総説です。「CTCFは、…オープンクロマチン領域とヘテロクロマチンの境界を定める役割などをもつ」は、A number of recent studies have reported significant enrichments of CTCF sites at the boundaries of repressive chromatin domains.などを根拠としています。
  • メチル化(methylation)
    リンク先は「DNAメチル化」です。DNA中の塩基の炭素原子にメチル基修飾が付加される化学反応です。真核生物や原核生物に広く見られます。特に真核生物の場合、CpGアイランド(CGI)部分などのゲノム領域でよく見られ、エピジェネティクスに深く関わり複雑な生物の体を正確に形づくるために必須の仕組みであると考えられています。がんの形成や進行にも関わっていると考えられています。本文中では「シトシンのピリミジン環の5位炭素原子へのメチル基の付加反応」のみにしか言及していませんが、正確には「アデニンのプリン環の6位窒素原子へのメチル基の付加反応」もあります。
  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • シスエレメント(cis-regulatory elementまたはcis-acting regulatory element; CRE)
    同一DNA配列上(これがcisの意味)の遺伝子発現を調節する領域のことです。ここでの同一DNA配列というのは、たとえば4番染色体上のDNA配列という意味です(正確には同じ4番染色体で母親由来とか父親由来というレベルで同一配列であることまで要求していると思います)。この「4番染色体上の(片方の親由来の)DNA配列」上に遺伝子発現を調節する領域(つまりシスエレメント)があったとすると、そのシスエレメントと同じ「4番染色体上の(片方の親由来の)DNA配列」上の別の領域の遺伝子発現を調節する、ということです。たとえば7番染色体上のDNA配列上のどこかの遺伝子発現を調節するわけではない、という風に理解するとよいです。
  • コアクティベータ(co-activator)
    リンク先は「コアクチベーター」です。アクティベータ(転写因子)に結合して遺伝子の転写率を高める転写コレギュレータです。アクティベータにはDNA結合ドメインが存在し、遺伝子のプロモータ部位か、エンハンサとよばれる調節配列に結合します。アクティベータ-コアクティベータ複合体は、基本転写装置をプロモータにリクルートすることで転写の速度を高め、遺伝子発現を高めます。アクティベータとコアクティベータを利用することで、細胞種や発生段階に依存して、高度な特異性で特定の遺伝子を発現させることが可能となります。
  • コリプレッサ(co-repressor)
    リンク先は「コリプレッサー」です。遺伝子の発現を抑制する分子です。原核生物ではコリプレッサは低分子ですが、真核生物ではコリプレッサはタンパク質です。コリプレッサはDNAに直接結合しませんが、リプレッサに結合することで間接的に遺伝子発現を調節します。コリプレッサは、リプレッサ転写因子に結合して活性化することで、遺伝子発現を抑制します。リプレッサは遺伝子のオペレータ配列(転写因子が結合して遺伝子発現を調節するDNA配列)に結合し、遺伝子の転写を遮断します。
  • 転写開始複合体(transcription initiation complex; TIC)
    リンク先は「転写開始前複合体」です。真核生物(と古細菌)で遺伝子の転写に必要な、タンパク質の巨大な複合体です。転写開始前複合体はDNAの立体構造を変え、RNAポリメラーゼIIが転写開始位置にくるのを助けます。真核生物ではTFIIA、TFIIB、TFIID、TFIIE、TFIIF、TFIIHという6つの転写因子から構成されていることが多いです。一方、古細菌はTFIIA、TFIIF、TFIIHを欠きます。真核生物よりも単純、あるいは先祖型の転写開始機構を持つと考えられています。
  • Narlikar and Ovcharenko, Brief Funct Genomic Proteomic., 2009
    制御エレメント同定系の総説です。「これらは転写開始複合体(transcription initiation complex; TIC)の構成要素でもある」は、the recruitment of TIC requires additional factors, which can be classified into two groups:の1つがco-activatorsであることなどを根拠としています。
  • Rojano論文のFig. 2
    Rojano et al., Brief Bioinform., 2019のことです。全体像の概念図です。
  • Mora et al., Brief Bioinform., 2016
    制御領域系の総説です。Mora論文のことです。Fig. 1が全体像の概念図のもう1つの例です。オープンアクセスなので、Box 1Box 2ともに見られます(そのものずばりの場所にはリンクを張れませんでした)。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • TF
    転写因子(transcription factor)のことです。DNAに特異的に結合するタンパク質のことです。DNA上のプロモータ領域に、基本転写因子とよばれるものと、RNAポリメラーゼ(RNA合成酵素)が結合し、転写が開始します。DNAの遺伝情報をRNAに転写する過程を促進、あるいは逆に抑制します。転写因子はこの機能を単独で、または他のタンパク質と複合体を形成することによって実行します。ヒトのゲノム上には、転写因子をコードする遺伝子がおよそ1,800個程度存在するとの推定がなされています。

2.4.6 ヒストン修飾

  • ヒストン修飾(histone modification)
    リンク先は「ヒストン」です。ヒストンのアセチル化やメチル化といった修飾のことです。染色体の最も基本な構成要素はDNAとヒストンですので、ゲノムだけでなくヒストンの化学修飾も重要なのだと解釈すればよいです。
  • エンハンサ(enhancer)
    特定の遺伝子の転写の可能性を高めるためにタンパク質(アクティベータ)が結合する、短い(50~1500 bp)DNA領域のことです。多くの場合、これらのエンハンサに結合するタンパク質は転写因子とよばれます。エンハンサはシスに作用し、遺伝子から最大で100万 bpも離れている場合もあり、転写開始部位の上流に位置する場合も下流に位置する場合もあります。エンハンサは原核生物と真核生物の双方に存在し、ヒトのゲノム中には数十万個のエンハンサが存在するといわれています。
  • Calo and Wysocka, Mol Cell, 2013
    エンハンサの総説です。「ヒストン修飾は、エンハンサの活性化状況とも深く関連している」は、AbstractのHere we give an overview of enhancer-associated modifications of histones and DNA,などを根拠としています。
  • ヌクレオソーム(nucleosome)
    真核生物におけるDNAのパッケージングの基本的単位です。ヌクレオソームの構造は8つのヒストンタンパク質に巻き付いたDNA断片から構成され、概念的には糸巻きに巻き付いた糸に類似しています。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソームです。各ヌクレオソームの8つのヒストンタンパク質はヒストン8量体とよばれ、その周囲には約1.65ターンのDNAが巻きついています。ヒストン8量体はヒストンH2A、H2B、H3、H4各2コピーずつから構成されます。
  • ヒストン8量体(histone octamer)
    リンク先は「ヒストン」です。真核生物のクロマチン(染色体)を構成する主要なタンパク質複合体です。ヒストンは、長い DNA分子を折りたたんで核内に収納する役割をもちます。ヒストンはDNAに結合するタンパク質の大部分を占め、ヒストンとDNAの重量比はほぼ1:1です。コアヒストンはH2A、H2B、H3、H4の4種類に分類されます。それぞれ2分子ずつ集まって8量体を形成したものがヒストン8量体(ヒストンオクタマー)です。
  • ヒストン8量体が受ける様々な化学修飾についてのまとめ
    • メチル化(methylation; me)
      リシン(K)残基とアルギニン(R)残基を対象としています。さらに置換されるメチル基の数によって以下の3通り存在します。
      • 1つだけの場合:モノメチル化(monomethylation; me1)
      • 2つだけの場合:ジメチル化(dimethylation; me2)
      • 3つだけの場合:トリメチル化(trimethylation; me3)
    • アセチル化(acetylation; ac)
      リシン(K)残基を対象としています。
    • ユビキチン化(ubiquitination; ub)
      リシン(K)残基を対象としています。
    • リン酸化(phosphorylation; ph)
      セリン(S)とスレオニン(T)残基を対象としています。

  • 化学修飾(chemical modification)
    リンク先は「修飾塩基」です。「化学的な修飾」と同義です。DNA塩基配列の一部が修飾を受けることです。染色体の最も基本な構成要素はDNAとヒストンですが、ヒストンのアセチル化やメチル化といった修飾も含みます。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドとよばれ、これが直線状に連なったものはポリペプチドとよばれます。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • アミノ酸残基(amino acid residue)
    リンク先は「残基」です。タンパク質は構成単位であるモノマーが多数連結(重合)してできた高分子化合物であり、化学結合の構造部分とそれ以外の部分に分けられます。このうち後者の「化学結合以外の部分構造」のことを残基といいます。タンパク質はアミノ酸から合成されるので、残基はポリペプチドのアミド結合(ペプチド結合)以外のアミノ酸構造を意味します。また、タンパク質は、その残基部分の特性によって様々に変化するため、「アミノ酸残基」という表現がよくなされます。
  • リシン(lysine)
    α-アミノ酸の1つで側鎖に 4-アミノブチル基をもちます。リジンと表記あるいは音読する場合もあります。 タンパク質構成アミノ酸で、必須アミノ酸です。略号はLys(3文字表記)あるいはK(1文字表記)です。側鎖にアミノ基を持つことから、塩基性アミノ酸に分類されます。リシンは、クエン酸回路に取り込まれてエネルギーを生み出すケト原性アミノ酸です。
  • 残基(residue)
    この場合は、アミノ酸残基のことを指します。タンパク質はアミノ酸から合成されるので、残基はポリペプチドのアミド結合(ペプチド結合)以外のアミノ酸構造のことです。
  • アルギニン(arginine)
    天然に存在するアミノ酸の1つです。2-アミノ-5-グアニジノペンタン酸(2-アミノ-5-グアニジノ吉草酸)のことです。タンパク質構成アミノ酸で、非必須アミノ酸ではありますが、成長期には摂取が必要です。略号はArg(3文字表記)あるいはR(1文字表記)です。塩基性アミノ酸に分類されます。
  • アセチル化(acetylation)
    有機化合物中にアセチル基が導入されることです。IUPAC命名法ではエタノイル化といいます。逆に、有機化合物からアセチル基が除かれる反応は脱アセチル化といいます。具体的には、有機化合物中の活性化した水素原子がアセチル基で置き換わる反応です。水酸基の水素原子がアセチル基で置換されてエステル(酢酸塩)を生じる反応もこの反応に含まれます。
  • ユビキチン化(ubiquitination; ub)
    リンク先は「ユビキチン」です。ユビキチン(ubiquitin)は、76個のアミノ酸からなるタンパク質です。他のタンパク質の修飾に用いられ、タンパク質分解、DNA修復、翻訳調節、シグナル伝達など様々な生命現象に関わっています。至る所にある(ubiquitous)ことからこの名前が付いています。この場合は、ヒストン8量体が受ける化学修飾の文脈で出現した言葉であり、リシン(1文字表記でK)残基を対象としていると本文中で書いています。ヒストン8量体中のリシン(K)残基にユビキチンが結合(付加)することが「ユビキチン化」です。ユビキチン化の対象タンパク質のことを基質(substrate)といいますので、この場合は、ヒストン8量体が基質タンパク質に対応します。
  • リン酸化(phosphorylation; ph)
    各種の有機化合物、なかでも特にタンパク質にリン酸基を付加させる化学反応のことです。英語名からも想像できますが、ホスホリル化ともよばれます。ヒストン8量体が受ける化学修飾という観点では、セリン(S)残基とスレオニン(T)残基が対象です。

  • メチル化(methylation; me)
    ヒストン8量体が受ける化学修飾という観点では、リシン(K)残基とアルギニン(R)残基が対象です。さらに置換されるメチル基の数によって以下の3通り存在します。
    • 1つだけの場合:モノメチル化(monomethylation; me1)
    • 2つだけの場合:ジメチル化(dimethylation; me2)
    • 3つだけの場合:トリメチル化(trimethylation; me3)
  • ヒストン(histone)
    真核生物のクロマチン(染色体)を構成する主要なタンパク質です。ヒストンは、長い DNA分子を折りたたんで核内に収納する役割をもちます。ヒストンはDNAに結合するタンパク質の大部分を占め、ヒストンとDNAの重量比はほぼ1:1です。コアヒストンはH2A、H2B、H3、H4の4種類に分類されます。それぞれ2分子ずつ集まり、ヒストン8量体(ヒストンオクタマー)を形成します。1つのヒストン8量体は、約146 bpのDNAを左巻きに約1.65回巻き付け、ヌクレオソームを構築します。ヌクレオソームはクロマチン構造の最小単位です。
  • Akhmanova et al., Chromosoma, 1997
    ショウジョウバエ(Drosophila melanogaster)のヒストンH3.3の局在に関する論文です。「H3.3など精巣特異的に発現しているもの」は、We used the histone H3.3-specific antiserum to characterize the germ line chromatin in cytological preparations of Drosophila testes, because our previous studies had shown that a histone H3.3-encoding gene is strongly expressed in the germ line of Drosophila males.を根拠としています。
  • Ding et al., Genome, 2021
    霊長類特異的(primate-specific)なヒストンバリアント(histone variants)に関する論文です。「H3.XやH3.Yなど霊長類特異的(primate-specific)に発現しているものなどが存在」は、Among them, H2BFWT, H3.5, H3.X, H3.Y, and H4G are unique to primates (or Hominidae)を根拠としています。
  • ヒストンバリアント(histone variant)
    リンク先は「ヒストン」ですが、「ヒストン・バリアント」という項目があります。ヒストンを構成する3種類(H2A・H2B・H3)のタンパク質それぞれについても、アミノ酸配列が若干異なるサブタイプが存在すると本文中で述べていますが、これらのサブタイプのことをヒストンバリアントといいます。

  • ヒストンコード(histone code)
    リンク先は「ヒストン」です。DNAにコードされた遺伝情報の転写が、様々なヒストン修飾によって部分的に制御されているという仮説のことです。直前の段落でも特異的な発現とヒストンバリアントの関係について述べたように、今日ではこの仮説が遺伝子発現等、数々のクロマチン機能の制御に実際に関わっていることが証明されつつあります。
  • Strahl and Allis, Nature, 2000
    ヒストンコード仮説の論文です。
  • エンハンサ(enhancer)
    特定の遺伝子の転写の可能性を高めるためにタンパク質(アクティベータ)が結合する、短い(50~1500 bp)DNA領域のことです。多くの場合、これらのエンハンサに結合するタンパク質は転写因子とよばれます。エンハンサはシスに作用し、遺伝子から最大で100万 bpも離れている場合もあり、転写開始部位の上流に位置する場合も下流に位置する場合もあります。エンハンサは原核生物と真核生物の双方に存在し、ヒトのゲノム中には数十万個のエンハンサが存在するといわれています。
  • ヒストンH3(histone H3)
    ヒストン8量体を構成する4種類の主要なタンパク質(H2A、H2B、H3、H4)のうちの1つであり、H3のことです。H3は中心となる球状ドメインと長いN末端テールという特徴を持ち、ヌクレオソームの数珠玉構造に関与しています。ヒストンタンパク質は高度な翻訳後修飾を受けますが、ヒストンH3は5つのヒストンのうちで最も大規模に修飾が行われます。ヒストンH3はエピジェネティクスの新興領域で重要なタンパク質であり、その配列の多様性や様々な修飾状態は、遺伝子の動的かつ長期的な調節に役割を果たすと考えられています。
  • H3K4
    ヒストンH3の4番目のリシンのことです。ヒストン8量体の構成要素であるH3の4番目のリシンのことです。
  • H3K4me1
    ヒストン8量体の構成要素であるH3の4番目のリシン(H3K4)のモノメチル化のことです。活性状態のエンハンサ近傍では、この化学修飾がなされています(Calo and Wysocka, Mol Cell, 2013)。
  • H3K27
    ヒストン8量体の構成要素であるヒストンH3の27番目のリシンのことです。
  • H3K27ac
    ヒストン8量体の構成要素であるヒストンH3の27番目のリシン(H3K27)のアセチル化のことです。活性状態のエンハンサ近傍では、この化学修飾がなされています(Calo and Wysocka, Mol Cell, 2013)。
  • 化学修飾(chemical modification)
    リンク先は「修飾塩基」です。「化学的な修飾」と同義です。DNA塩基配列の一部が修飾を受けることです。染色体の最も基本な構成要素はDNAとヒストンですが、ヒストンのアセチル化やメチル化といった修飾も含みます。
  • Calo and Wysocka, Mol Cell, 2013
    エンハンサの総説です。「活性状態のエンハンサ近傍では、ヒストンH3の4番目のリシン(H3K4)のモノメチル化(H3K4me1)、およびヒストンH3の27番目のリシン(H3K27)のアセチル化(H3K27ac)という2種類の化学修飾がなされている」は、Figure 1のAを根拠としています。
  • H3K4me3
    ヒストン8量体の構成要素であるヒストンH3の4番目のリシン(H3K4)のトリメチル化のことです。活性状態のプロモータでよく見られる特徴ですが、エンハンサではそれほど認められません(Heintzman et al., Nat Genet., 2007)。
  • プロモータ(promoter)
    遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
  • Heintzman et al., Nat Genet., 2007
    オープンアクセスではありません。「ヒストンH3の4番目のリシン(H3K4)のトリメチル化(H3K4me3)は活性状態のプロモータでよく見られる特徴であるが、エンハンサではそれほど認められない」は、Abstractのactive promoters are marked by trimethylation of Lys4 of histone H3 (H3K4), whereas enhancers are marked by monomethylation, but not trimethylation, of H3K4.を根拠としています。
  • TSS
    リンク先は「転写 (生物学)」です。転写開始点(transcription start site)の略です。RNAの転写が開始される部位のことであり、転写されたRNAの1番目の塩基の位置に相当します。
page059
  • Djebali et al., Nature, 2012
    「TSSから遠い位置にあるため同定が難しいエンハンサを見つける手がかりとして、H3K4me1/H3K4me3の存在比が高い領域を利用することができる」は、Enhancers are marked by higher levels of H3k4me1 compared to H3K4me3 than novel or annotated promoters (left).を根拠としています。
  • ヒストンマーク(histone mark)
    ヒストンに化学修飾という目印(マーク)がつけられているということを表す言葉です。
  • エピジェネティックマーク(epigenetic mark)
    DNAメチル化やヒストン修飾などを含む広い意味でのエピジェネティク修飾という目印(マーク)がつけられているということを表す言葉です。私の理解では、エピジェネティックマークはヒストンマークを含みます。
  • Audia and Campbell, Cold Spring Harb Perspect Biol., 2016
    ヒストン修飾とガンの総説です。ヒストンマーク(histone mark)やエピジェネティックマーク(epigenetic mark)のような表現がなされている論文例です。

2.5 エンコード計画(ENCODE)

  • エピゲノム(epigenome)
    リンク先は「Epigenome」です。修飾を受けたゲノムのことです。
  • エンコード計画(ENCODE)
    エンコード計画(Encyclopedia of DNA Elements; ENCODE)は、ヒトゲノム中の機能エレメント(functional element)の全貌を解き明かすことを目的としたプロジェクトです。ENCODEは、2003~2007年の第1期(phase I, ENCODE 1)、2007~2012年の第2期(ENCODE 2)、2012~2017年の第3期(ENCODE 3)、そして2017年以降の第4期(ENCODE 4)から構成されています。
  • 転写因子(transcription factor; TF)
    DNAに特異的に結合するタンパク質のことです。DNA上のプロモータ領域に、基本転写因子とよばれるものと、RNAポリメラーゼ(RNA合成酵素)が結合し、転写が開始します。DNAの遺伝情報をRNAに転写する過程を促進、あるいは逆に抑制します。転写因子はこの機能を単独で、または他のタンパク質と複合体を形成することによって実行します。ヒトのゲノム上には、転写因子をコードする遺伝子がおよそ1,800個程度存在するとの推定がなされています。
  • ヒストン修飾(histone modification)
    リンク先は「ヒストン」です。ヒストンのアセチル化やメチル化といった修飾のことです。染色体の最も基本な構成要素はDNAとヒストンですので、ゲノムだけでなくヒストンの化学修飾も重要なのだと解釈すればよいです。
  • クロマチン(chromatin)
    真核細胞内に存在するDNAとタンパク質の複合体のことです。ヒト2倍体細胞に納められているDNAの総延長はおよそ2 mに達します。これを直径約10 μmの核に収納するための構造がクロマチンです。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソーム(nucleosome)です。クロマチンは凝集の度合いによりヘテロクロマチン(heterochromatin)とユークロマチン(euchromatin)に分類されます。遺伝子密度が低い領域や遺伝子発現が抑制されている領域は、強く折りたたまれてヘテロクロマチンを形成する傾向にあります。一方、遺伝子の転写が活発な領域のクロマチンは比較的緩んでおり、ユークロマチンとよばれます。
  • DNAメチル化(DNA methylation)
    DNA中の塩基の炭素原子にメチル基修飾が付加される化学反応です。真核生物や原核生物に広く見られます。特に真核生物の場合、CpGアイランド(CGI)部分などのゲノム領域でよく見られ、エピジェネティクスに深く関わり複雑な生物の体を正確に形づくるために必須の仕組みであると考えられています。がんの形成や進行にも関わっていると考えられています。
  • バイオインフォ(bioinfo)
    バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。

2.5.1 ENCODEの概要

  • エンコード計画(ENCODE)
    エンコード計画(Encyclopedia of DNA Elements; ENCODE)は、ヒトゲノム中の機能エレメント(functional element)の全貌を解き明かすことを目的としたプロジェクトです。ENCODEは、2003~2007年の第1期(phase I, ENCODE 1)、2007~2012年の第2期(ENCODE 2)、2012~2017年の第3期(ENCODE 3)、そして2017年以降の第4期(ENCODE 4)から構成されています。
  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • 機能エレメント(functional element)
    CDSやncRNAのような転写される領域、そしてプロモータやエンハンサのような遺伝子やゲノムの制御領域を指す総称です。
  • CDS
    リンク先は「コーディング領域」です。coding sequenceの略です。タンパク質に翻訳される領域のことです。
  • ncRNA
    ノンコーディングRNA(non-coding RNA)のことです。翻訳されずにRNAのままで機能する遺伝子です。
  • 転写(transcription)
    一般に染色体またはオルガネラのDNAの塩基配列(遺伝子)を元に、RNAが合成されることです。
  • プロモータ(promoter)
    遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
  • エンハンサ(enhancer)
    特定の遺伝子の転写の可能性を高めるためにタンパク質(アクティベータ)が結合する、短い(50~1500 bp)DNA領域のことです。多くの場合、これらのエンハンサに結合するタンパク質は転写因子とよばれます。エンハンサはシスに作用し、遺伝子から最大で100万 bpも離れている場合もあり、転写開始部位の上流に位置する場合も下流に位置する場合もあります。エンハンサは原核生物と真核生物の双方に存在し、ヒトのゲノム中には数十万個のエンハンサが存在するといわれています。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • ENCODE Project Consortium, PLoS Biol., 2011
    ENCODE計画で得られたデータのユーザガイド論文です。
  • トランスクリプトーム(transcriptome)
    特定の状況下において細胞中に存在するすべてのRNA(または一次転写産物; transcript)の総体のことです。ここでは、NGS機器を用いてすべてのRNA(実際にはmRNAのみだったりするので網羅的ではありません)の配列を決定することという意味で、RNAシーケンシング(RNA sequencing)の略称であるRNA-seqが用いられることが多いです。
  • シスエレメント(cis-regulatory elementまたはcis-acting regulatory element; CRE)
    同一DNA配列上(これがcisの意味)の遺伝子発現を調節する領域のことです。ここでの同一DNA配列というのは、たとえば4番染色体上のDNA配列という意味です(正確には同じ4番染色体で母親由来とか父親由来というレベルで同一配列であることまで要求していると思います)。この「4番染色体上の(片方の親由来の)DNA配列」上に遺伝子発現を調節する領域(つまりシスエレメント)があったとすると、そのシスエレメントと同じ「4番染色体上の(片方の親由来の)DNA配列」上の別の領域の遺伝子発現を調節する、ということです。たとえば7番染色体上のDNA配列上のどこかの遺伝子発現を調節するわけではない、という風に理解するとよいです。
  • エピゲノム(epigenome)
    リンク先は「Epigenome」です。修飾を受けたゲノムのことです。
  • ENCODE 3
    エンコード計画(Encyclopedia of DNA Elements)の略です。ENCODEは、ヒトゲノム中の機能エレメント(functional element)の全貌を解き明かすことを目的としたプロジェクトです。ENCODEは、2003~2007年の第1期(phase I, ENCODE 1)、2007~2012年の第2期(ENCODE 2)、2012~2017年の第3期(ENCODE 3)、そして2017年以降の第4期(ENCODE 4)から構成されています。その第3期のことです。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • マウス(mouse)
    リンク先は「ハツカネズミ」です。ネズミ目(齧歯目)ネズミ科 ハツカネズミ属の1種です。学名はMus musculusです。
  • ENCODE Project Consortium, Nature, 2020b
    ENCODE 3の論文です。ヒトで926,535個、マウスで339,815個のシスエレメント候補(candidate cis-regulatory element)を発見し、それらの結果を見せるWebサーバSCREENについて言及されています。

  • ENCODE
    エンコード計画(Encyclopedia of DNA Elements; ENCODE)は、ヒトゲノム中の機能エレメント(functional element)の全貌を解き明かすことを目的としたプロジェクトです。ENCODEは、2003~2007年の第1期(phase I, ENCODE 1)、2007~2012年の第2期(ENCODE 2)、2012~2017年の第3期(ENCODE 3)、そして2017年以降の第4期(ENCODE 4)から構成されています。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • マウス(mouse)
    リンク先は「ハツカネズミ」です。ネズミ目(齧歯目)ネズミ科 ハツカネズミ属の1種です。学名はMus musculusです。
  • モデル生物(model organism)
    生物学、特に分子生物学とその周辺分野において、普遍的な生命現象の研究に用いられる生物のことです。
  • modENCODE:Celnicker et al., Nature, 2009
    ENCODEは、ヒトゲノム中の機能エレメント(functional element)の全貌を解き明かすことを目的としたプロジェクトです。ENCODEは、2003~2007年の第1期(phase I, ENCODE 1)、2007~2012年の第2期(ENCODE 2)、2012~2017年の第3期(ENCODE 3)、そして2017年以降の第4期(ENCODE 4)から構成されています。modENCODEは、その第2期に行われた、モデル生物であるショウジョウバエ(Drosophila melanogaster)と線虫(Caenorhabditis elegans)を対象としたENCODE研究のことです。
  • ショウジョウバエ(Drosophila melanogaster)
    ハエ目(双翅目)・ショウジョウバエ科 (Drosophilidae) に属するハエの総称です。科学の分野では、その一種であるキイロショウジョウバエ (Drosophila melanogaster) のことをこうよぶことが多いです。
  • 線虫
    リンク先は「線形動物」です。線形動物門に属する動物の総称です。線虫ともいいます。
  • ENCODEの展望論文:ENCODE Project Consortium, Nature, 2020a
    ENCODEの全体像については、特にExtended Data Fig. 1が参考になると思います。

  • ENCODE
    エンコード計画(Encyclopedia of DNA Elements; ENCODE)は、ヒトゲノム中の機能エレメント(functional element)の全貌を解き明かすことを目的としたプロジェクトです。ENCODEは、2003~2007年の第1期(phase I, ENCODE 1)、2007~2012年の第2期(ENCODE 2)、2012~2017年の第3期(ENCODE 3)、そして2017年以降の第4期(ENCODE 4)から構成されています。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • マウス(mouse)
    リンク先は「ハツカネズミ」です。ネズミ目(齧歯目)ネズミ科 ハツカネズミ属の1種です。学名はMus musculusです。
  • シスエレメント(cis-regulatory elementまたはcis-acting regulatory element; CRE)
    同一DNA配列上(これがcisの意味)の遺伝子発現を調節する領域のことです。ここでの同一DNA配列というのは、たとえば4番染色体上のDNA配列という意味です(正確には同じ4番染色体で母親由来とか父親由来というレベルで同一配列であることまで要求していると思います)。この「4番染色体上の(片方の親由来の)DNA配列」上に遺伝子発現を調節する領域(つまりシスエレメント)があったとすると、そのシスエレメントと同じ「4番染色体上の(片方の親由来の)DNA配列」上の別の領域の遺伝子発現を調節する、ということです。たとえば7番染色体上のDNA配列上のどこかの遺伝子発現を調節するわけではない、という風に理解するとよいです。
  • ニワトリ(chicken)
    キジ科に属する鳥類の1種で、代表的な家禽として世界中で飼育されています。学名はGallus gallusです。ニワトリを飼育することを養鶏とよびます。
  • ブタ(pig)
    哺乳綱鯨偶蹄目イノシシ科の動物で、イノシシ(猪、Sus scrofa)を家畜化したものです。学名はSus scrofa domesticusです。主に食用(豚肉)とされます。ブタは類人猿以上に体重や皮膚の状態、内臓の大きさなどが人間に近い動物です。この性質を利用して、末期症状の心臓疾患と診断されていた患者に対し、世界で初めて遺伝子操作したブタの心臓移植が2022年初頭に行われました。
  • ウシ(オスがbull、メスがcowとか)
    哺乳綱鯨偶蹄目ウシ科ウシ亜科の動物です。野生のオーロックスが家畜化されて生まれたものです。学名は、家畜種のウシはBos taurusです。牛乳や焼肉でお世話になっています。
  • 畜産(livestock)
    動物のうち家畜・家禽を繁殖、飼育または肥育し、乳製品、肉、卵、皮革など畜産物を得て生活に役立てる産業のことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 比較ゲノム(comparative genomics)
    リンク先は「比較ゲノミクス」です。異なる生物の間でゲノムの構造を比較することにより、それらの進化上の関係、および進化の過程を推定する研究のことです。
  • Kern et al., Nat Commun., 2021
    ENCODE 3の成果として得られたヒトとマウスで報告されたシスエレメントの一部は、ニワトリ(Gallus gallus)・ブタ(Sus scrofa)・ウシ(Bos taurus)という畜産上重要な3生物種のゲノム中にも保存されていることを比較ゲノム解析によって明らかにしたという内容です。ENCODEは決して農学生命科学分野と無縁ではないということが実感できる論文です。2015年に設立された動物ゲノムの機能アノテーションを行うコンソーシアム(The Functional Annotation of Animal Genomes; FAANG)によるパイロットプロジェクトの一環として行われた研究です。
  • FAANG
    2015年に設立された動物ゲノムの機能アノテーションを行うコンソーシアム(The Functional Annotation of Animal Genomes)の略称です。
  • プロモータ(promoter)
    遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
  • エンハンサ(enhancer)
    特定の遺伝子の転写の可能性を高めるためにタンパク質(アクティベータ)が結合する、短い(50~1500 bp)DNA領域のことです。多くの場合、これらのエンハンサに結合するタンパク質は転写因子とよばれます。エンハンサはシスに作用し、遺伝子から最大で100万 bpも離れている場合もあり、転写開始部位の上流に位置する場合も下流に位置する場合もあります。エンハンサは原核生物と真核生物の双方に存在し、ヒトのゲノム中には数十万個のエンハンサが存在するといわれています。
  • ENCODE
    エンコード計画(Encyclopedia of DNA Elements; ENCODE)は、ヒトゲノム中の機能エレメント(functional element)の全貌を解き明かすことを目的としたプロジェクトです。ENCODEは、2003~2007年の第1期(phase I, ENCODE 1)、2007~2012年の第2期(ENCODE 2)、2012~2017年の第3期(ENCODE 3)、そして2017年以降の第4期(ENCODE 4)から構成されています。
  • modENCODE:Celnicker et al., Nature, 2009
    ENCODEは、ヒトゲノム中の機能エレメント(functional element)の全貌を解き明かすことを目的としたプロジェクトです。ENCODEは、2003~2007年の第1期(phase I, ENCODE 1)、2007~2012年の第2期(ENCODE 2)、2012~2017年の第3期(ENCODE 3)、そして2017年以降の第4期(ENCODE 4)から構成されています。modENCODEは、その第2期に行われた、モデル生物であるショウジョウバエ(Drosophila melanogaster)と線虫(Caenorhabditis elegans)を対象としたENCODE研究のことです。

2.5.2 転写制御領域を同定する実験技術(ChIP-seq)

  • エピゲノム(epigenome)
    リンク先は「Epigenome」です。修飾を受けたゲノムのことです。
  • ENCODE
    エンコード計画(Encyclopedia of DNA Elements; ENCODE)は、ヒトゲノム中の機能エレメント(functional element)の全貌を解き明かすことを目的としたプロジェクトです。ENCODEは、2003~2007年の第1期(phase I, ENCODE 1)、2007~2012年の第2期(ENCODE 2)、2012~2017年の第3期(ENCODE 3)、そして2017年以降の第4期(ENCODE 4)から構成されています。
  • ENCODEの展望論文:ENCODE Project Consortium, Nature, 2020a
    Fig. 1は、2009~2019年の期間で、ENCODE計画の中でどのような実験が行われたかを示すものです。横軸のバーが長いほどアッセイ数が多いと読み解きます。色の違いは実験の種類の違いです。右上のlegendでどの実験がどの色に対応しているかがわかります。
  • アッセイ(assay)
    標的実体(被測定物)の存在、量、または機能活性を定性的に評価または定量的に測定するための、臨床検査医学、鉱業、薬理学、環境生物学、および分子生物学における調査(分析)手順のことです。
  • ChIP-seq
    リンク先は「クロマチン免疫沈降」です。クロマチン免疫沈降(chromatin immunoprecipitation)の略がChIPです。免疫沈降によって濃縮されたターゲットの塩基配列をNGS機器でシーケンスするのでChIP-seqです。
  • TF
    転写因子(transcription factor)のことです。DNAに特異的に結合するタンパク質のことです。DNA上のプロモータ領域に、基本転写因子とよばれるものと、RNAポリメラーゼ(RNA合成酵素)が結合し、転写が開始します。DNAの遺伝情報をRNAに転写する過程を促進、あるいは逆に抑制します。転写因子はこの機能を単独で、または他のタンパク質と複合体を形成することによって実行します。ヒトのゲノム上には、転写因子をコードする遺伝子がおよそ1,800個程度存在するとの推定がなされています。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • ヒストン修飾(histone modification)
    リンク先は「ヒストン」です。ヒストンのアセチル化やメチル化といった修飾のことです。染色体の最も基本な構成要素はDNAとヒストンですので、ゲノムだけでなくヒストンの化学修飾も重要なのだと解釈すればよいです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
page060
  • Furey TS, Nat Rev Genet., 2012
    ChIP-seqの総説です。「ChIP-seqが①TFのような特定のタンパク質が結合する領域や、②ヒストン修飾が起こっている領域をゲノム全体にわたって検出できるから」は、Chromatin immunoprecipitation experiments followed by sequencing (ChIP-seq) detect protein-DNA binding events and chemical modifications of histone proteins.を根拠としています。
  • TF ChIP-seq
    ENCODE展望論文(ENCODE Project Consortium, Nature, 2020a)のFig. 1で示されている中の、「転写因子(transcription factor; TF)のような特定のタンパク質が結合する領域の検出を目的としたChIP-seq」のことです。
  • Histone ChIP-seq
    ENCODE展望論文(ENCODE Project Consortium, Nature, 2020a)のFig. 1で示されている中の、「ヒストン修飾が起こっている領域をゲノム全体にわたって検出することを目的としたChIP-seq」のことです。
  • クロマチン免疫沈降(chromatin immunoprecipitation; ChIP)
    リンク先は「クロマチン免疫沈降」です。タンパク質に対する抗体を用いてDNAとタンパク質との相互作用(結合)を研究する方法の1つで、特定のタンパク質(転写因子など)が結合するDNA上の部位とその配列を明らかにする方法です。特定のDNA結合タンパク質(DBP)や修飾されたヒストンに対する抗体を用いることで、DNA上の断片化された当該領域のクロマチンを免疫沈降によって選択的に分離・濃縮する技術です。
  • Solomon et al., Cell, 1988
    ChIPの原著論文です。
  • DBP
    DNA結合タンパク質(DNA-binding protein)、つまりDNA結合ドメインを有するタンパク質のことです。DBPの結合部位は、transcription factor binding site (TFBS)とも略記されます。
  • ヒストン(histone)
    真核生物のクロマチン(染色体)を構成する主要なタンパク質です。ヒストンは、長い DNA分子を折りたたんで核内に収納する役割をもちます。ヒストンはDNAに結合するタンパク質の大部分を占め、ヒストンとDNAの重量比はほぼ1:1です。コアヒストンはH2A、H2B、H3、H4の4種類に分類されます。それぞれ2分子ずつ集まり、ヒストン8量体(ヒストンオクタマー)を形成します。1つのヒストン8量体は、約146 bpのDNAを左巻きに約1.65回巻き付け、ヌクレオソームを構築します。ヌクレオソームはクロマチン構造の最小単位です。
  • 抗体(antibody)
    白血球のサブタイプの1つであるリンパ球の一種であるB細胞の産生する糖タンパク分子です。獲得免疫系の液性免疫(特定のタンパク質などの分子である抗原を認識して、排除する働き)を担う。抗体は主に血液中や体液中に存在します。抗体が抗原へ結合すると、その抗原と抗体の複合体を白血球やマクロファージといった食細胞が認識・貪食して体内から除去するように働いたり、リンパ球などの免疫細胞が結合して免疫反応を引き起こしたりします。これらの働きを通じ、脊椎動物の感染防御機構において重要な役割を担っています。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • クロマチン(chromatin)
    真核細胞内に存在するDNAとタンパク質の複合体のことです。ヒト2倍体細胞に納められているDNAの総延長はおよそ2 mに達します。これを直径約10 μmの核に収納するための構造がクロマチンです。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソーム(nucleosome)です。クロマチンは凝集の度合いによりヘテロクロマチン(heterochromatin)とユークロマチン(euchromatin)に分類されます。遺伝子密度が低い領域や遺伝子発現が抑制されている領域は、強く折りたたまれてヘテロクロマチンを形成する傾向にあります。一方、遺伝子の転写が活発な領域のクロマチンは比較的緩んでおり、ユークロマチンとよばれます。
  • シーケンシング(sequencing)
    リンク先は「DNAシークエンシング」です。DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。

  • ヒストン修飾(histone modification)
    リンク先は「ヒストン」です。ヒストンのアセチル化やメチル化といった修飾のことです。染色体の最も基本な構成要素はDNAとヒストンですので、ゲノムだけでなくヒストンの化学修飾も重要なのだと解釈すればよいです。
  • ChIP-seq
    リンク先は「クロマチン免疫沈降」です。クロマチン免疫沈降(chromatin immunoprecipitation)の略がChIPです。免疫沈降によって濃縮されたターゲットの塩基配列をNGS機器でシーケンスするのでChIP-seqです。
  • H3K4me1
    ヒストン8量体の構成要素であるH3の4番目のリシン(H3K4)のモノメチル化のことです。活性状態のエンハンサ近傍では、この化学修飾がなされています(Calo and Wysocka, Mol Cell, 2013)。
  • H3K27ac
    ヒストン8量体の構成要素であるヒストンH3の27番目のリシン(H3K27)のアセチル化のことです。活性状態のエンハンサ近傍では、この化学修飾がなされています(Calo and Wysocka, Mol Cell, 2013)。
  • エンハンサ(enhancer)
    特定の遺伝子の転写の可能性を高めるためにタンパク質(アクティベータ)が結合する、短い(50~1500 bp)DNA領域のことです。多くの場合、これらのエンハンサに結合するタンパク質は転写因子とよばれます。エンハンサはシスに作用し、遺伝子から最大で100万 bpも離れている場合もあり、転写開始部位の上流に位置する場合も下流に位置する場合もあります。エンハンサは原核生物と真核生物の双方に存在し、ヒトのゲノム中には数十万個のエンハンサが存在するといわれています。
  • H3K4me3
    ヒストン8量体の構成要素であるヒストンH3の4番目のリシン(H3K4)のトリメチル化のことです。活性状態のプロモータでよく見られる特徴ですが、エンハンサではそれほど認められません(Heintzman et al., Nat Genet., 2007)。
  • プロモータ(promoter)
    遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
  • H3K36me3
    ヒストン8量体の構成要素であるヒストンH3の36番目のリシン(H3K36)のトリメチル化のことです。
  • 転写(transcription)
    一般に染色体またはオルガネラのDNAの塩基配列(遺伝子)を元に、RNAが合成されることです。
  • H3K27me3
    ヒストン8量体の構成要素であるヒストンH3の27番目のリシン(H3K27)のトリメチル化のことです。
  • ポリコーム群タンパク質(Polycomb-group protein; PcG)
    ショウジョウバエで最初に発見されたタンパク質複合体のファミリーで、遺伝子のエピジェネティックなサイレンシングが起こるようクロマチンリモデリングを行います。ポリコーム群タンパク質は、キイロショウジョウバエ(Drosophila melanogaster)の胚発生時に、クロマチン構造の調節によってHox遺伝子のサイレンシングを行うことがよく知られています。ポリコーム群タンパク質という名称は、このタンパク質の機能の低下の最初の徴候が多くの場合、特徴的な櫛(comb)状の剛毛を持つ前脚へのホメオティックな変換が後脚に生じるものであることに由来します。
  • H3K9me3
    ヒストン8量体の構成要素であるヒストンH3の9番目のリシン(H3K9)のトリメチル化のことです。
  • ヘテロクロマチン(heterochromatin)
    細胞周期の間も常に凝縮されたクロマチンの形状、または種類のことです。転写されず、濃い色が観察されます。セントロメアとテロメア周辺によく見つかり、主に短い配列の繰り返し構造をとっています。
  • Roadmap Epigenomics Consortium, Nature, 2015
    111のヒトのリファレンスエピゲノムデータを取得したという論文です。Fig. 2eでは、以下の5つのメチル化状態を5列分の疑似カラー(pseudo-color)で表しています。なお、本文中で言及しているエンハンサ領域用のH3K27acは、Fig. 2fの橙色で示されています。
    • H3K4me1(エンハンサ領域用):「e.の黄色」の列です。
    • H3K4me3(プロモータ用):「e.の赤色」の列です。
    • H3K36me3(転写領域用):「e.の緑色」の列です。
    • H3K27me3(転写抑制機能をもつポリコーム群タンパク質の活性状態調査用):「e.の灰色」の列です。
    • H3K9me3(ヘテロクロマチン領域用):「e.の水色」の列です。
  • ENCODE Project Consortium, Nature, 2020a
    ENCODE展望論文です。Fig. 4bは、受精から14.5日が経過したマウス胎児(embryo 14.5 daysの略でE14.5)の前脳(forebrain)とよばれる脳組織における、神経分化因子2(neurogenic differentiation factor 2; Neurod2)の遺伝子領域周辺のmRNA発現(緑色)やエピジェネティックマークなどを調べた結果です。
    • 左図(左上から3方向に延びている矢印のうち、下方向に延びているAssaysの図)。4つのヒストンマーク(H3K4me3, H3K4me2, H3K27ac, and H3K9ac)のプロファイルがよく似ていることがわかります。
    • 真ん中の図(Tissuesの図)。左図と同じE14.5におけるH3K27ac(エンハンサ領域のヒストンマーク)を様々な組織で調べたものです。Neurod2の名前からもある程度想像がつきますが、H3K27acの頻度は前脳で最も高く、中脳(midbrain)や後脳(hindbrain)でもある程度認められ、それ以外の心臓(heart)や肝臓(liver)などではほとんど認められないことがわかります。
    • 右図(Stagesの図)。受精から10.5日(E10.5)から誕生(P0)までのマウス胎児前脳のNeurod2遺伝子領域周辺のmRNA発現(緑色)、およびH3K27acの頻度(黄色)です。
  • 受精(fertilization)
    精子(または精細胞)が卵(または卵細胞)の中に入り込み、細胞分裂によって成長可能な状態になることです。定義としては、一方が卵と見なされる場合の接合のことです。動物の場合の接合はすべてこれです。一般に受精といえば動物のそれを指すことが多いです。
  • マウス(mouse)
    リンク先は「ハツカネズミ」です。ネズミ目(齧歯目)ネズミ科ハツカネズミ属の1種です。学名はMus musculusです。
  • 胎児(fetus)
    生物学上は、胎生の動物の母体の中で胚が器官原基の分化が完了してから出産までの成長中の子を指します。
  • 前脳(forebrain)
    は脊椎動物の脳の最吻側に位置する領域です。前脳・中脳・菱脳で発生初期の中枢神経系の三大領域を成します。前脳は体温、生殖機能、食事、睡眠、あらゆる感情の表現を司ります。
  • 神経分化因子2(Neurod2)
    NeuroD(別名:Beta2)とよばれる脳の特定の部分、ベータ膵臓細胞、腸内分泌細胞で発現するbasic helix-loop-helix (bHLH)タンパク質ファミリーのメンバーです。Neurod2遺伝子を発現させると、GAP-43プロモータなど、E-boxとよばれる特異的なDNA配列を含む神経細胞特異的プロモータからの転写を誘導することができます。DNA結合タンパク質(DBP)です。
  • mRNA発現(mRNA expression)
    この場合は、Neurod2遺伝子の発現という理解でよいです。
  • エピジェネティックマーク(epigenetic mark)
    DNAメチル化やヒストン修飾などを含む広い意味でのエピジェネティク修飾という目印(マーク)がつけられているということを表す言葉です。私の理解では、エピジェネティックマークはヒストンマークを含みます。
  • ヒストンマーク(histone mark)
    ヒストンに化学修飾という目印(マーク)がつけられているということを表す言葉です。

  • E14.5
    受精から14.5日が経過したマウス胎児のことです。E14.5の最初のEは、胎児を意味するembryoの頭文字です。マウスは即ちハツカネズミ(20日で生まれてくる)ですので、E14.5くらいで前脳・中脳・後脳を切り分けてサンプリングできるという現実的な事柄も念頭におかねばなりません。
  • H3K27ac
    ヒストンH3の27番目のリシン(H3K27)のアセチル化のことです。活性状態のエンハンサ近傍では、この化学修飾がなされています(Calo and Wysocka, Mol Cell, 2013)。
  • Neurod2
    神経分化因子2(neurodifferentiation factor 2)の略です。NeuroD(別名:Beta2)とよばれる脳の特定の部分、ベータ膵臓細胞、腸内分泌細胞で発現するbasic helix-loop-helix (bHLH)タンパク質ファミリーのメンバーです。Neurod2遺伝子を発現させると、GAP-43プロモータなど、E-boxとよばれる特異的なDNA配列を含む神経細胞特異的プロモータからの転写を誘導することができます。DNA結合タンパク質(DBP)です。
  • 中脳(midbrain)
    脳の一部です。ヒトの場合は、なめらかな動きを可能にする錐体外路性運動系の重要な中継所を含むほか、対光反射、視聴覚の中継所、眼球運動反射、姿勢反射(立ち直り反射)、γ運動ニューロン活動抑制、歩行リズムの中枢をも含みます。
  • 心臓(heart)
    血液循環の原動力となる器官のことです。血液循環系の中枢器官のことです。心臓は特に脊椎動物のもつ筋肉質の臓器であり、律動的な収縮によって血液の循環を行うポンプの役目を担っています。ある程度規模の大きな多細胞の動物において、細胞が代謝を維持するには常に血液によってエネルギー源や酸素を受け取り、老廃物や二酸化炭素を運び出す必要があります。そのため、心臓が機能を停止することは、生き物の存続条件の1つである代謝・呼吸ができなくなることです。
  • 肝臓(liver)
    哺乳類・鳥類・両生類・爬虫類・魚類等の脊椎動物に存在する臓器の1つです。ヒトの場合は腹部の右上に位置する内臓です。ヒトにおいては最大の内臓であり、体内維持に必須の機能も多く、特に生体の内部環境の維持に大きな役割を果たしています。
  • E10.5
    受精から10.5日が経過したマウス胎児のことです。E14.5の最初のEは、胎児を意味するembryoの頭文字です。
  • 前脳(forebrain)
    は脊椎動物の脳の最吻側に位置する領域です。前脳・中脳・菱脳で発生初期の中枢神経系の三大領域を成します。前脳は体温、生殖機能、食事、睡眠、あらゆる感情の表現を司ります。
  • mRNA発現(mRNA expression)
    この場合は、Neurod2遺伝子の発現という理解でよいです。
  • 遺伝子発現(gene expression)
    遺伝子の情報が細胞における構造および機能に変換される過程のことです。
  • ChIP-seq
    リンク先は「クロマチン免疫沈降」です。クロマチン免疫沈降(chromatin immunoprecipitation)の略がChIPです。免疫沈降によって濃縮されたターゲットの塩基配列をNGS機器でシーケンスするのでChIP-seqです。
  • トランスクリプトーム(transcriptome)
    特定の状況下において細胞中に存在するすべてのRNA(または一次転写産物; transcript)の総体のことです。ここでは、NGS機器を用いてすべてのRNA(実際にはmRNAのみだったりするので網羅的ではありません)の配列を決定することという意味で、RNAシーケンシング(RNA sequencing)の略称であるRNA-seqが用いられることが多いです。
  • RNA
    リボ核酸(ribonucleic acid)のことです。リボースを糖成分とする核酸です。リボヌクレオチドが多数重合したもので、1本鎖をなし、アデニン(A)、グアニン(G)、シトシン(C)、ウラシル(U)の4種の塩基を含みます。一般にDNA(デオキシリボ核酸)を鋳型として合成され、その遺伝情報の伝達やタンパク質の合成を行います。
  • DNAアクセシビリティ(DNA accessibility)
    ざっくり言えば、DNA中のどこがオープンクロマチン領域(ヒストン8量体が外れてDNAがむき出しの状態になっている領域)かを調べることと同義です。そのような領域は転写因子(TF)の結合部位(つまりシスエレメント)を含んでいます。シスエレメントは、転写開始点(transcription start site; TSS)近傍にあるプロモータ内の結合部位だけではなく、数千塩基上流にあるエンハンサやサイレンサ、そしてインシュレータとよばれる領域も含んでいる(Rojano et al., Brief Bioinform., 2019)ので、多くの研究者が興味をもつのです。
  • メチル化(methylation)
    リンク先は「DNAメチル化」です。DNA中の塩基の炭素原子にメチル基修飾が付加される化学反応です。真核生物や原核生物に広く見られます。特に真核生物の場合、CpGアイランド(CGI)部分などのゲノム領域でよく見られ、エピジェネティクスに深く関わり複雑な生物の体を正確に形づくるために必須の仕組みであると考えられています。がんの形成や進行にも関わっていると考えられています。本文中では「シトシンのピリミジン環の5位炭素原子へのメチル基の付加反応」のみにしか言及していませんが、正確には「アデニンのプリン環の6位窒素原子へのメチル基の付加反応」もあります。

2.5.3 オープンクロマチン領域を同定する実験技術

  • クロマチン(chromatin)
    真核細胞内に存在するDNAとタンパク質の複合体のことです。ヒト2倍体細胞に納められているDNAの総延長はおよそ2 mに達します。これを直径約10 μmの核に収納するための構造がクロマチンです。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソーム(nucleosome)です。クロマチンは凝集の度合いによりヘテロクロマチン(heterochromatin)とユークロマチン(euchromatin)に分類されます。遺伝子密度が低い領域や遺伝子発現が抑制されている領域は、強く折りたたまれてヘテロクロマチンを形成する傾向にあります。一方、遺伝子の転写が活発な領域のクロマチンは比較的緩んでおり、ユークロマチンとよばれます。
  • DBP
    DNA結合タンパク質(DNA-binding protein)、つまりDNA結合ドメインを有するタンパク質のことです。DBPの結合部位は、transcription factor binding site (TFBS)とも略記されます。
  • Neurod2
    神経分化因子2(neurodifferentiation factor 2)の略です。NeuroD(別名:Beta2)とよばれる脳の特定の部分、ベータ膵臓細胞、腸内分泌細胞で発現するbasic helix-loop-helix (bHLH)タンパク質ファミリーのメンバーです。Neurod2遺伝子を発現させると、GAP-43プロモータなど、E-boxとよばれる特異的なDNA配列を含む神経細胞特異的プロモータからの転写を誘導することができます。DNA結合タンパク質(DBP)です。
  • ヘテロクロマチン(heterochromatin)
    細胞周期の間も常に凝縮されたクロマチンの形状、または種類のことです。転写されず、濃い色が観察されます。セントロメアとテロメア周辺によく見つかり、主に短い配列の繰り返し構造をとっています。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • TF
    転写因子(transcription factor)のことです。DNAに特異的に結合するタンパク質のことです。DNA上のプロモータ領域に、基本転写因子とよばれるものと、RNAポリメラーゼ(RNA合成酵素)が結合し、転写が開始します。DNAの遺伝情報をRNAに転写する過程を促進、あるいは逆に抑制します。転写因子はこの機能を単独で、または他のタンパク質と複合体を形成することによって実行します。ヒトのゲノム上には、転写因子をコードする遺伝子がおよそ1,800個程度存在するとの推定がなされています。
  • アクセシビリティ(accessibility)
    この場合は、DNAアクセシビリティ(DNA accessibility)と同義です。
  • オープンクロマチン(open chromatin)
    リンク先は「クロマチン」です。クロマチンは、真核細胞内に存在するDNAとタンパク質の複合体のことです。クロマチンを構築するうえで最も基本となる構造は、ヒストン8量体の周囲に2ターン弱のDNAが巻きついているヌクレオソームです。オープンクロマチンとは、このヌクレオソームがほどけて(ヒストン8量体が外れて)いる状態のクロマチン構造のことです。それゆえ、オープンクロマチン領域とは、ヒストン8量体が外れてDNAがむき出しの状態になっている領域のことを指します。クロマチンは、凝集度の高いヘテロクロマチンと凝集度の低いユークロマチンの2種類だと理解しているヒトがおそらく多く、ユークロマチンとオープンクロマチンの位置づけが不明瞭な印象を受けるかもしれません。ユークロマチン自体はヌクレオソーム構造が比較的緩んでいるという程度の定義であるため、ユークロマチンの中でも明確に「ヒストン8量体が外れてDNAがむき出しの状態になっている領域」を指したいことと、本文中でも後述しますがそのような領域を検出する実験技術のイノベーションがあったことにより、(ユークロマチンではなく)オープンクロマチンという表現が頻用されるようになったのだと理解すればよいと思います。
  • ENCODE
    エンコード計画(Encyclopedia of DNA Elements; ENCODE)は、ヒトゲノム中の機能エレメント(functional element)の全貌を解き明かすことを目的としたプロジェクトです。ENCODEは、2003~2007年の第1期(phase I, ENCODE 1)、2007~2012年の第2期(ENCODE 2)、2012~2017年の第3期(ENCODE 3)、そして2017年以降の第4期(ENCODE 4)から構成されています。
  • ENCODEの展望論文:ENCODE Project Consortium, Nature, 2020a
    Fig. 1は、2009~2019年の期間で、ENCODE計画の中でどのような実験が行われたかを示すものです。横軸のバーが長いほどアッセイ数が多いと読み解きます。色の違いは実験の種類の違いです。右上のlegendでどの実験がどの色に対応しているかがわかります。本文中で議論の対象としているDNAアクセシビリティ(DNA accessibility)は、上から2番目、そしてカラーバーとしては左から2番目のものに相当します。2011年まではほぼ0だったのが、2013年以降徐々に増えていることが見てとれます。
  • アッセイ(assay)
    標的実体(被測定物)の存在、量、または機能活性を定性的に評価または定量的に測定するための、臨床検査医学、鉱業、薬理学、環境生物学、および分子生物学における調査(分析)手順のことです。
  • DNAアクセシビリティ(DNA accessibility)を調べる具体的な実験技術名
  • DNase-seq
    オープンクロマチン領域のDNAを優先的に切断する酵素(DNase I)によって切断される領域の配列情報を得る実験技術です。DNase Iは、ヒストン8量体に巻き付けられてヌクレオソーム構造をとっているDNA領域(つまりヘテロクロマチン領域)には作用できません。しかし、ヌクレオソーム構造が比較的緩いユークロマチン領域の中でも、特にヒストン8量体が外れてオープンな状態になっているクロマチン領域であれば、DNase Iが作用できると考えればよいです。この酵素による切断で得られたDNA断片配列は、オープンクロマチン領域由来である確率が非常に高いので、それをシーケンサにかけてリードを得るという手順がDNase-seqです。
  • ATAC-seq
    Assay for Transposase-Accessible Chromatin using sequencingの略です。得られる情報自体はDNase-seqと基本的に同じで、オープンクロマチン領域由来のリードを得るための実験技術です。トランスポザーゼ(transposase)は、トランスポゾン(transposon)の末端に結合し、カットアンドペーストメカニズムまたは複製転移メカニズムによってゲノムの別の部分への移動を触媒する酵素です。ATAC-seqでは、「Tn5というトランスポゾン配列を認識してトランスポゾンをゲノム配列から切り出したのち、適当な箇所に再度挿入する”Tn5トランスポザーゼ”」を改良して、オープンクロマチン領域中の2本鎖DNAを切断し(これが断片化)、得られた断片配列の両端にアダプター配列を挿入する(これがタグ付け)高活性・変異型のTn5トランスポザーゼを利用しているのが特徴です。得られるライブラリ中のインサート(ライブラリ調製後のDNA断片のこと)は、オープンクロマチン領域由来DNA断片であり、既にアダプター配列の付加まで終わっているというのも特徴です。この断片化とタグ付けを行う一連のプロセスが、タグ付け(tagging)と断片化(fragmentation)の造語としてタグメンテーション(tagmentation)とよばれよばれるものです。YoutubeのATAC Sequencingという動画も理解しやすいと思います。
  • オープンクロマチン(open chromatin)
    リンク先は「クロマチン」です。クロマチンは、真核細胞内に存在するDNAとタンパク質の複合体のことです。クロマチンを構築するうえで最も基本となる構造は、ヒストン8量体の周囲に2ターン弱のDNAが巻きついているヌクレオソームです。オープンクロマチンとは、このヌクレオソームがほどけて(ヒストン8量体が外れて)いる状態のクロマチン構造のことです。それゆえ、オープンクロマチン領域とは、ヒストン8量体が外れてDNAがむき出しの状態になっている領域のことを指します。クロマチンは、凝集度の高いヘテロクロマチンと凝集度の低いユークロマチンの2種類だと理解しているヒトがおそらく多く、ユークロマチンとオープンクロマチンの位置づけが不明瞭な印象を受けるかもしれません。ユークロマチン自体はヌクレオソーム構造が比較的緩んでいるという程度の定義であるため、ユークロマチンの中でも明確に「ヒストン8量体が外れてDNAがむき出しの状態になっている領域」を指したいことと、本文中でも後述しますがそのような領域を検出する実験技術のイノベーションがあったことにより、(ユークロマチンではなく)オープンクロマチンという表現が頻用されるようになったのだと理解すればよいと思います。
  • MNase-seq
    micrococcal nuclease digestion with deep sequencingの略です。micrococcal nuclease (MNase)という酵素で、まずタンパク質が結合していないDNA領域を非特異的に切断すると、「①ヒストン8量体に巻き付けられてヌクレオソーム構造をとっているDNA領域」と「②転写因子が結合しているDNA領域」が残ります。これらの領域のリード情報を得る実験技術がMNase-seqです。MNase-seqはヌクレオソーム構造をとっている領域の両端の情報を得ることができますが、これは①で得られたDNA断片の両端のリードを得ているからだと理解すればよいです。
  • ヌクレオソーム(nucleosome)
    真核生物におけるDNAのパッケージングの基本的単位です。ヌクレオソームの構造は8つのヒストンタンパク質に巻き付いたDNA断片から構成され、概念的には糸巻きに巻き付いた糸に類似しています。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソームです。各ヌクレオソームの8つのヒストンタンパク質はヒストン8量体とよばれ、その周囲には約1.65ターンのDNAが巻きついています。ヒストン8量体はヒストンH2A、H2B、H3、H4各2コピーずつから構成されます。
page061
  • DNase-seq
    オープンクロマチン領域のDNAを優先的に切断する酵素(DNase I)によって切断される領域の配列情報を得る実験技術です。DNase Iは、ヒストン8量体に巻き付けられてヌクレオソーム構造をとっているDNA領域(つまりヘテロクロマチン領域)には作用できません。しかし、ヌクレオソーム構造が比較的緩いユークロマチン領域の中でも、特にヒストン8量体が外れてオープンな状態になっているクロマチン領域であれば、DNase Iが作用できると考えればよいです。この酵素による切断で得られたDNA断片配列は、オープンクロマチン領域由来である確率が非常に高いので、それをシーケンサにかけてリードを得るという手順がDNase-seqです。
  • DNase I
    リンク先は「デオキシリボヌクレアーゼ」です。deoxyribonuclease (DNase)です。オープンクロマチン領域のDNAを優先的に切断する酵素です。
  • Barozzi et al., Front Genet., 2014
    DNase-seq footprint identification strategiesの評価論文です。DNase-seqは、名前の由来でもあるDNase Iによって切断されない領域(これを足跡という意味で”footprints”といいます)の情報を取得する戦略もいくつか存在します。
  • ATAC-seq論文のFigure 3a
    論文はBuenrostro et al., Nat Methods, 2013です。Fig. 3aは、ヒトゲノム配列(バージョンはhg19)中の19番染色体(chr19)の36,544,500番目から36,546,500番目の塩基あたりで、約2kbの範囲の結果を示しています(図の1番上の座標情報に基づいて、たぶんこれでよいだろうという数値で記載しています)。計8種類の実験結果が示されています。この図は2つのTSSを含む領域だと書かれておりますが、それに相当する情報が真ん中付近にある「RefSeq Genes」のTHAP8WDR62という2つの遺伝子領域です。THAP8は左向き、WDR62は右向きに転写されると読み解きます。
    • ATAC-seqのNucleosome-free readsは、オープンクロマチン領域に相当します。ヌクレオソームフリーのリードをマップした結果だからです。
    • ATAC-seqのNucleosome signalは、ヌクレオソーム構造をとっている領域に相当します。
    • ENCODE CAGEは、転写開始点(transcription start site; TSS)付近のリードをマップしたものだと理解すればよいです。
    • DNase (UW)は、オープンクロマチン領域に相当します。1番目の「ATAC-seqのNucleosome-free reads」とプロファイルが似ていますが、ATAC-seqのほうが感度が高いことがわかります。
    • MNase-seqは、ヌクレオソーム構造をとっている領域に相当します。2番目の「ATAC-seqのNucleosome signal」とプロファイルが似ていますが、ATAC-seqのほうが感度が高いことがわかります。
  • ヘテロクロマチン(heterochromatin)
    細胞周期の間も常に凝縮されたクロマチンの形状、または種類のことです。転写されず、濃い色が観察されます。セントロメアとテロメア周辺によく見つかり、主に短い配列の繰り返し構造をとっています。
  • ユークロマチン(euchromatin)
    比較的緩んだ形状または種類のクロマチンのことです。転写が頻繁な領域、すなわち遺伝子がより多く含まれている領域です(緩んでないとDNAポリメラーゼがそもそも近づけないと理解すればよいです)。染色体上では薄い色が観察され、細胞周期では中期でのみ凝縮されます。
  • DNAアクセシビリティ(DNA accessibility)
    ざっくり言えば、DNA中のどこがオープンクロマチン(open chromatin)領域かを調べることと同義です。オープンクロマチン領域とは、ヒストン8量体が外れてDNAがむき出しの状態になっている領域のことです。そのような領域は転写因子(TF)の結合部位(つまりシスエレメント)を含んでいます。シスエレメントは、転写開始点(transcription start site; TSS)近傍にあるプロモータ内の結合部位だけではなく、数千塩基上流にあるエンハンサやサイレンサ、そしてインシュレータとよばれる領域も含んでいる(Rojano et al., Brief Bioinform., 2019)ので、多くの研究者が興味をもつのです。
  • Zhang et al., Nat Commun., 2020
    ChIP-seqの総説です。Abstractにある「open (eu) and condensed (hetero) chromatin」という記載から、open chromatinとeuchromatinが概ね同じものだということがわかります。

2.5.4 DNAメチル化状態を調べる実験技術

  • エピゲノム(epigenome)
    リンク先は「Epigenome」です。修飾を受けたゲノムのことです。
  • ENCODE展望論文(ENCODE Project Consortium, Nature, 2020a)
    Fig. 1は、2011~2019年にENCODEで行われた2年ごとの実験(アッセイ)数およびその内訳です。本文中で議論の対象としているDNAメチル化(DNA methylation)は、上から3番目、そしてカラーバーとしては左から3番目のものに相当します。2011年以降徐々に増えていることが見てとれます。
  • DNAme assays
    • 既知のCpGサイトのメチル化状態を調べるためのマイクロアレイ(microarrays)です。
    • Illumina Infinium Methylation EPIC BeadChip(GPL21145)でプローブ(何かの同定や定量のために使う物質)配列情報や、この製品を使ってどのようなサンプルのデータが取得されたかなどのID情報がわかります。
    • ENCODEでこの製品(デバイス)を用いてデータ取得がなされた例は、ENCSR899LHQです。
    • 約85万個のCpGサイトを調べるためのオリゴヌクレオチドがプローブとして搭載されています。プローブには以下の領域が含まれています。
      • ①遺伝子領域全体(プロモータや5’UTRから3’UTRまでを含む)
      • ②CGIsおよびその周辺(CpG shoreやCpG shelfとよばれる領域)
      • ③CGIs以外のCpGサイト
      • ④癌と正常でメチル化状態が異なる領域
      • FANTOM 4で同定されたプロモータ:FANTOM Consortium, Nat Genet., 2009
      • miRNA(microRNA, マイクロRNA)プロモータ
      • FANTOM 5で同定されたエンハンサ:FANTOM Consortium, Nature, 2014
      • ⑧ENCODEで同定されたオープンクロマチンとエンハンサ
  • 第2世代シーケンサ(second-generation sequencer)
    イルミナ社が製造しているような「大量のショートリードを出力するシーケンサのこと」です。かつて次世代シーケンサ(NGS)とよばれていたジャンルの、何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。
  • イルミナ(Illumina)
    出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • CpGサイト
    ゲノム中でCGという2連続塩基になっている箇所のことです。
  • メチル化(methylation)
    リンク先は「DNAメチル化」です。DNA中の塩基の炭素原子にメチル基修飾が付加される化学反応です。真核生物や原核生物に広く見られます。特に真核生物の場合、CpGアイランド(CGI)部分などのゲノム領域でよく見られ、エピジェネティクスに深く関わり複雑な生物の体を正確に形づくるために必須の仕組みであると考えられています。がんの形成や進行にも関わっていると考えられています。本文中では「シトシンのピリミジン環の5位炭素原子へのメチル基の付加反応」のみにしか言及していませんが、正確には「アデニンのプリン環の6位窒素原子へのメチル基の付加反応」もあります。
  • オリゴヌクレオチド(oligonucleotide)
    おおよそ20 bpかそれ以下の長さの短いヌクレオチド(DNAまたはRNA)の配列のことです。
  • プローブ(probe)
    何かの同定や定量のために使う物質のことです。対象を探ったり試すための道具のことです。探針(たんしん)ともいいますが、生命科学分野ではプローブとよばれるほうが圧倒的に多いです。

  • プローブ(probe)
    何かの同定や定量のために使う物質のことです。対象を探ったり試すための道具のことです。探針(たんしん)ともいいますが、生命科学分野ではプローブとよばれるほうが圧倒的に多いです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • CpGサイト
    ゲノム中でCGという2連続塩基になっている箇所のことです。
  • メチル化(methylation)
    リンク先は「DNAメチル化」です。DNA中の塩基の炭素原子にメチル基修飾が付加される化学反応です。真核生物や原核生物に広く見られます。特に真核生物の場合、CpGアイランド(CGI)部分などのゲノム領域でよく見られ、エピジェネティクスに深く関わり複雑な生物の体を正確に形づくるために必須の仕組みであると考えられています。がんの形成や進行にも関わっていると考えられています。本文中では「シトシンのピリミジン環の5位炭素原子へのメチル基の付加反応」のみにしか言及していませんが、正確には「アデニンのプリン環の6位窒素原子へのメチル基の付加反応」もあります。
  • FANTOM4FANTOM Consortium, Nat Genet., 2009
    理化学研究所のマウスゲノム百科事典プロジェクトで収集された完全長cDNAのアノテーション(機能注釈)を行うことを目的に、林崎良英博士が中心となり2000年に結成された国際研究コンソーシアムがFANTOMです。FANTOM4は、発現制御ネットワークの理解を目指して行われたプロジェクトです。
  • FANTOM
    理化学研究所のマウスゲノム百科事典プロジェクトで収集された完全長cDNAのアノテーション(機能注釈)を行うことを目的に、林崎良英博士が中心となり2000年に結成された国際研究コンソーシアムです。その役割はトランスクリプトーム解析の分野を軸に発展・拡大しており、最新のFANTOM6ではノンコーディングRNAの機能解析が行われています。
  • プロモータ(promoter)
    遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
  • miRNA
    マイクロRNA(microRNA)のことです。ゲノム上にコードされ、多段階的な生成過程を経て最終的に20から25塩基長の微小RNAとなる機能性核酸です。ノンコーディングRNA(ncRNA)の一種です。
  • FANTOM5FANTOM Consortium, Nature, 2014
    理化学研究所のマウスゲノム百科事典プロジェクトで収集された完全長cDNAのアノテーション(機能注釈)を行うことを目的に、林崎良英博士が中心となり2000年に結成された国際研究コンソーシアムがFANTOMです。FANTOM5は、「哺乳類プロモーター・エンハンサー・長鎖ノンコーディングRNA(lncRNA)、マイクロRNA(miRNA)の発現地図」構築を目指して行われたプロジェクトです。
  • エンハンサ(enhancer)
    特定の遺伝子の転写の可能性を高めるためにタンパク質(アクティベータ)が結合する、短い(50~1500 bp)DNA領域のことです。多くの場合、これらのエンハンサに結合するタンパク質は転写因子とよばれます。エンハンサはシスに作用し、遺伝子から最大で100万 bpも離れている場合もあり、転写開始部位の上流に位置する場合も下流に位置する場合もあります。エンハンサは原核生物と真核生物の双方に存在し、ヒトのゲノム中には数十万個のエンハンサが存在するといわれています。
  • ENCODE
    エンコード計画(Encyclopedia of DNA Elements; ENCODE)は、ヒトゲノム中の機能エレメント(functional element)の全貌を解き明かすことを目的としたプロジェクトです。ENCODEは、2003~2007年の第1期(phase I, ENCODE 1)、2007~2012年の第2期(ENCODE 2)、2012~2017年の第3期(ENCODE 3)、そして2017年以降の第4期(ENCODE 4)から構成されています。
  • オープンクロマチン(open chromatin)
    リンク先は「クロマチン」です。クロマチンは、真核細胞内に存在するDNAとタンパク質の複合体のことです。クロマチンを構築するうえで最も基本となる構造は、ヒストン8量体の周囲に2ターン弱のDNAが巻きついているヌクレオソームです。オープンクロマチンとは、このヌクレオソームがほどけて(ヒストン8量体が外れて)いる状態のクロマチン構造のことです。それゆえ、オープンクロマチン領域とは、ヒストン8量体が外れてDNAがむき出しの状態になっている領域のことを指します。クロマチンは、凝集度の高いヘテロクロマチンと凝集度の低いユークロマチンの2種類だと理解しているヒトがおそらく多く、ユークロマチンとオープンクロマチンの位置づけが不明瞭な印象を受けるかもしれません。ユークロマチン自体はヌクレオソーム構造が比較的緩んでいるという程度の定義であるため、ユークロマチンの中でも明確に「ヒストン8量体が外れてDNAがむき出しの状態になっている領域」を指したいことと、本文中でも後述しますがそのような領域を検出する実験技術のイノベーションがあったことにより、(ユークロマチンではなく)オープンクロマチンという表現が頻用されるようになったのだと理解すればよいと思います。
  • シスエレメント(cis-regulatory elementまたはcis-acting regulatory element; CRE)
    同一DNA配列上(これがcisの意味)の遺伝子発現を調節する領域のことです。ここでの同一DNA配列というのは、たとえば4番染色体上のDNA配列という意味です(正確には同じ4番染色体で母親由来とか父親由来というレベルで同一配列であることまで要求していると思います)。この「4番染色体上の(片方の親由来の)DNA配列」上に遺伝子発現を調節する領域(つまりシスエレメント)があったとすると、そのシスエレメントと同じ「4番染色体上の(片方の親由来の)DNA配列」上の別の領域の遺伝子発現を調節する、ということです。たとえば7番染色体上のDNA配列上のどこかの遺伝子発現を調節するわけではない、という風に理解するとよいです。
  • DNAアクセシビリティ(DNA accessibility)
    ざっくり言えば、DNA中のどこがオープンクロマチン(open chromatin)領域かを調べることと同義です。オープンクロマチン領域とは、ヒストン8量体が外れてDNAがむき出しの状態になっている領域のことです。そのような領域は転写因子(TF)の結合部位(つまりシスエレメント)を含んでいます。シスエレメントは、転写開始点(transcription start site; TSS)近傍にあるプロモータ内の結合部位だけではなく、数千塩基上流にあるエンハンサやサイレンサ、そしてインシュレータとよばれる領域も含んでいる(Rojano et al., Brief Bioinform., 2019)ので、多くの研究者が興味をもつのです。
  • エピゲノム(epigenome)
    リンク先は「Epigenome」です。修飾を受けたゲノムのことです。

2.6 CGI領域予測

  • バイオインフォ(bioinfo)
    バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • エピゲノム(epigenome)
    リンク先は「Epigenome」です。修飾を受けたゲノムのことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 転写(transcription)
    一般に染色体またはオルガネラのDNAの塩基配列(遺伝子)を元に、RNAが合成されることです。
  • プロモータ(promoter)
    遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
  • エンハンサ(enhancer)
    特定の遺伝子の転写の可能性を高めるためにタンパク質(アクティベータ)が結合する、短い(50~1500 bp)DNA領域のことです。多くの場合、これらのエンハンサに結合するタンパク質は転写因子とよばれます。エンハンサはシスに作用し、遺伝子から最大で100万 bpも離れている場合もあり、転写開始部位の上流に位置する場合も下流に位置する場合もあります。エンハンサは原核生物と真核生物の双方に存在し、ヒトのゲノム中には数十万個のエンハンサが存在するといわれています。
  • シスエレメント(cis-regulatory elementまたはcis-acting regulatory element; CRE)
    同一DNA配列上(これがcisの意味)の遺伝子発現を調節する領域のことです。ここでの同一DNA配列というのは、たとえば4番染色体上のDNA配列という意味です(正確には同じ4番染色体で母親由来とか父親由来というレベルで同一配列であることまで要求していると思います)。この「4番染色体上の(片方の親由来の)DNA配列」上に遺伝子発現を調節する領域(つまりシスエレメント)があったとすると、そのシスエレメントと同じ「4番染色体上の(片方の親由来の)DNA配列」上の別の領域の遺伝子発現を調節する、ということです。たとえば7番染色体上のDNA配列上のどこかの遺伝子発現を調節するわけではない、という風に理解するとよいです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • CpGIS:Takai and Jones, Proc Natl Acad Sci USA., 2002
    CpGアイランド(CGI)同定プログラムの論文です。CpGISのようなCGI同定プログラムも(多くのプロモータはCGIをもつことから)プロモータ領域の予測に一部含まれます。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • Ioshikhes and Zhang, Nat Genet., 2000
    ヒトゲノムのCpG解析論文です。「CGI同定プログラムもプロモータ領域の予測に一部含まれる」は、Abstract中のApproximately 50% of mammalian gene promoters are associated with one or more CpG islands.を根拠としています。
  • メチル化(methylation)
    リンク先は「DNAメチル化」です。DNA中の塩基の炭素原子にメチル基修飾が付加される化学反応です。真核生物や原核生物に広く見られます。特に真核生物の場合、CpGアイランド(CGI)部分などのゲノム領域でよく見られ、エピジェネティクスに深く関わり複雑な生物の体を正確に形づくるために必須の仕組みであると考えられています。がんの形成や進行にも関わっていると考えられています。本文中では「シトシンのピリミジン環の5位炭素原子へのメチル基の付加反応」のみにしか言及していませんが、正確には「アデニンのプリン環の6位窒素原子へのメチル基の付加反応」もあります。
  • エピジェネティック(epigenetic)
    リンク先は「エピジェネティクス」です。ゲノムの塩基配列自体は変わらないものの、その一部が化学的な修飾を受けて遺伝子の発現が制御され、それが維持されるさまのことです。「エピジェネティックな性質」というのは、大まかには「ゲノムの塩基配列やヒストンタンパク質に対する化学修飾に起因する性質」のように理解しておけば問題ないと思います。
  • Cooper et al., Nucleic Acids Res., 1983
    「CGI自体がメチル化されていないというエピジェネティックな性質によって発見されたという経緯もあり」の根拠として示した論文です。そのものずばりの記述を示すのは難しいですが…たとえばDiscussionの第1段落で述べられているWe have no direct evidence that all CpGs in this fraction are unmethylated, but this is likely since in other systems HpaII and HhaI sites appear typical of thesurrounding CpGs with respect to methylation.とか、第2段落のIn all the genomes tested, the unmethylated sequence display an unexpectedly high frequency of HpaII sites. In contrast, the bulk DNA of vertebrates is deficient in the sequence CpG and therefore exhibits a low frequency of HpaII/MspI sites.とかでしょうか。より直接的には、Bock et al., PLoS Comput Biol., 2007の文献6として、以下のように記載・引用されていることを根拠としました:Originally, CpG islands were discovered by virtue of an epigenetic property, namely, the absence of DNA methylation: when the human genome was experimentally digested with methylation-sensitive restriction enzymes, some genomic regions were cut into small fragments, while the bulk of the genome remained uncut.
  • Bock et al., PLoS Comput Biol., 2007
    「CGI同定単体でもエピゲノムと密接に関連している」は、Abstract中のThis study is driven by the idea that a quantitative score of “CpG island strength” that incorporates epigenetic and functional aspects can help resolve these issues.や、We construct an epigenome prediction pipeline that links the DNA sequence of CpG islands to their epigenetic states, …を根拠としています。
  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。

2.6.1 スライディングウィンドウ

  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
  • スライディングウィンドウ(sliding window)
    この場合は入力として与える情報がゲノム配列(あるいはコンティグ)になりますので、たとえば「200塩基の長さの部分配列」が任意に設定したウィンドウ(窓枠)に相当します。スライディングは、この場合は入力ゲノム配列の左端からスタートさせて、1塩基ずつ右にずらしていく操作に相当します。本当は1塩基ずつでなくてもよく、1度に\(i\)塩基ずつずらす(\(i\) = 2とか3とか)ようなことを行ってもよいです。このような感じで、各ウィンドウが事前に設定しておいた条件を満たすかどうかを判定し、その結果を記録していくのが基本形です。移動窓法(moving window)ともよばれます。\(k\)-mer解析と似たようなことをやるのだという理解でもよいです。
  • Tahir et al., J Biosci., 2019
    CpGアイランド(CpG island; CGI)同定の総説です。3ページ目の右下あたりにスライディングウィンドウ(sliding window)に関する記述があります。
  • バイオインフォ(bioinfo)
    バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • Cresswell et al., BMC Bioinformatics, 2020
    sliding windowをCGI同定以外の目的で使っている例です。
  • CGIの3条件
    Gardiner-Garden and Frommer, J Mol Biol., 1987によって定義された、ゲノム中のCpGアイランド(CGI)の条件です。
    • ①CGの観測値/期待値(= Obs/Exp = O/E)が0.6以上
    • ②GC含量が50%以上
    • ③その領域の長さが200 bp以上
page062
  • O/E
    2連続塩基CGの観測値/期待値(Observed/Expected = Obs/Exp)のことです。表2.2にもO/Eの数値が示されていますが、これは(a)ゲノム全体や(b)上流1,000塩基という領域の、計16種類の2-merの値です。ここでのO/Eは、CGI候補領域について、CGという2-merに限定したものです。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。

  • 図1.13b
    ショートリードを入力とした\(k\)-merに基づくデノボアセンブリのイメージです。5-merは5連続塩基のことです。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
  • ウィンドウサイズ(window size)
    スライディングウィンドウを実行する際に設定する窓枠のサイズのことです。\(k\)-mer解析でいうところの\(k\)の値に相当します。
  • ステップサイズ(step size)
    スライディングウィンドウを実行する際に、ある領域(固定の窓枠)で条件判定を行った後、次に何塩基ずらした領域にするかに相当する値です。思考回路としては、たとえばウィンドウサイズが189塩基で、最初に領域[1, 189]の判定を行ったとします。そこから次に1塩基程度ずらした領域[2, 190]で判定を行ったとしても判定結果がほとんど変わらないかもしれず、かつ計算時間が無駄にかかるということが考えられます。たとえばステップサイズを4塩基とかにすると、次に条件判定する領域は[1 + 4, 189 + 4]、つまり領域[5, 193]の判定を、そしてその次は領域[9, 197]の判定を行うような感じになります。
  • ベクトル(vector)
    集合を構成する個々の数学的対象のことを数学の世界では「元(げん)」といいます。ベクトルは、この元(element)からなる集まりの成す数学的構造です。厳密に説明するとかえってややこしいですが、たとえば空間上のある位置を表現したいときは、\(x\)軸・\(y\)軸・\(z\)軸という\(3\)つ組の数値を提示せねばならないと考えればよいです。これは\((x, y, z)\)のように表現できますが、これがベクトルです。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。この場合は、ウィンドウサイズとステップサイズのことであり、これらの値を変化させると結果が変わってくるという意味で、「変数(variable)」と解釈してもよいです。
  • リテラシー(literacy)
    原義では「読解記述力」を指す言葉です。現代では「(何らかのカタチで表現されたものを)適切に理解・解釈・分析し、改めて記述・表現する」という意味で使われる言葉です。この場合は「この程度は当然理解できないとお話になりませんよ」的な意味で用いています。もちろんバイオインフォ分野も多様ですので、常識の範囲はヒトそれぞれです。

  • スライディングウィンドウ(sliding window)
    この場合は入力として与える情報がゲノム配列(あるいはコンティグ)になりますので、たとえば「200塩基の長さの部分配列」が任意に設定したウィンドウ(窓枠)に相当します。スライディングは、この場合は入力ゲノム配列の左端からスタートさせて、1塩基ずつ右にずらしていく操作に相当します。本当は1塩基ずつでなくてもよく、1度に\(i\)塩基ずつずらす(\(i\) = 2とか3とか)ようなことを行ってもよいです。このような感じで、各ウィンドウが事前に設定しておいた条件を満たすかどうかを判定し、その結果を記録していくのが基本形です。移動窓法(moving window)ともよばれます。\(k\)-mer解析と似たようなことをやるのだという理解でもよいです。
  • CpGIS:Takai and Jones, Proc Natl Acad Sci USA., 2002
    CpGアイランド(CGI)同定プログラムの論文です。CpGISのようなCGI同定プログラムも(多くのプロモータはCGIをもつことから)プロモータ領域の予測に一部含まれます。
  • CpgplotOlson, SA, Brief Bioinform., 2002
    リンク先は「EMBOSS Cpgplot」です。CpGplotは、欧州のEMBL-EBIという組織が提供する、EMBOSSというバイオインフォマティクスツール群の1つです。
  • EMBL-EBI
    欧州分子生物学研究所(EMBL)の一部門で、イギリスに所在するバイオインフォマティクス関連の研究を行っている研究所(EBI)のことです。EMBL-EBI(えんぶる、いーびーあい)と呼んだり、あるいはシンプルにEBI(いーびーあい)とよびます。
  • EMBOSSOlson, SA, Brief Bioinform., 2002
    EMBL-EBIが提供するバイオインフォマティクスツール群の総称です。Cpgplotはそのうちの1つという位置づけです。EMBOSS Cpgplotという名前でWebツールとして提供されています。
  • HZ245980.1
    EMBOSS Cpgplotのexample sequenceです。633塩基からなります。これ(HZ245980.1)はGenBankのaccession番号です。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • Obs/Exp
    観測値/期待値(Observed/Expected)のことです。具体的には、表2.1で示されているそれぞれの2-merのヒトゲノム中の実際の出現確率(観測値)と、ヒトゲノム中のA・C・G・Tの各塩基の出現確率から算出した2-merの理論上の出現確率(期待値)から算出した値です。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
  • 図2.6a
    CGI同定の図です。(a)はEMBOSS Cpgplot実行結果です。入力は633塩基からなるHZ245980.1です。
  • CGIの3条件
    Gardiner-Garden and Frommer, J Mol Biol., 1987によって定義された、ゲノム中のCpGアイランド(CGI)の条件です。
    • ①CGの観測値/期待値(= Obs/Exp = O/E)が0.6以上
    • ②GC含量が50%以上
    • ③その領域の長さが200 bp以上
  • ウィンドウサイズ(window size)
    スライディングウィンドウを実行する際に設定する窓枠のサイズのことです。\(k\)-mer解析でいうところの\(k\)の値に相当します。

2.6.2 粒子群最適化(PSO)

  • Tahir et al., J Biosci., 2019で述べられている他のCGI同定アルゴリズム
    • 粒子群最適化(Particle Swarm Optimization; PSO)
      生物の社会的な行動をシミュレーションすることで開発された集団ベースの確率的最適化アルゴリズムであり、群知能の一種です。ハイエナの群れが最初はバラバラな方角にエサを探していても、1匹が近くに獲物を発見したら他の仲間にその情報を伝え、群れ全体あるいは近くにいる仲間が獲物の方向に向かうようなものです。
    • 強化学習(reinforcement learning; RL)
      ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種です。エージェントは行動を選択することで環境から報酬を得ます。機械自身が試行錯誤しながら学習していくものです。サッカーのルールを知らないヒト型ロボットを、サッカーのペナルティキックで点を取らせる問題で考えると、「ゴールとよばれる四角い領域に向けて、そこを守るキーパーとよばれるヒトから遠く離れたところへ1回だけ強く蹴る行為が最も報酬が高い」と試行錯誤しながら学習していくようなイメージで捉えるとよいです。もう少し身近な例だと、子育てとか犬猫のしつけとかでしょうか。
    • 隠れマルコフモデル(Hidden Markov Model; HMM)
      確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
    • クラスタリング(clustering)
      リンク先は「データ・クラスタリング」です。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法、またそのアルゴリズムのことです。データの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法に大別できます。
    • 相互情報量(mutual information; MI)
      確率論および情報理論において、2つの確率変数の相互依存の尺度を表す量です。最も典型的な相互情報量の物理単位はビットであり、2を底とする対数が使われることが多いです。

  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
  • PSO
    粒子群最適化(Particle Swarm Optimization)のことです。生物の社会的な行動をシミュレーションすることで開発された集団ベースの確率的最適化アルゴリズムであり、群知能の一種です。ハイエナの群れが最初はバラバラな方角にエサを探していても、1匹が近くに獲物を発見したら他の仲間にその情報を伝え、群れ全体あるいは近くにいる仲間が獲物の方向に向かうようなものです。
  • 群知能(Swarm Intelligence)Beni and Wang, Robots and Biological Systems: Towards a New Bionics?, 1993
    分権化し自己組織化されたシステムの集合的ふるまいの研究に基づいた人工知能技術です。
  • Kennedy and Eberhart, Proceedings of ICNN’95, 1995
    PSOの原著論文です。
  • ハイエナ(hyena)
    食肉目ハイエナ科(Hyaenidae)に属する動物の総称です。長い鼻面と長い足を持ち、イヌに似た姿をしていますが、ジャコウネコ科に近縁です。現生の4種のうち、昆虫食のアードウルフを除く3種(真性ハイエナ)は、強力な頭骨と顎、食性に対応した消化器系をもちます。これらによって、他の肉食動物が食べ残すような骨を噛み砕き、有機成分を消化吸収できます。ブチハイエナは10~15頭程度の群れを形成し、共同の巣穴で生活します。群れのメンバーが協力し、ヌーやシマウマ、トムソンガゼルなどを狩ります。同じサイズの動物の中で、最も強力な顎を持ち、驚異的な早さで食物を平らげます。本文中で述べた事柄は、このブチハイエナをイメージしたものです。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
page063
  • 図2.6a
    CGI同定の図です。(a)はEMBOSS Cpgplot実行結果です。入力は633塩基からなるHZ245980.1です。

  • HZ245980.1
    EMBOSS Cpgplotのexample sequenceです。633塩基からなります。これ(HZ245980.1)はGenBankのaccession番号です。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • PSO
    粒子群最適化(Particle Swarm Optimization)のことです。生物の社会的な行動をシミュレーションすることで開発された集団ベースの確率的最適化アルゴリズムであり、群知能の一種です。ハイエナの群れが最初はバラバラな方角にエサを探していても、1匹が近くに獲物を発見したら他の仲間にその情報を伝え、群れ全体あるいは近くにいる仲間が獲物の方向に向かうようなものです。

  • PSO
    粒子群最適化(Particle Swarm Optimization)のことです。生物の社会的な行動をシミュレーションすることで開発された集団ベースの確率的最適化アルゴリズムであり、群知能の一種です。ハイエナの群れが最初はバラバラな方角にエサを探していても、1匹が近くに獲物を発見したら他の仲間にその情報を伝え、群れ全体あるいは近くにいる仲間が獲物の方向に向かうようなものです。
  • 群れ(swarm)
    PSOのSに相当する事柄です。PSOでは、群れ全体で最適解を探索します。その群れのことです。それゆえ、その群れを構成する個体数(population size; \(n\))をあらかじめ決めておく必要があります。
  • ハイエナ(hyena)
    食肉目ハイエナ科(Hyaenidae)に属する動物の総称です。長い鼻面と長い足を持ち、イヌに似た姿をしていますが、ジャコウネコ科に近縁です。現生の4種のうち、昆虫食のアードウルフを除く3種(真性ハイエナ)は、強力な頭骨と顎、食性に対応した消化器系をもちます。これらによって、他の肉食動物が食べ残すような骨を噛み砕き、有機成分を消化吸収できます。ブチハイエナは10~15頭程度の群れを形成し、共同の巣穴で生活します。群れのメンバーが協力し、ヌーやシマウマ、トムソンガゼルなどを狩ります。同じサイズの動物の中で、最も強力な顎を持ち、驚異的な早さで食物を平らげます。本文中で述べた事柄は、このブチハイエナをイメージしたものです。
  • 個体数(population size; \(n\))
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する個体数(population size; \(n\))をあらかじめ決めておく必要があります。CGI同定問題では、個体数\(n\)は「CGIを探索する際の候補領域数」に相当します。PSOでは、この個体のことを粒子(particle)と表現します。したがって、個体数は粒子数と同じです。
  • 粒子(particle; \(P\))
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。詳細については、本文中の次の段落で解説しています。
  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • Tahir et al., J Biosci., 2019
    CpGアイランド(CpG island; CGI)同定の総説です。「実際に検出されるCGIは、CpGを高頻度にもつ500~2,000塩基の領域であり、ヒトゲノム中には約3万個のCGIが存在する」は、CGIs are the long stretches of DNA (0.5 – 2 kb) with high levels of CpGs and there are about 30,000 CGIs in the human genome.を根拠としています。
  • CGIの3条件
    Gardiner-Garden and Frommer, J Mol Biol., 1987によって定義された、ゲノム中のCpGアイランド(CGI)の条件です。
    • ①CGの観測値/期待値(= Obs/Exp = O/E)が0.6以上
    • ②GC含量が50%以上
    • ③その領域の長さが200 bp以上
  • HZ245980.1
    EMBOSS Cpgplotのexample sequenceです。633塩基からなります。これ(HZ245980.1)はGenBankのaccession番号です。
  • \(CGIL\)
    CpGアイランド(CGI)の各候補領域の長さのことです。
  • \(CGIL_{min}\)
    (実際のCGIの長さは500~2,000塩基程度ですが、例題配列として用いるHZ245980.1は633塩基しかないので)ここでは\(CGIL\)の想定範囲を200~510塩基に設定しています。\(CGIL_{min}\)は、この想定範囲の下限の値のことです。つまり、\(CGIL_{min}\) = 200です。
  • \(CGIL_{max}\)
    (実際のCGIの長さは500~2,000塩基程度ですが、例題配列として用いるHZ245980.1は633塩基しかないので)ここでは\(CGIL\)の想定範囲を200~510塩基に設定しています。\(CGIL_{max}\)は、この想定範囲の上限の値のことです。つまり、\(CGIL_{max}\) = 510です。

  • 個体数(population size; \(n\))
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する個体数(population size; \(n\))をあらかじめ決めておく必要があります。CGI同定問題では、個体数\(n\)は「CGIを探索する際の候補領域数」に相当します。PSOでは、この個体のことを粒子(particle)と表現します。したがって、個体数は粒子数と同じです。
  • 粒子(particle; \(P\))
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。たとえば、個体数\(n\)を4とおくと、各粒子は\(P_1, P_2, P_3, P_4\)のように表現することができます。また、\(P_i (i = 1, …, n)\)のように、任意の\(i\)番目の粒子のように表現することもできます。CGI同定問題では、各粒子は「(CGIの)各候補領域」に相当します。各候補領域\(\boldsymbol{x}\)は、始点\(s\)と終点\(e\)の2つのパラメータで表現可能\((s < e)\)です。例題配列として用いるHZ245980.1は633塩基なので\(e_{max}\) = 633、同様に\(s_{min}\) = 1となります。\(i\)番目の粒子\(P_i\)の領域の座標情報は、\(\boldsymbol{x}_i\) = \((s_i, e_i)\)のように表現することができます。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。この場合は、始点\(s\)と終点\(e\)のことです。
page064
  • 入力配列(input sequence)
    HZ245980.1のことです。
  • \(CGIL\)
    CpGアイランド(CGI)の各候補領域の長さのことです。
  • PSO
    粒子群最適化(Particle Swarm Optimization)のことです。生物の社会的な行動をシミュレーションすることで開発された集団ベースの確率的最適化アルゴリズムであり、群知能の一種です。ハイエナの群れが最初はバラバラな方角にエサを探していても、1匹が近くに獲物を発見したら他の仲間にその情報を伝え、群れ全体あるいは近くにいる仲間が獲物の方向に向かうようなものです。
  • 初期化(initialization)
    粒子群最適化(PSO)の場合は、入力配列の範囲内で、あらかじめ設定した個体数(この場合は\(n = 4\))分の、ランダムな粒子(つまりCGI候補領域)を生成する作業に相当します。

  • 粒子(particle; \(P\))
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。たとえば、個体数\(n\)を4とおくと、各粒子は\(P_1, P_2, P_3, P_4\)のように表現することができます。また、\(P_i (i = 1, …, n)\)のように、任意の\(i\)番目の粒子のように表現することもできます。CGI同定問題では、各粒子は「(CGIの)各候補領域」に相当します。各候補領域\(\boldsymbol{x}\)は、始点\(s\)と終点\(e\)の2つのパラメータで表現可能\((s < e)\)です。例題配列として用いるHZ245980.1は633塩基なので\(e_{max}\) = 633、同様に\(s_{min}\) = 1となります。\(i\)番目の粒子\(P_i\)の領域の座標情報は、\(\boldsymbol{x}_i\) = \((s_i, e_i)\)のように表現することができます。
  • 初期化(initialization)
    粒子群最適化(PSO)の場合は、入力配列の範囲内で、あらかじめ設定した個体数(この場合は\(n = 4\))分の、ランダムな粒子(つまりCGI候補領域)を生成する作業に相当します。
  • 本節で解説する粒子群最適化(PSO)アルゴリズムの略号などのまとめ

    以下で示す表記法を眺めながら本文と突き合わせていくとよいと思います。基本的に出現順に記載しています。

    略号 解説
    \(CGIL\) CpGアイランド(CGI)の候補領域の長さのことです。実際のCGIの長さは500~2,000塩基程度です。しかし例題配列として用いるHZ245980.1は633塩基しかありませんので、ここでは\(CGIL\)の想定範囲を200~510塩基に設定しています。
    \(CGIL_{min}\) 想定するCpGアイランド(CGI)の長さの範囲(200~510塩基)の下限のことです。この場合は\(CGIL_{min}\) = 200です。
    \(CGIL_{max}\) 想定するCpGアイランド(CGI)の長さの範囲(200~510塩基)の上限のことです。この場合は\(CGIL_{max}\) = 510です。
    \(n\) 個体数または粒子数のことです。PSOは群れ全体で最適解を探索しますので、その群れを構成する個体数のことです。CGI同定問題では、個体数\(n\)は「CGIを探索する際の候補領域数」に相当します。PSOでは、この個体のことを粒子(particle)と表現しますので、個体数は粒子数と同じです。本項では、個体数\(n\)\(4\) (つまり\(n = 4\))とおいています。
    \(P\) 個体または粒子のことです。PSOは群れ全体で最適解を探索しますが、その群れを構成する各個体のことです。PSOでは、この個体のことを粒子(particle)と表現します。「CpGアイランド(CGI)の各候補領域名」だと理解すればよいです。粒子(Particle)の頭文字からとっています。
    \(P_1\)
    \(P_2\)
    \(P_3\)
    \(P_4\)
    個体または粒子の具体名のようなものです。本項では、個体数\(n\)を4とおいていますので、各粒子をこのように表現することができます。
    \(P_i (i = 1, …, n)\) 任意の\(i\)番目の粒子のことです。\(P_i\)だけで示すこともあれば、丸括弧で示すように\(i\)の取りうる範囲を明示することもあります。本項では個体数\(n\)を4とおいていますので、\(n = 4\)です。
    \(\boldsymbol{x}\) CpGアイランド(CGI)の具体的な候補領域のことです。始点\(s\)と終点\(e\)の2つのパラメータで表現可能\((s < e)\)であり、\(\boldsymbol{x}\) = (\(s\), \(e\))と表すことができます。これはスカラーではなくベクトルなので、業界の慣例にしたがって\(x\)ではなく\(\boldsymbol{x}\) (つまり太字)で表現しています。
    \(\boldsymbol{x}_i\) \(i\)番目の粒子\(P_i\)の領域の座標情報のことです。\(\boldsymbol{x}_i = (s_i, e_i)\)のように表現することができます。
    \(s\)
    \(e\)
    CpGアイランド(CGI)の具体的な候補領域の始点と終点のことです。例題配列として用いるHZ245980.1は633塩基なので終点\(e\)のとりうる最大値は\(e_{max}\) = 633です。同様にして、始点\(s\)のとりうる最小値は\(s_{min}\) = 1となります。
    \(s_i\)
    \(e_i\)
    粒子\(P_i\)の領域\(\boldsymbol{x}_i\)の始点と終点のことです。
    \(CGIL_i\) \(i\)番目の粒子\(P_i\)の領域長のことです。\(CGIL_i = e_i – s_i + 1\)と表現することができます。
    \(Fitness(P_i)\) \(i\)番目の粒子\(P_i\)の適応度関数です。
    \(CGIL_i^{norm}\) \(i\)番目の粒子\(P_i\)の領域長\(CGIL_i\)の値の取りうる範囲を0~1に変換して得られる変換後の長さが\(CGIL_i^{norm}\)です。式(2.1)で定めています。
    \(CpG_i\) \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する2連続塩基CGの数です。
    \(Obs_i\) \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する2連続塩基CGの数(\(CpG_i\))を、その領域長(\(CGIL_i\))で割ったものです。つまり、\(Obs_i = \frac{CpG_i}{CGIL_i}\)です。式(2.3)で出てきます。
    \(C_i\) \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する塩基Cの数です。
    \(G_i\) \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する塩基Gの数です。
    \(Exp_i\) \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する塩基Cの割合を\(\frac{C_i}{CGIL_i}\)、塩基Gの割合を\(\frac{G_i}{CGIL_i}\)とすると、\(\frac{C_i}{CGIL_i} \times \frac{G_i}{CGIL_i}\)で表されるものです。シンプルにいうと、「領域\(\boldsymbol{x}_i\)中の塩基Cの割合とGの割合を掛けたもの」です。式(2.3)で出てきます。
    \(j\) 粒子群最適化(PSO)では、群れ全体で最適解を探索します。群れを構成する1匹1匹の個体のことを粒子(particle; \(P\))と表現します。\(i\)番目の粒子\(P_i\)は、あらかじめ指定された繰り返し回数(\(move_{max}\))分だけ飛び回って、適応度が高い領域を探索します。本文中では明記していませんが、このときの何回目の繰り返しかを示す添え字です。繰り返し0回目(初期化後)の粒子を\(P_i^0\)、繰り返し1回目の粒子を\(P_i^1\)、繰り返し\(j\)回目の粒子を\(P_i^j\)のように表現します。たとえば\(move_{max} = 5\)なら、同じ粒子\(P_i\)が計6箇所(粒子名は\(P_i^0\), \(P_i^1\), …, \(P_i^5\))飛び回るのだと理解すればよいです。
    \(move_{max}\) PSO実行時にあらかじめ指定する繰り返し回数です。
    \(P_i^{best}\) \(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子\(P_i\)のことです。たとえば\(move_{max} = 5\)なら、同じ粒子\(P_i\)が計6箇所(粒子名は\(P_i^0\), \(P_i^1\), …, \(P_i^5\))飛び回ります。本文中では次のような書き方をしていませんが、繰り返し0回目(初期化後)の粒子を\(P_i^0\)、その適応度を\(Fitness(P_i^0)\)とすると、(この段階ではまだ繰り返し0回目なので)自動的に\(Fitness(P_i^{best}) = Fitness(P_i^0)\)、そして\(P_i^{best} = P_i^0\)となります。繰り返し1回目の粒子を\(P_i^1\)、その適応度を\(Fitness(P_i^1)\)とすると、もし\(Fitness(P_i^1) > Fitness(P_i^{best})\)なら、\(Fitness(P_i^1)\)の値を\(Fitness(P_i^{best})\)に代入し、同時に\(P_i^1\)\(P_i^{best}\)に代入していくようなイメージです。
    \(\hat{\boldsymbol{x}_i}\) \(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子\(P_i^{best}\)の領域のことです。繰り返し0回目(初期化後)の粒子を\(P_i^0\)、その領域を\(\boldsymbol{x}_i^0 = (s_i^0, e_i^0)\)とすると、(この段階ではまだ繰り返し0回目なので)自動的に\(P_i^{best} = P_i^0\)\(Fitness(P_i^{best}) = Fitness(P_i^0)\)、そして\(\hat{\boldsymbol{x}_i} = \boldsymbol{x}_i^0 = (s_i^0, e_i^0)\)となります。繰り返し1回目の結果として、もし\(Fitness(P_i^1) > Fitness(P_i^{best})\)なら、\(\hat{\boldsymbol{x}_i}\)\(\boldsymbol{x}_i^1\)を代入するようなイメージです。
    \(Fitness(P_i^{best})\) \(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子\(P_i\)の適応度のことです。本文中では次のような書き方をしていませんが、繰り返し0回目(初期化後)の粒子を\(P_i^0\)、その適応度を\(Fitness(P_i^0)\)とすると、(この段階ではまだ繰り返し0回目なので)自動的に\(Fitness(P_i^{best}) = Fitness(P_i^0)\)、そして\(P_i^{best} = P_i^0\)となります。繰り返し1回目の粒子を\(P_i^1\)、その適応度を\(Fitness(P_i^1)\)とすると、もし\(Fitness(P_i^1) > Fitness(P_i^{best})\)なら、\(Fitness(P_i^1)\)の値を\(Fitness(P_i^{best})\)に代入し、同時に\(P_i^1\)\(P_i^{best}\)に代入していくようなイメージです。
    \(g^{best}\) あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、群全体として最も適応度が高かった粒子のことです。 本節では粒子数\(n\)を4としていますので、最も適応度が高かった\(i\)番目の粒子\(P_i^{best}\)は、\(P_1^{best}, P_2^{best}, P_3^{best}, P_4^{best}\)の計4つ存在します。\(g^{best}\)は、これらのうち最も適応度が高かった粒子のことを指します。
    \(\hat{\boldsymbol{x}_g}\) あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、群全体として最も適応度が高かった領域のことです。\(g^{best}\)の説明と本質的に同じですが、違いは\(\hat{\boldsymbol{x}_g}\)が明確に領域を指すという点のみです。初期化(繰り返し0回目)終了時点では、\(\hat{\boldsymbol{x}_g}\) \(= \hat{\boldsymbol{x}_3}\) \(= (301, 580)\)です。
    \(Fitness(g^{best})\) すべての繰り返し、および粒子の中で、値が最大の適応度のことです。本節では粒子数\(n\)を4といています。また、繰り返し回数\(move_{max}\)が5の場合は、同じ粒子\(P_i\)が計6箇所(粒子名は\(P_i^0\), \(P_i^1\), …, \(P_i^5\))飛び回ります。したがって、得られる適応度の値は\(4 \times 6 = 24\)通り分存在しますが、この中で最大値のものを指します。
    パーソナルベスト 粒子ごとのベストという意味です。\(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子を\(P_i^{best}\)、その領域を\(\hat{\boldsymbol{x}_i}\)、そしてその適応度を\(Fitness(P_i^{best})\)といいます。これらがパーソナルベストのものたちということになります。
    グローバルベスト 群全体でのベストという意味です。すべての粒子があらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった粒子を\(g^{best}\)、その領域を\(\hat{\boldsymbol{x}_g}\)、そしてその適応度を\(Fitness(g^{best})\)といいます。これらがグローバルベストのものたちということになります。
    \(\boldsymbol{x}_i^{old}\) 更新\(P_i\)の領域情報です。式(2.6)で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^0\)の領域情報は\(\boldsymbol{x}_4^{old}\) \(= \boldsymbol{x}_4^0\) \(= (s_4^0, e_4^0)\) \(= (401, 500)\)となります。更新が繰り返し0回目に相当するので、右上の添え字が0になっているのだと理解すればよいです。本文中では右上の0の添え字はありませんので、ご注意ください。
    \(\boldsymbol{x}_i^{new}\) 更新\(P_i\)の領域情報です。式(2.6)で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^1\)の領域情報は\(\boldsymbol{x}_4^{new}\) \(= \boldsymbol{x}_4^1\) \(= (s_4^1, e_4^1)\)のように表現できます。更新が繰り返し1回目に相当するので、右上の添え字が1になっているのだと理解すればよいです。本文中では右上の1の添え字はありませんので、ご注意ください。
    \(\boldsymbol{v}_i^{new}\) 式(2.6)の第2項で出てくる速度とよばれる項です。2次元の整数ベクトルであり、この値が更新前後の領域の違いを決定します。この値の求め方の基本形が式(2.8)で、完成形が式(2.11)です。
    \(\boldsymbol{v}_i^{old}\) 式(2.8)の第1項で出てくるものあり、粒子\(P_i\)が更新前に持っていた速度のことです。更新なので右上の添え字が\(old\)なのです。
    \(c\) 加速度定数です。
    \(r\) (一様)乱数です。
    \(w\) 慣性重みです。
    \(move_j\) \(j\)回目の繰り返しのことです。
  • PSO
    粒子群最適化(Particle Swarm Optimization)のことです。生物の社会的な行動をシミュレーションすることで開発された集団ベースの確率的最適化アルゴリズムであり、群知能の一種です。ハイエナの群れが最初はバラバラな方角にエサを探していても、1匹が近くに獲物を発見したら他の仲間にその情報を伝え、群れ全体あるいは近くにいる仲間が獲物の方向に向かうようなものです。
  • RL
    強化学習(reinforcement learning)のことです。ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種です。エージェントは行動を選択することで環境から報酬を得ます。機械自身が試行錯誤しながら学習していくものです。サッカーのルールを知らないヒト型ロボットを、サッカーのペナルティキックで点を取らせる問題で考えると、「ゴールとよばれる四角い領域に向けて、そこを守るキーパーとよばれるヒトから遠く離れたところへ1回だけ強く蹴る行為が最も報酬が高い」と試行錯誤しながら学習していくようなイメージで捉えるとよいです。もう少し身近な例だと、子育てとか犬猫のしつけとかでしょうか。
  • CPSORL:Chuang et al., PLoS One, 2011
    PSOの改良版」と「強化学習(RL)」を組み合わせたCGI同定プログラムの論文です。Figure S9にも丁寧な計算手順が示されています。クリックすると、pone.0021036.s009.docという名前のwordファイルとして保存されるようです。

  • 粒子(particle; \(P\))
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。たとえば、個体数\(n\)を4とおくと、各粒子は\(P_1, P_2, P_3, P_4\)のように表現することができます。また、\(P_i (i = 1, …, n)\)のように、任意の\(i\)番目の粒子のように表現することもできます。CGI同定問題では、各粒子は「(CGIの)各候補領域」に相当します。各候補領域\(\boldsymbol{x}\)は、始点\(s\)と終点\(e\)の2つのパラメータで表現可能\((s < e)\)です。例題配列として用いるHZ245980.1は633塩基なので\(e_{max}\) = 633、同様に\(s_{min}\) = 1となります。\(i\)番目の粒子\(P_i\)の領域の座標情報は、\(\boldsymbol{x}_i\) = \((s_i, e_i)\)のように表現することができます。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • CGIの3条件
    Gardiner-Garden and Frommer, J Mol Biol., 1987によって定義された、ゲノム中のCpGアイランド(CGI)の条件です。
    • ①CGの観測値/期待値(= Obs/Exp = O/E)が0.6以上
    • ②GC含量が50%以上
    • ③その領域の長さが200 bp以上
  • O/E
    2連続塩基CGの観測値/期待値(Observed/Expected = Obs/Exp)のことです。本文中では式(2.3)と式(2.4)の間あたりで\(Obs_i/Exp_i\)として解説しています。ここでの\(i\)は、\(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\) = \((s_i, e_i)\)という意味です。表2.2に具体的な数値が示されています。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
  • 適応度(fitness)
    この場合は、粒子ごと\((P_i)\)のCGIらしさのことです。どれだけCGIの3条件に適応しているかというスコアだと理解すればよいです。
  • 適応度関数(fitness function)
    リンク先は「適応度」です。この場合は、CGIの3条件をそれぞれスコア化して、合計スコアが最も高い粒子が最もCGIらしいと判断するわけですが、合計スコアを算出するために任意に定義した数式に相当します。一種の目的関数です。
  • 図2.6a
    CGI同定の図です。(a)はEMBOSS Cpgplot実行結果です。入力は633塩基からなるHZ245980.1です。
  • ウィンドウサイズ(window size)
    スライディングウィンドウを実行する際に設定する窓枠のサイズのことです。\(k\)-mer解析でいうところの\(k\)の値に相当します。

  • ③について
    (実際のCGIの長さは500~2,000塩基程度ですが、例題配列として用いるHZ245980.1は633塩基しかないので)ここではCGILの想定範囲を200~510塩基に設定しています。つまり、\(CGIL_{max}\) = 510です。それゆえ、CGI3条件の3番目である「③その領域の長さが200 bp以上」のみが基本形ですが、(説明をシンプルにすることを目的として)上限が設定されているため、200~510塩基が想定範囲となっているのです。
  • \(P_i\)
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。たとえば、個体数\(n\)を4とおくと、各粒子は\(P_1, P_2, P_3, P_4\)のように表現することができます。また、\(P_i (i = 1, …, n)\)のように、任意の\(i\)番目の粒子のように表現することもできます。これのことです。
  • CGIの3条件
    Gardiner-Garden and Frommer, J Mol Biol., 1987によって定義された、ゲノム中のCpGアイランド(CGI)の条件です。
    • ①CGの観測値/期待値(= Obs/Exp = O/E)が0.6以上
    • ②GC含量が50%以上
    • ③その領域の長さが200 bp以上
  • 適応度関数(fitness function)
    リンク先は「適応度」です。この場合は、CGIの3条件をそれぞれスコア化して、合計スコアが最も高い粒子が最もCGIらしいと判断するわけですが、合計スコアを算出するために任意に定義した数式に相当します。一種の目的関数です。
  • \(Fitness(P)\)
    粒子\(P\)の適応度関数のことです。以下のように、CGIの3条件(①, ②, ③)を用いて、一見まともそうな数式で表すことができます。ここでは\(P_i\)ではなく\(P\)としていますが、\(i\)番目の粒子といったことよりも、より一般的な粒子という意味で添え字の\(i\)をつけていません。また、もし\(P_i\)とすると、厳密には数式中の\({\rm O/E}\)\(CGIL\)などにも添え字をつけねばならなくなり、ちょっと説明が間延びしそうな懸念もあったため、ここでは全てに添え字をつけない判断としました。
    \[ \begin{aligned} Fitness(P) &= ① + ② + ③ \\ &= {\rm O/E} + {\rm GC含量} + CGIL \end{aligned} \]
  • O/E
    2連続塩基CGの観測値/期待値(Observed/Expected = Obs/Exp)のことです。本文中では式(2.3)と式(2.4)の間あたりで\(Obs_i/Exp_i\)として解説しています。ここでの\(i\)は、\(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\) = \((s_i, e_i)\)という意味です。表2.2に具体的な数値が示されています。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
  • \(CGIL_i\)
    CpGアイランド(CGI)の各候補領域の長さのことです。\(i\)番目の粒子\(P_i\)の領域長のことです。その領域\(\boldsymbol{x}_i = (s_i, e_i)\)の長さは、\(CGIL_i = e_i - s_i + 1\)と表現することができます。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
page065
  • 項(term)
    この場合は、多項式に加法因子として含まれる単項式(term)のことです。たとえば、\(f(x) = I + J + K\)の場合は、第1項が\(I\)、第2項が\(J\)、第3項が\(K\)です。

  • \(CGIL\)
    CpGアイランド(CGI)の候補領域の長さのことです。\(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i = (s_i, e_i)\)において、その長さは\(CGIL_i = e_i - s_i + 1\)と表現することができます。
  • \(CGIL_{min}\)
    (実際のCGIの長さは500~2,000塩基程度ですが、例題配列として用いるHZ245980.1は633塩基しかないので)ここでは\(CGIL\)の想定範囲を200~510塩基に設定しています。\(CGIL_{min}\)は、この想定範囲の下限の値のことです。つまり、\(CGIL_{min}\) = 200です。
  • \(CGIL_{max}\)
    (実際のCGIの長さは500~2,000塩基程度ですが、例題配列として用いるHZ245980.1は633塩基しかないので)ここでは\(CGIL\)の想定範囲を200~510塩基に設定しています。\(CGIL_{max}\)は、この想定範囲の上限の値のことです。つまり、\(CGIL_{max}\) = 510です。
  • \(CGIL_i^{norm}\)
    \(i\)番目の粒子\(P_i\)の領域長\(CGIL_i\)は、(実際のCGIの長さは500~2,000塩基程度ですので)数百~数千bpになります。式(2.1)で定めるように、\(CGIL_i\)の取りうる範囲を0~1に変換して得られる変換後の長さが\(CGIL_i^{norm}\)です。
  • \(CGIL_i\)
    CpGアイランド(CGI)の各候補領域の長さのことです。\(i\)番目の粒子\(P_i\)の領域長のことです。その領域\(\boldsymbol{x}_i = (s_i, e_i)\)の長さは、\(CGIL_i = e_i - s_i + 1\)と表現することができます。これが変換前の長さになります。
  • 式(2.1)
    \(CGIL_i\)の値の取りうる範囲を0~1に変換するための数式です。
    \[ \begin{align} CGIL_i^{norm} = \left\{ \begin{array}{ll} \frac{CGIL_i - CGIL_{min}}{CGIL_{max} - CGIL_{min}} &\qquad CGIL_{min} \leq CGIL_i \leq CGIL_{max} の場合 \\ 0 &\qquad \text{それ以外} \tag{2.1} \end{array} \right. \end{align} \]
  • \(CGIL_{min}\)
    (実際のCGIの長さは500~2,000塩基程度ですが、例題配列として用いるHZ245980.1は633塩基しかないので)ここでは\(CGIL\)の想定範囲を200~510塩基に設定しています。\(CGIL_{min}\)は、この想定範囲の下限の値のことです。つまり、\(CGIL_{min}\) = 200です。
  • \(CGIL_i\)
    CpGアイランド(CGI)の各候補領域の長さのことです。\(i\)番目の粒子\(P_i\)の領域長のことです。その領域\(\boldsymbol{x}_i = (s_i, e_i)\)の長さは、\(CGIL_i = e_i - s_i + 1\)と表現することができます。これが変換前の長さになります。
  • \(CGIL_{max}\)
    (実際のCGIの長さは500~2,000塩基程度ですが、例題配列として用いるHZ245980.1は633塩基しかないので)ここでは\(CGIL\)の想定範囲を200~510塩基に設定しています。\(CGIL_{max}\)は、この想定範囲の上限の値のことです。つまり、\(CGIL_{max}\) = 510です。
  • \(CGIL_1\)
    1番目の粒子\(P_1\)の変換前の領域長のことです。この領域は\(\boldsymbol{x}_1 = (s_1, e_1)\) = (1, 203)ですので、\(CGIL_1\)は以下のように計算できます。
    \[ \begin{align} CGIL_1 &= e_1 – s_1 + 1 \\ &= 203 - 1 + 1 \\ &= 203 \end{align} \]
  • \(CGIL_1^{norm}\)
    1番目の粒子\(P_1\)の変換後の領域長のことです。ここでは\(CGIL\)の想定範囲を200~510塩基に設定しています。\(CGIL_1\) = 203は\(CGIL\)の想定範囲内(200~510塩基)にありますので、式(2.1)の上の枠組みで変換後の長さを計算することになります。
    \[ \begin{align} CGIL_1^{norm} &= \frac{CGIL_1 - CGIL_{min}}{CGIL_{max} - CGIL_{min}} \\ &= \frac{203 - 200}{510 - 200} \\ &= 0.00968 \end{align} \]
  • \(CGIL_2^{norm}\)
    2番目の粒子\(P_2\)の変換後の領域長のことです。ここでは\(CGIL\)の想定範囲を200~510塩基に設定しています。まず、2番目の粒子\(P_2\)の領域は\(\boldsymbol{x}_2 = (s_2, e_2)\) = (51, 300)ですので、\(CGIL_2\)は以下のように計算できます。
    \[ \begin{align} CGIL_2 &= e_2 – s_2 + 1 \\ &= 300 - 51 + 1 \\ &= 250 \end{align} \] \(CGIL_2^{norm}\)は、2番目の粒子\(P_2\)の変換後の領域長のことです。\(CGIL_2\) = 250は\(CGIL\)の想定範囲内(200~510塩基)にありますので、式(2.1)の上の枠組みで変換後の長さを計算することになります。
    \[ \begin{align} CGIL_2^{norm} &= \frac{CGIL_2 - CGIL_{min}}{CGIL_{max} - CGIL_{min}} \\ &= \frac{250 - 200}{510 - 200} \\ &= 0.16129 \end{align} \]
  • \(CGIL_3^{norm}\)
    3番目の粒子\(P_3\)の変換後の領域長のことです。ここでは\(CGIL\)の想定範囲を200~510塩基に設定しています。まず、3番目の粒子\(P_3\)の領域は\(\boldsymbol{x}_3 = (s_3, e_3)\) = (301, 580)ですので、\(CGIL_3\)は以下のように計算できます。
    \[ \begin{align} CGIL_3 &= e_3 – s_3 + 1 \\ &= 580 - 301 + 1 \\ &= 280 \end{align} \] \(CGIL_3^{norm}\)は、3番目の粒子\(P_3\)の変換後の領域長のことです。\(CGIL_3\) = 280は\(CGIL\)の想定範囲内(200~510塩基)にありますので、式(2.1)の上の枠組みで変換後の長さを計算することになります。
    \[ \begin{align} CGIL_3^{norm} &= \frac{CGIL_3 - CGIL_{min}}{CGIL_{max} - CGIL_{min}} \\ &= \frac{280 - 200}{510 - 200} \\ &= 0.25806 \end{align} \]
  • \(CGIL_4^{norm}\)
    4番目の粒子\(P_4\)の変換後の領域長のことです。ここでは\(CGIL\)の想定範囲を200~510塩基に設定しています。まず、4番目の粒子\(P_4\)の領域は\(\boldsymbol{x}_4 = (s_4, e_4)\) = (401, 500)ですので、\(CGIL_4\)は以下のように計算できます。
    \[ \begin{align} CGIL_4 &= e_4 – s_4 + 1 \\ &= 500 - 401 + 1 \\ &= 100 \end{align} \] \(CGIL_4^{norm}\)は、4番目の粒子\(P_4\)の変換後の領域長のことです。\(CGIL_4\) = 100は\(CGIL\)の想定範囲(200~510塩基)となりますので、式(2.1)のの枠組みで変換後の長さを計算することになります。
    \[ CGIL_4^{norm} = 0 \]
  • Chuang論文(Chuang et al., PLoS One, 2011)
    この論文の式(13)に対応する適応度関数が、本文中の式(2.2)に対応します。
  • 適応度関数(fitness function)
    リンク先は「適応度」です。この場合は、CGIの3条件をそれぞれスコア化して、合計スコアが最も高い粒子が最もCGIらしいと判断するわけですが、合計スコアを算出するために任意に定義した数式に相当します。一種の目的関数です。
  • 式(2.2)
    \[ Fitness(P_i) = ① + ② + ③^{norm} \tag{2.2} \] \(Fitness(P_i)\)は、粒子\(P_i\)の適応度関数です。\(①\)はCGの観測値/期待値\((Obs_i/Exp_i)\)\(②\)はGC含量、\(③^{norm}\)は式(2.1)で0から1の範囲になるように変換した後のCGI候補領域の長さです。粒子\(P_i\)に対して、これらの線形結合(足し算のこと)を適応度関数として定義したものです。
  • 式(2.3)
    \[ Fitness(P_i) = \frac{Obs_i}{Exp_i} + \frac{C_i + G_i}{CGIL_i} + CGIL_i^{norm} \tag{2.3} \] 第2項\(\frac{C_i + G_i}{CGIL_i}\)において、\(C_i\)は領域\(\boldsymbol{x}_i = (s_i, e_i)\)中に存在する塩基Cの数、\(G_i\)は領域\(\boldsymbol{x}_i = (s_i, e_i)\)中に存在する塩基Gの数です。

  • 第1項
    式(2.3)の右辺にある\(\frac{Obs_i}{Exp_i}\)のことです。
  • 表2.1
    ヒトゲノム中の2連続塩基の出現確率です。(a)ゲノム全体、(b)上流1,000塩基のみ。この表では\(4^2 = 16\)通りの2連続塩基(2-mer)についての観測値/期待値などを示していますが、式(2.3)ではCGのみに着目しています。
  • \(Obs_i\)
    粒子\(P_i\)の領域\(\boldsymbol{x}_i = (s_i, e_i)\)中に存在する2連続塩基CGの数(\(CpG_i\))を、その領域長(\(CGIL_i\))で割ったものです。つまり、\(Obs_i = \frac{CpG_i}{CGIL_i}\)です。
  • \(C_i\)
    \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する塩基Cの数です。
  • \(G_i\)
    \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する塩基Gの数です。
  • \(Exp_i\)
    \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する塩基Cの割合を\(\frac{C_i}{CGIL_i}\)、塩基Gの割合を\(\frac{G_i}{CGIL_i}\)とすると、\(\frac{C_i}{CGIL_i} \times \frac{G_i}{CGIL_i}\)で表されるものです。シンプルにいうと、「領域\(\boldsymbol{x}_i\)中の塩基Cの割合とGの割合を掛けたもの」です。式(2.3)で出てきます。
  • 式(2.4)
    \[ Fitness(P_i) = \frac{\frac{CpG_i}{CGIL_i}}{\frac{C_i}{CGIL_i} \times \frac{G_i}{CGIL_i}} + \frac{C_i + G_i}{CGIL_i} + CGIL_i^{norm} \tag{2.4} \] 式(2.3)の第1項の分母が\(Exp_i = \frac{C_i}{CGIL_i} \times \frac{G_i}{CGIL_i}\)、分子が\(Obs_i = \frac{CpG_i}{CGIL_i}\)ですので、これを代入しているだけです。
  • 粒子ごとの情報のまとめ(ここまで)

    後述する表2.2の内容とも被りますが一旦ここで情報を整理しておきます。右側3列分の情報は、大元であるHZ245980.1上でも確認することができます。633塩基しかありませんので、気になるヒトは手計算で確認してみてください。

    \(P_i\) \(\boldsymbol{x}_i\) \(CGIL_i\) \(CpG_i\) \(C_i\) \(G_i\)
    \(P_1\) \(\boldsymbol{x}_1\)
    \(= (s_1, e_1)\)
    \(= (1, 203)\)
    \(CGIL_1\)
    \(= e_1 – s_1 + 1\)
    \(= 203 - 1 + 1\)
    \(= 203\) bp
    \(CpG_1\)
    \(= 9\)
    \(C_1\)
    \(= 64\)
    \(G_1\)
    \(= 69\)
    \(P_2\) \(\boldsymbol{x}_2\)
    \(= (s_2, e_2)\)
    \(= (51, 300)\)
    \(CGIL_2\)
    \(= e_2 – s_2 + 1\)
    \(= 300 - 51 + 1\)
    \(= 250\) bp
    \(CpG_2\)
    \(= 10\)
    \(C_2\)
    \(= 73\)
    \(G_2\)
    \(= 91\)
    \(P_3\) \(\boldsymbol{x}_3\)
    \(= (s_3, e_3)\)
    \(= (301, 580)\)
    \(CGIL_3\)
    \(= e_3 – s_3 + 1\)
    \(= 580 - 301 + 1\)
    \(= 280\) bp
    \(CpG_3\)
    \(= 17\)
    \(C_3\)
    \(= 99\)
    \(G_3\)
    \(= 79\)
    \(P_4\) \(\boldsymbol{x}_4\)
    \(= (s_4, e_4)\)
    \(= (401, 500)\)
    \(CGIL_4\)
    \(= e_4 – s_4 + 1\)
    \(= 500 - 401 + 1\)
    \(= 100\) bp
    \(CpG_4\)
    \(= 6\)
    \(C_1\)
    \(= 32\)
    \(G_1\)
    \(= 30\)

page066
  • 式(2.5)
    基礎情報は、上のまとめにあります。ここでは、式(2.1)を用いて\(CGIL_2\) = 250 bpの値から\(CGIL_2^{norm}\) = 0.16129を得るところも含めて以下に示します。
    \[ \begin{align} Fitness(P_2) &= \frac{\frac{CpG_2}{CGIL_2}}{\frac{C_2}{CGIL_2} \times \frac{G_2}{CGIL_2}} + \frac{C_2 + G_2}{CGIL_2} + \frac{CGIL_2 - CGIL_{min}}{CGIL_{max} - CGIL_{min}} \\ &= \frac{\frac{10}{250}}{\frac{73}{250} \times \frac{91}{250}} + \frac{73 + 91}{250} + \frac{250 - 200}{510 - 200} \\ \tag{2.5} &= \frac{0.04}{0.1063} + 0.656 + \frac{50}{310} \\ &= 1.1936 \\ \end{align} \]
  • 表2.2

    PSOにおける適応度の計算例です。入力配列は、HZ245980.1です。列数が多くなるので、ここでは元の基礎情報の値がわかるように式(2.4)の第1項(2列目)、第2項(3列目)、第3項(4列目)という形で示します。5列目が式(2.4)左辺に相当し、式(2.4)の右辺に相当する2~4列目の値の和です。この表の作成に用いたRスクリプトファイルと実際の入力ファイルは、それぞれrcode_table2.2.RHZ245980.1.fastaです。実行結果として、表2.2の元情報を含むファイル(table2.2.txt)が得られます。

    \(P_i\) \(\frac{\frac{CpG_i}{CGIL_i}}{\frac{C_i}{CGIL_i} \times \frac{G_i}{CGIL_i}}\) \(\frac{C_i + G_i}{CGIL_i}\) \(CGIL_i^{norm}\) \(Fitness(P_i)\)
    \(P_1\) \(\frac{\frac{9}{203}}{\frac{64}{203} \times \frac{69}{203}}\) \(\frac{64 + 69}{203}\) \(0.0097\) \(1.0786\)
    \(P_2\) \(\frac{\frac{10}{250}}{\frac{73}{250} \times \frac{91}{250}}\) \(\frac{73 + 91}{250}\) \(0.1613\) \(1.1936\)
    \(P_3\) \(\frac{\frac{17}{280}}{\frac{99}{280} \times \frac{79}{280}}\) \(\frac{99 + 79}{280}\) \(0.2581\) \(1.5024\)
    \(P_4\) \(\frac{\frac{6}{100}}{\frac{32}{100} \times \frac{30}{100}}\) \(\frac{32 + 30}{100}\) \(0.0000\) \(1.2450\)

  • \(P_i\)
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。たとえば、個体数\(n\)を4とおくと、各粒子は\(P_1, P_2, P_3, P_4\)のように表現することができます。また、\(P_i (i = 1, …, n)\)のように、任意の\(i\)番目の粒子のように表現することもできます。これのことです。
  • 適応度(fitness)
    この場合は、粒子ごと\((P_i)\)のCGIらしさのことです。どれだけCGIの3条件に適応しているかというスコアだと理解すればよいです。
  • \(Fitness(P_i)\)
    \(i\)番目の粒子\(P_i\)の適応度関数です。式(2.2)~(2.4)で定義されています。
  • \(CpG_i\)
    \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する2連続塩基CGの数です。
  • \(Obs_i\)
    \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する2連続塩基CGの数(\(CpG_i\))を、その領域長(\(CGIL_i\))で割ったものです。つまり、\(Obs_i = \frac{CpG_i}{CGIL_i}\)です。
  • \(CGIL_i\)
    \(i\)番目の粒子\(P_i\)の領域長のことです。\(CGIL_i = e_i – s_i + 1\)と表現することができます。
  • 図2.6b
    CGI同定の図です。(b)の1番上の横棒は、633塩基からなる入力配列(HZ245980.1)の全長を示しています。計35個の縦棒は、CpGサイトを表しています。その下にある、4つの両端に矢印がついたものが粒子群最適化(PSO)実行時の粒子(\(P_i\))に、そしてその位置がCGI候補領域の初期値(\(\boldsymbol{x}_i\))に相当します。
  • \(P_3\)
    3番目の粒子のことです。表2.2の最右列(\(Fitness(P_3)\) = 1.5024)からもわかりますが、初期化後の状態で最も\(Fitness(P)\)の値が高い粒子です。
  • EMBOSSOlson, SA, Brief Bioinform., 2002
    EMBL-EBIが提供するバイオインフォマティクスツール群の総称です。Cpgplotはそのうちの1つという位置づけです。EMBOSS Cpgplotという名前でWebツールとして提供されています。
  • CpgplotOlson, SA, Brief Bioinform., 2002
    リンク先は「EMBOSS Cpgplot」です。CpGplotは、欧州のEMBL-EBIという組織が提供する、EMBOSSというバイオインフォマティクスツール群の1つです。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • \(P_4\)
    4番目の粒子のことです。表2.2の最右列(\(Fitness(P_4)\) = 1.2450)からもわかりますが、初期化後の状態で2番目に\(Fitness(P)\)の値が高い粒子です。
  • \(③^{norm}\)
    式(2.1)で0から1の範囲になるように変換した後のCGI候補領域の長さです。
  • \(Obs_i/Exp_i\)
    2連続塩基CGの観測値/期待値(Observed/Expected)のことです。本文中では式(2.3)と式(2.4)の間あたりで解説しています。ここでの\(i\)は、\(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\) = \((s_i, e_i)\)という意味です。表2.2に具体的な数値が示されています。
  • \(Exp_i\)
    \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する塩基Cの割合を\(\frac{C_i}{CGIL_i}\)、塩基Gの割合を\(\frac{G_i}{CGIL_i}\)とすると、\(\frac{C_i}{CGIL_i} \times \frac{G_i}{CGIL_i}\)で表されるものです。シンプルにいうと、「領域\(\boldsymbol{x}_i\)中の塩基Cの割合とGの割合を掛けたもの」です。式(2.3)で出てきます。
  • \(C_i\)
    \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する塩基Cの数です。
  • \(G_i\)
    \(i\)番目の粒子\(P_i\)の領域\(\boldsymbol{x}_i\)中に存在する塩基Gの数です。
  • \(CGIL_4^{norm}\)
    4番目の粒子\(P_4\)の変換後の領域長のことです。(実際のCGIの長さは500~2,000塩基程度ですが、例題配列として用いるHZ245980.1は633塩基しかないので)ここでは\(CGIL\)の想定範囲を200~510塩基に設定しています。\(CGIL_4\) = 100は\(CGIL\)の想定範囲(200~510塩基)ですので、式(2.1)のの枠組みで変換後の長さを計算することになります。つまり、\(CGIL_4^{norm} = 0\)です。

  • 群れ(swarm)
    PSOのSに相当する事柄です。PSOでは、群れ全体で最適解を探索します。その群れのことです。それゆえ、その群れを構成する個体数(population size; \(n\))をあらかじめ決めておく必要があります。
  • 粒子(particle; \(P\))
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。詳細については、本文中の次の段落で解説しています。
  • \(P_3\)
    3番目の粒子のことです。表2.2の最右列からもわかりますが、初期化後の状態で最も\(Fitness(P)\)の値が高い粒子です。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 繰り返し回数(iteration; \(move_{max}\))
    この場合は、粒子群最適化(PSO)実行時に、粒子が何回飛び回って探索するかに相当する数です。本節では、表2.2の情報を得るまでを初期化作業(繰り返し0回目)、これ以降を繰り返し1回目の作業としています。本節では、繰り返し回数を\(move_{max}\)として、式(2.13)あたりで5回繰り返す場合を例として説明しています。
  • 適応度(fitness)
    この場合は、粒子ごと\((P_i)\)のCGIらしさのことです。どれだけCGIの3条件に適応しているかというスコアだと理解すればよいです。
  • \(P_i^{best}\)
    \(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子\(P_i\)のことです。たとえば\(move_{max} = 5\)なら、同じ粒子\(P_i\)が計6箇所(粒子名は\(P_i^0\), \(P_i^1\), …, \(P_i^5\))飛び回ります。本文中では次のような書き方をしていませんが、繰り返し0回目(初期化後)の粒子を\(P_i^0\)、その適応度を\(Fitness(P_i^0)\)とすると、(この段階ではまだ繰り返し0回目なので)自動的に\(Fitness(P_i^{best}) = Fitness(P_i^0)\)、そして\(P_i^{best} = P_i^0\)となります。繰り返し1回目の粒子を\(P_i^1\)、その適応度を\(Fitness(P_i^1)\)とすると、もし\(Fitness(P_i^1) > Fitness(P_i^{best})\)なら、\(Fitness(P_i^1)\)の値を\(Fitness(P_i^{best})\)に代入し、同時に\(P_i^1\)\(P_i^{best}\)に代入していくようなイメージです。
  • \(\hat{\boldsymbol{x}_i}\)
    \(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子\(P_i^{best}\)の領域のことです。繰り返し0回目(初期化後)の粒子を\(P_i^0\)、その領域を\(\boldsymbol{x}_i^0 = (s_i^0, e_i^0)\)とすると、(この段階ではまだ繰り返し0回目なので)自動的に\(P_i^{best} = P_i^0\)\(Fitness(P_i^{best}) = Fitness(P_i^0)\)、そして\(\hat{\boldsymbol{x}_i} = \boldsymbol{x}_i^0 = (s_i^0, e_i^0)\)となります。繰り返し1回目の結果として、もし\(Fitness(P_i^1) > Fitness(P_i^{best})\)なら、\(\hat{\boldsymbol{x}_i}\)\(\boldsymbol{x}_i^1\)を代入するようなイメージです。
  • \(Fitness(P_i^{best})\)
    \(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子\(P_i\)の適応度のことです。本文中では次のような書き方をしていませんが、繰り返し0回目(初期化後)の粒子を\(P_i^0\)、その適応度を\(Fitness(P_i^0)\)とすると、(この段階ではまだ繰り返し0回目なので)自動的に\(Fitness(P_i^{best}) = Fitness(P_i^0)\)、そして\(P_i^{best} = P_i^0\)となります。繰り返し1回目の粒子を\(P_i^1\)、その適応度を\(Fitness(P_i^1)\)とすると、もし\(Fitness(P_i^1) > Fitness(P_i^{best})\)なら、\(Fitness(P_i^1)\)の値を\(Fitness(P_i^{best})\)に代入し、同時に\(P_i^1\)\(P_i^{best}\)に代入していくようなイメージです。
  • \(g^{best}\)
    あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、群全体として最も適応度が高かった粒子のことです。 本節では粒子数\(n\)を4としていますので、最も適応度が高かった\(i\)番目の粒子\(P_i^{best}\)は、\(P_1^{best}, P_2^{best}, P_3^{best}, P_4^{best}\)の計4つ存在します。\(g^{best}\)は、これらのうち最も適応度が高かった粒子のことを指します。
  • \(\hat{\boldsymbol{x}_g}\)
    あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、群全体として最も適応度が高かった領域のことです。\(g^{best}\)の説明と本質的に同じですが、違いは\(\hat{\boldsymbol{x}_g}\)が明確に領域を指すという点のみです。初期化(繰り返し0回目)終了時点では、\(\hat{\boldsymbol{x}_g}\) \(= \hat{\boldsymbol{x}_3}\) \(= (301, 580)\)です。
  • \(Fitness(g^{best})\)
    すべての繰り返し、および粒子の中で、値が最大の適応度のことです。本節では粒子数\(n\)を4といています。また、繰り返し回数\(move_{max}\)が5の場合は、同じ粒子\(P_i\)が計6箇所(粒子名は\(P_i^0\), \(P_i^1\), …, \(P_i^5\))飛び回ります。したがって、得られる適応度の値は\(4 \times 6 = 24\)通り分存在しますが、この中で最大値のものを指します。
  • パーソナルベスト(personal best)
    粒子ごとのベストという意味です。\(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子を\(P_i^{best}\)、その領域を\(\hat{\boldsymbol{x}_i}\)、そしてその適応度を\(Fitness(P_i^{best})\)といいます。これらがパーソナルベストのものたちということになります。
  • グローバルベスト(global best)
    群全体でのベストという意味です。すべての粒子があらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった粒子を\(g^{best}\)、その領域を\(\hat{\boldsymbol{x}_g}\)、そしてその適応度を\(Fitness(g^{best})\)といいます。これらがグローバルベストのものたちということになります。
  • \(P_i\)
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。たとえば、個体数\(n\)を4とおくと、各粒子は\(P_1, P_2, P_3, P_4\)のように表現することができます。また、\(P_i (i = 1, …, n)\)のように、任意の\(i\)番目の粒子のように表現することもできます。これのことです。
  • \(\boldsymbol{x}_i\)
    \(i\)番目の粒子\(P_i\)の領域の座標情報のことです。\(\boldsymbol{x}_i = (s_i, e_i)\)のように表現することができます。
  • \(Fitness(P_i)\)
    \(i\)番目の粒子\(P_i\)の適応度関数です。式(2.2)~(2.4)で定義されています。
  • 粒子ごとの情報のまとめ(繰り返し0回目; \(j = 0\))

    表2.2とも少し被りますが、この段落内で言及されている各種情報をまとめておきます。本文中では言及していませんが、初期化後は繰り返し0回目(\(j = 0\))のですので、このWeb資料では右上に添え字をつけて示します。

    \(P_i^0\) \(\boldsymbol{x}_i^0\) \(\hat{\boldsymbol{x}_i}\) \(Fitness(P_i^0)\) \(Fitness(P_i^{best})\) \(Fitness(g^{best})\) \(\hat{\boldsymbol{x}_g}\)
    \(P_1^0\) \(\boldsymbol{x}_1^0\)
    \(= (1, 203)\)
    \(\hat{\boldsymbol{x}_1}\)
    \(= (1, 203)\)
    \(Fitness(P_1^0)\)
    \(= 1.0786\)
    \(Fitness(P_1^{best})\)
    \(= 1.0786\)
    \(P_2^0\) \(\boldsymbol{x}_2^0\)
    \(= (51, 300)\)
    \(\hat{\boldsymbol{x}_2}\)
    \(= (51, 300)\)
    \(Fitness(P_2^0)\)
    \(= 1.1936\)
    \(Fitness(P_2^{best})\)
    \(= 1.1936\)
    \(P_3^0\) \(\boldsymbol{x}_3^0\)
    \(= (301, 580)\)
    \(\hat{\boldsymbol{x}_3}\)
    \(= (301, 580)\)
    \(Fitness(P_3^0)\)
    \(= 1.5024\)
    \(Fitness(P_3^{best})\)
    \(= 1.5024\)
    \(Fitness(P_3^{best})\)
    \(= 1.5024\)
    \(\hat{\boldsymbol{x}_3}\)
    \(= (301, 580)\)
    \(P_4^0\) \(\boldsymbol{x}_4^0\)
    \(= (401, 500)\)
    \(\hat{\boldsymbol{x}_4}\)
    \(= (401, 500)\)
    \(Fitness(P_4^0)\)
    \(= 1.2450\)
    \(Fitness(P_4^{best})\)
    \(= 1.2450\)

page067
  • 繰り返し1回目(\(j = 1\))
    表2.2の情報を得るまでを初期化作業(繰り返し0回目; \(j = 0\))としていますので、上記のまとめ情報を使って繰り返し1回目(\(j = 1\))の計算を行っていくことになります。
  • 粒子(particle; \(P\))
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。たとえば、個体数\(n\)を4とおくと、各粒子は\(P_1, P_2, P_3, P_4\)のように表現することができます。また、\(P_i (i = 1, …, n)\)のように、任意の\(i\)番目の粒子のように表現することもできます。CGI同定問題では、各粒子は「(CGIの)各候補領域」に相当します。各候補領域\(\boldsymbol{x}\)は、始点\(s\)と終点\(e\)の2つのパラメータで表現可能\((s < e)\)です。例題配列として用いるHZ245980.1は633塩基なので\(e_{max}\) = 633、同様に\(s_{min}\) = 1となります。\(i\)番目の粒子\(P_i\)の領域の座標情報は、\(\boldsymbol{x}_i\) = \((s_i, e_i)\)のように表現することができます。
  • 領域(region)
    この場合は、ゲノム中のCpGアイランド(CGI)候補領域のことです。
  • \(P_i\)
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。たとえば、個体数\(n\)を4とおくと、各粒子は\(P_1, P_2, P_3, P_4\)のように表現することができます。また、\(P_i (i = 1, …, n)\)のように、任意の\(i\)番目の粒子のように表現することもできます。これのことです。
  • \(\boldsymbol{x}_i^{old}\)
    更新\(P_i\)の領域情報です。式(2.6)で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^0\)の領域情報は\(\boldsymbol{x}_4^{old}\) \(= \boldsymbol{x}_4^0\) \(= (s_4^0, e_4^0)\) = (401, 500)となります。更新が繰り返し0回目に相当するので、右上の添え字が0になっているのだと理解すればよいです。本文中では右上の0の添え字はありませんので、ご注意ください。
  • \(\boldsymbol{x}_i^{new}\)
    更新\(P_i\)の領域情報です。式(2.6)で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^1\)の領域情報は\(\boldsymbol{x}_4^{new}\) \(= \boldsymbol{x}_4^1\) \(= (s_4^1, e_4^1)\)のように表現できます。更新が繰り返し1回目に相当するので、右上の添え字が1になっているのだと理解すればよいです。本文中では右上の1の添え字はありませんので、ご注意ください。
  • 式(2.6)
    \[ \boldsymbol{x}_i^{new} = \boldsymbol{x}_i^{old} + \boldsymbol{v}_i^{new} \tag{2.6} \]
  • \(\boldsymbol{v}_i^{new}\)
    式(2.6)の第2項で出てくる速度とよばれる項です。2次元の整数ベクトルであり、この値が更新前後の領域の違いを決定します。この値の求め方の基本形が式(2.8)で、完成形が式(2.11)です。
  • Chuang論文(Chuang et al., PLoS One, 2011)
    この論文の式(7)が、本文中の式(2.6)に対応します。
  • 速度(velocity)
    式(2.6)の右辺第2項のvの説明周辺です。
  • \(P_2\)
    2番目の粒子のことです。表2.2の最右列の\(Fitness(P_2)\) = 1.1936からもわかりますが、初期化後の状態で3番目に\(Fitness(P)\)の値が高い粒子です。1番高い値でもないため、大勢に影響を与えないのでなんとなく例示しています。初期化後(繰り返し0回目)の領域\(\boldsymbol{x}_i^{old}\) \(= \boldsymbol{x}_2^0\) = (51, 300)とも表現できます。
  • 式(2.7)
    \[ \begin{align} \boldsymbol{x}_2^{new} &= \boldsymbol{x}_2^{old} + \boldsymbol{v}_2^{new} \\ &= \begin{pmatrix} 51 \\ 300 \end{pmatrix} + \begin{pmatrix} -3 \\ 1 \end{pmatrix} \\ \tag{2.7} &= \begin{pmatrix} 48 \\ 301 \end{pmatrix} \\ \end{align} \]
  • 繰り返し1回目(\(j = 1\))
    表2.2の情報を得るまでを初期化作業(繰り返し0回目; \(j = 0\))としていますので、初期化後の情報をベースとして繰り返し1回目(\(j = 1\))の領域の情報更新作業を行っていくことになります。
  • \(P_2\)
    2番目の粒子のことです。表2.2の最右列の\(Fitness(P_2)\) = 1.1936からもわかりますが、初期化後の状態で3番目に\(Fitness(P)\)の値が高い粒子です。1番高い値でもないため、大勢に影響を与えないのでなんとなく例示しています。初期化後(繰り返し0回目)の領域\(\boldsymbol{x}_i^{old}\) \(= \boldsymbol{x}_2^0\) = (51, 300)とも表現できます。
  • \(\boldsymbol{x}_2^{new}\)
    更新\(P_2\)の領域情報です。式(2.7)で出てきている\(\boldsymbol{x}_2^{new}\) = (48, 301)という計算結果は、あくまでも\(\boldsymbol{v}_2^{new}\)\((-3, 1)\)だとしたらこんな感じで計算できますよという例示にすぎませんのでご注意ください。
  • \(\boldsymbol{v}_i^{new}\)
    式(2.6)の第2項で出てくる速度とよばれる項です。2次元の整数ベクトルであり、この値が更新前後の領域の違いを決定します。\(\boldsymbol{v}_i^{new}\)の値の求め方の基本形が式(2.8)で、完成形が式(2.11)です。
  • PSO
    粒子群最適化(Particle Swarm Optimization)のことです。生物の社会的な行動をシミュレーションすることで開発された集団ベースの確率的最適化アルゴリズムであり、群知能の一種です。ハイエナの群れが最初はバラバラな方角にエサを探していても、1匹が近くに獲物を発見したら他の仲間にその情報を伝え、群れ全体あるいは近くにいる仲間が獲物の方向に向かうようなものです。
  • 粒子(particle; \(P\))
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。たとえば、個体数\(n\)を4とおくと、各粒子は\(P_1, P_2, P_3, P_4\)のように表現することができます。また、\(P_i (i = 1, …, n)\)のように、任意の\(i\)番目の粒子のように表現することもできます。CGI同定問題では、各粒子は「(CGIの)各候補領域」に相当します。各候補領域\(\boldsymbol{x}\)は、始点\(s\)と終点\(e\)の2つのパラメータで表現可能\((s < e)\)です。例題配列として用いるHZ245980.1は633塩基なので\(e_{max}\) = 633、同様に\(s_{min}\) = 1となります。\(i\)番目の粒子\(P_i\)の領域の座標情報は、\(\boldsymbol{x}_i\) = \((s_i, e_i)\)のように表現することができます。
  • 適応度(fitness)
    この場合は、粒子ごと\((P_i)\)のCGIらしさのことです。どれだけCGIの3条件に適応しているかというスコアだと理解すればよいです。
  • \(\boldsymbol{v}_i^{old}\)
    式(2.8)の第1項で出てくるものあり、粒子\(P_i\)が更新前に持っていた速度のことです。更新なので右上の添え字が\(old\)なのです。
  • \(\hat{\boldsymbol{x}_i}\)
    \(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子\(P_i^{best}\)の領域のことです。繰り返し0回目(初期化後)の粒子を\(P_i^0\)、その領域を\(\boldsymbol{x}_i^0 = (s_i^0, e_i^0)\)とすると、(この段階ではまだ繰り返し0回目なので)自動的に\(P_i^{best} = P_i^0\)\(Fitness(P_i^{best}) = Fitness(P_i^0)\)、そして\(\hat{\boldsymbol{x}_i} = \boldsymbol{x}_i^0 = (s_i^0, e_i^0)\)となります。繰り返し1回目の結果として、もし\(Fitness(P_i^1) > Fitness(P_i^{best})\)なら、\(\hat{\boldsymbol{x}_i}\)\(\boldsymbol{x}_i^1\)を代入するようなイメージです。
  • \(\hat{\boldsymbol{x}_g}\)
    あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、群全体として最も適応度が高かった領域のことです。\(g^{best}\)の説明と本質的に同じですが、違いは\(\hat{\boldsymbol{x}_g}\)が明確に領域を指すという点のみです。初期化(繰り返し0回目)終了時点では、\(\hat{\boldsymbol{x}_g}\) \(= \hat{\boldsymbol{x}_3}\) = (301, 580)です。
  • 式(2.8)
    \[ \boldsymbol{v}_i^{new} = \overbrace{ \boldsymbol{v}_i^{old} }^{第1項} + \overbrace{ (\hat{\boldsymbol{x}_i} - \boldsymbol{x}_i^{old}) }^{第2項} + \overbrace{ (\hat{\boldsymbol{x}_g} - \boldsymbol{x}_i^{old}) }^{第3項} \tag{2.8} \]
  • 粒子ごとの情報のまとめ(繰り返し0回目; \(j = 0\))

    初期化(繰り返し0回目)終了時点で保持している情報の再掲です。以下の情報と突き合わせながら、式(2.8)と式(2.9)の間の解説をご覧になると理解しやすいかと思います。この場合は、繰り返し0回目が\(old\)、繰り返し1回目が\(new\)です。したがって、\(\boldsymbol{x}_i^0\) \(= \boldsymbol{x}_i^{old}\)です。

    \(P_i^0\) \(\boldsymbol{x}_i^0\) \(\hat{\boldsymbol{x}_i}\) \(Fitness(P_i^0)\) \(Fitness(P_i^{best})\) \(Fitness(g^{best})\) \(\hat{\boldsymbol{x}_g}\)
    \(P_1^0\) \(\boldsymbol{x}_1^0\)
    \(= (1, 203)\)
    \(\hat{\boldsymbol{x}_1}\)
    \(= (1, 203)\)
    \(Fitness(P_1^0)\)
    \(= 1.0786\)
    \(Fitness(P_1^{best})\)
    \(= 1.0786\)
    \(P_2^0\) \(\boldsymbol{x}_2^0\)
    \(= (51, 300)\)
    \(\hat{\boldsymbol{x}_2}\)
    \(= (51, 300)\)
    \(Fitness(P_2^0)\)
    \(= 1.1936\)
    \(Fitness(P_2^{best})\)
    \(= 1.1936\)
    \(P_3^0\) \(\boldsymbol{x}_3^0\)
    \(= (301, 580)\)
    \(\hat{\boldsymbol{x}_3}\)
    \(= (301, 580)\)
    \(Fitness(P_3^0)\)
    \(= 1.5024\)
    \(Fitness(P_3^{best})\)
    \(= 1.5024\)
    \(Fitness(P_3^{best})\)
    \(= 1.5024\)
    \(\hat{\boldsymbol{x}_3}\)
    \(= (301, 580)\)
    \(P_4^0\) \(\boldsymbol{x}_4^0\)
    \(= (401, 500)\)
    \(\hat{\boldsymbol{x}_4}\)
    \(= (401, 500)\)
    \(Fitness(P_4^0)\)
    \(= 1.2450\)
    \(Fitness(P_4^{best})\)
    \(= 1.2450\)
  • \(\boldsymbol{x}_i^{old}\)
    更新\(P_i\)の領域情報です。式(2.6)で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^0\)の領域情報は\(\boldsymbol{x}_4^{old}\) \(= \boldsymbol{x}_4^0\) \(= (s_4^0, e_4^0)\) = (401, 500)となります。更新が繰り返し0回目に相当するので、右上の添え字が0になっているのだと理解すればよいです。本文中では右上の0の添え字はありませんので、ご注意ください。
  • \(\hat{\boldsymbol{x}_i}\)
    \(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子\(P_i^{best}\)の領域のことです。繰り返し0回目(初期化後)の粒子を\(P_i^0\)、その領域を\(\boldsymbol{x}_i^0 = (s_i^0, e_i^0)\)とすると、(この段階ではまだ繰り返し0回目なので)自動的に\(P_i^{best} = P_i^0\)\(Fitness(P_i^{best}) = Fitness(P_i^0)\)、そして\(\hat{\boldsymbol{x}_i} = \boldsymbol{x}_i^0 = (s_i^0, e_i^0)\)となります。繰り返し1回目の結果として、もし\(Fitness(P_i^1) > Fitness(P_i^{best})\)なら、\(\hat{\boldsymbol{x}_i}\)\(\boldsymbol{x}_i^1\)を代入するようなイメージです。
  • Chuang論文(Chuang et al., PLoS One, 2011)
    Figure S9に丁寧な計算手順が示されています。クリックすると、pone.0021036.s009.docという名前のwordファイルとして保存されるようです。このファイルの5ページ目に\(\boldsymbol{v}_i^{old}\) = (1, 1)と読み解ける情報が記載されています。
page068
  • 式(2.9)
    \(\hat{\boldsymbol{x}_i}= \boldsymbol{x}_i = \boldsymbol{x}_i^{old}\)より、式(2.8)の第2項が消去された状態から示します。2段目は、\(\boldsymbol{v}_i^{old}\) \(= (1, 1)\)と、\(\hat{\boldsymbol{x}_g}\) \(= \hat{\boldsymbol{x}_3}\) = (301, 580)の結果を代入しているだけです。一個人としては(説明がややこしいので)\(\boldsymbol{v}_i^{old}\) = (0, 0)でよいと思っていますが、上述のようにChuang論文(Chuang et al., PLoS One, 2011)中で(1, 1)と書かれているのでそれに従っているだけです。
    \[ \begin{align} \boldsymbol{v}_i^{new} &= \overbrace{ \boldsymbol{v}_i^{old} }^{式(2.8)の第1項} + \overbrace{ \hat{\boldsymbol{x}_g} - \boldsymbol{x}_i^{old} }^{式(2.8)の第3項} \\ &= \overbrace{ \begin{pmatrix} 1 \\ 1 \end{pmatrix} }^{式(2.8)の第1項} + \overbrace{ \begin{pmatrix} 301 \\ 580 \end{pmatrix} - \boldsymbol{x}_i^{old} }^{式(2.8)の第3項} \tag{2.9} \end{align} \]
  • \(P_i\)
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。たとえば、個体数\(n\)を4とおくと、各粒子は\(P_1, P_2, P_3, P_4\)のように表現することができます。また、\(P_i (i = 1, …, n)\)のように、任意の\(i\)番目の粒子のように表現することもできます。これのことです。
  • グローバルベスト(global best)
    群全体でのベストという意味です。すべての粒子があらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった粒子を\(g^{best}\)、その領域を\(\hat{\boldsymbol{x}_g}\)、そしてその適応度を\(Fitness(g^{best})\)といいます。これらがグローバルベストのものたちということになります。
  • \(\hat{\boldsymbol{x}_g}\)
    あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、群全体として最も適応度が高かった領域のことです。\(g^{best}\)の説明と本質的に同じですが、違いは\(\hat{\boldsymbol{x}_g}\)が明確に領域を指すという点のみです。初期化(繰り返し0回目)終了時点では、\(\hat{\boldsymbol{x}_g}\) \(= \hat{\boldsymbol{x}_3}\) = (301, 580)です。
  • \(\boldsymbol{x}_i^{new}\)
    更新\(P_i\)の領域情報です。式(2.6)で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^1\)の領域情報は\(\boldsymbol{x}_4^{new}\) \(= \boldsymbol{x}_4^1\) \(= (s_4^1, e_4^1)\)のように表現できます。更新が繰り返し1回目に相当するので、右上の添え字が1になっているのだと理解すればよいです。本文中では右上の1の添え字はありませんので、ご注意ください。
  • \(\boldsymbol{v}_i^{new}\)
    式(2.6)の第2項で出てくる速度とよばれる項です。2次元の整数ベクトルであり、この値が更新前後の領域の違いを決定します。この値の求め方の基本形が式(2.8)で、完成形が式(2.11)です。
  • \(P_2\)の更新後の領域情報\(\boldsymbol{x}_2^{new}\)
    式(2.6)に具体的な数値を代入しただけです。式(2.7)は仮想的な\(\boldsymbol{v}_2^{new}\)の値を代入したものであり、以下が実際の値になります。
    \[ \begin{align} \boldsymbol{x}_2^{new} &= \boldsymbol{x}_2^{old} + \boldsymbol{v}_2^{new} \\ &= \begin{pmatrix} 51 \\ 300 \end{pmatrix} + \begin{pmatrix} 251 \\ 281 \end{pmatrix} \\ &= \begin{pmatrix} 302 \\ 581 \end{pmatrix} \\ \end{align} \]
  • 式(2.9)の右辺をそのまま式(2.6)に代入すれば…のあたり
    1段目は式(2.6)、2段目は式(2.9)の右辺をそのまま代入した結果、3段目は\(\boldsymbol{x}_i^{old}\)を消去した結果です。4段目では、あえて\(\hat{\boldsymbol{x}_g}\) \(= \hat{\boldsymbol{x}_3}\) = (301, 580)から1塩基だけ右側にずれているということがわかるようにしています。
    \[ \begin{align} \boldsymbol{x}_i^{new} &= \boldsymbol{x}_i^{old} + \boldsymbol{v}_i^{new} \\ &= \boldsymbol{x}_i^{old} + \begin{pmatrix} 1 \\ 1 \end{pmatrix} + \begin{pmatrix} 301 \\ 580 \end{pmatrix} - \boldsymbol{x}_i^{old} \\ &= \begin{pmatrix} 1 \\ 1 \end{pmatrix} + \begin{pmatrix} 301 \\ 580 \end{pmatrix} \\ &= \begin{pmatrix} 301 + 1 \\ 580 + 1 \end{pmatrix} \\ \end{align} \] 左辺の\(\boldsymbol{x}_i^{new}\)は更新\(P_i\)の領域情報ですが、右辺の値が更新\(P_i\)の領域情報とは無関係に(301+1, 580+1)に定まっているという点がポイントです。これは\(\hat{\boldsymbol{x}_g}\) \(= \hat{\boldsymbol{x}_3}\) = (301, 580)から1塩基だけ右側にずれているだけですので、式(2.8)はすべての粒子の更新の領域が(更新前がどんな位置であろうとも)「初期化時点で最も適応度が高かった領域になるような操作をしているのだ」と解釈すればよいです。詳細については、この次の段落で述べています。

  • 式(2.8)
    \[ \boldsymbol{v}_i^{new} = \overbrace{ \boldsymbol{v}_i^{old} }^{第1項} + \overbrace{ (\hat{\boldsymbol{x}_i} - \boldsymbol{x}_i^{old}) }^{第2項} + \overbrace{ (\hat{\boldsymbol{x}_g} - \boldsymbol{x}_i^{old}) }^{第3項} \tag{2.8} \] この式は、更新\(P_i\)の領域を、(1塩基だけ右にずれていますが誤差範囲と考えて…)とにかく更新のグローバルベストである\(\hat{\boldsymbol{x}_g}\) \(= \hat{\boldsymbol{x}_3}\) = (301, 580)に向かわせるためのパーフェクトな性能をもった更新式だとみなせばよいです。なお、\(\boldsymbol{v}_i^{new}\)は、式(2.6)の第2項で出てくる速度とよばれる項です。2次元の整数ベクトルであり、この値が更新前後の領域の違いを決定します。式(2.8)は、この値の求め方の基本形であり、完成形が後述する式(2.11)です。
  • グローバルベスト(global best)
    群全体でのベストという意味です。すべての粒子があらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった粒子を\(g^{best}\)、その領域を\(\hat{\boldsymbol{x}_g}\)、そしてその適応度を\(Fitness(g^{best})\)といいます。これらがグローバルベストのものたちということになります。
  • 乱数が0.63だった場合の速度情報\(\boldsymbol{v}_2^{new}\)
    \[ \begin{align} \boldsymbol{v}_2^{new} &= 0.63 \times \begin{pmatrix} 251 \\ 281 \end{pmatrix} = \begin{pmatrix} 158.13 \\ 177.03 \end{pmatrix}\\ \end{align} \]
  • 乱数が0.63だった場合の更新の領域情報\(\boldsymbol{x}_2^{new}\)
    1段目は式(2.6)、2段目は具体的な数値を代入したものです。2段目の第1項は更新の粒子\(P_2\)の領域情報\(\boldsymbol{x}_2^{old}\)、第2項は上記で得た\(\boldsymbol{v}_2^{new}\)の小数点を四捨五入して得た値です。
    \[ \begin{align} \boldsymbol{x}_2^{new} &= \boldsymbol{x}_2^{old} + \boldsymbol{v}_2^{new} \\ &= \begin{pmatrix} 51 \\ 300 \end{pmatrix} + \begin{pmatrix} 158 \\ 177 \end{pmatrix} \\ &= \begin{pmatrix} 209 \\ 477 \end{pmatrix} \\ \end{align} \]
  • 図2.6c
    CGI同定の図です。(c)の横棒は、633塩基からなる入力配列(HZ245980.1)の全長を示しています。計35個の縦棒は、CpGサイトを表しています。その下に見えている両端に矢印ががついたものが更新の粒子\(P_2\)の領域情報\(\boldsymbol{x}_2^{new}\)です。その具体的な座標は、上記で得た\(\boldsymbol{x}_2^{new}\) = (209, 477)です。
  • 更新の領域長\(CGIL_2\)
    \(\boldsymbol{x}_2^{new}\) = (209, 477)の情報を用いて以下のように算出します。+1しているのは、領域の始点と終点が同じでも領域長は0塩基ではなく1塩基だからです。
    \[ \begin{align} CGIL_2 = 477 - 209 + 1 = 269 \\ \end{align} \]
  • グローバルベストの領域長との差分の0.63倍分だけ伸びている…のところ
    図2.6の(c)で見えている\(P_2\)の領域は、(b)の「更新の粒子\(P_2\)の領域」が「グローバルベストである\(P_3\)の領域」になろうとしている途中段階であり、具体的には63%だけ近づいているのだと理解すればよいです。更新の粒子\(P_2\)の領域長\(CGIL_2\) = 250 bpから、グローバルベストである\(P_3\)の領域長\(CGIL_3\) = 280 bpになろうともしていますので、(280 - 250)×0.63 = 18.9 bp分だけ更新の領域長から長くなっているのです。なので、上記の更新の領域長\(CGIL_2\)は、250 + 18.9 = 268.9 bpから四捨五入して269 bpだということです。
  • 適応度(fitness)
    この場合は、粒子ごと\((P_i)\)のCGIらしさのことです。どれだけCGIの3条件に適応しているかというスコアだと理解すればよいです。
  • \(Fitness(P_2)\)
    2番目の粒子\(P_2\)の適応度関数です。式(2.2)~(2.4)で定義されています。繰り返し1回目(\(j = 1\))の粒子\(P_2\)の適応度なので\(Fitness(P_2^1)\)という風に添え字をつけて理解してもかまいません。
  • 式(2.10)
    式(2.5)とは領域が異なるので、以下の数値も違ってきます。式(2.5)が繰り返し0回目(\(j = 0\))の粒子\(P_2\)の適応度なので\(Fitness(P_2^0)\)、そして式(2.10)が繰り返し1回目(\(j = 1\))の粒子\(P_2\)の適応度なので\(Fitness(P_2^1)\)という風に添え字をつけて理解してもかまいません。繰り返し0回目(\(j = 0\))の粒子\(P_2\)の領域は\(\boldsymbol{x}_2^0\) = (51, 300)であり、これが更新の領域情報\(\boldsymbol{x}_2^{old}\)です。繰り返し1回目(\(j = 1\))の粒子\(P_2\)の領域は\(\boldsymbol{x}_2^1\) = (209, 477)であり、これが更新後の領域情報\(\boldsymbol{x}_2^{new}\)です。
    \[ \begin{align} Fitness(P_2) &= \frac{\frac{CpG_2}{CGIL_2}}{\frac{C_2}{CGIL_2} \times \frac{G_2}{CGIL_2}} + \frac{C_2 + G_2}{CGIL_2} + \frac{CGIL_2 - CGIL_{min}}{CGIL_{max} - CGIL_{min}} \\ &= \frac{\frac{16}{269}}{\frac{84}{269} \times \frac{84}{269}} + \frac{84 + 84}{269} + \frac{269 - 200}{510 - 200} \\ \tag{2.10} &= \frac{0.0595}{0.0975} + 0.6245 + 0.2226 \\ &= 1.4571 \\ \end{align} \]
  • 適応度(fitness)
    この場合は、粒子ごと\((P_i)\)のCGIらしさのことです。どれだけCGIの3条件に適応しているかというスコアだと理解すればよいです。
  • 式(2.5)
    初期化終了時点(繰り返し0 回目)の粒子\(P_2\)の領域\(\boldsymbol{x}_2^0\) = (51, 300)の適応度\(Fitness(P_2)\)です。繰り返し0回目(\(j = 0\))の粒子\(P_2\)の適応度なので、\(Fitness(P_2^0)\)という風に添え字をつけて理解してもかまいません。
    \[ \begin{align} Fitness(P_2) &= \frac{\frac{CpG_2}{CGIL_2}}{\frac{C_2}{CGIL_2} \times \frac{G_2}{CGIL_2}} + \frac{C_2 + G_2}{CGIL_2} + \frac{CGIL_2 - CGIL_{min}}{CGIL_{max} - CGIL_{min}} \\ &= \frac{\frac{10}{250}}{\frac{73}{250} \times \frac{91}{250}} + \frac{73 + 91}{250} + \frac{250 - 200}{510 - 200} \\ \tag{2.5} &= \frac{0.04}{0.1063} + 0.656 + \frac{50}{310} \\ &= 1.1936 \\ \end{align} \]
  • \(P_2^{best}\)
    粒子\(P_2\)の「パーソナルベスト(personal best)」のことです。ここでは初期化終了時点(繰り返し0 回目)の粒子\(P_2\)のことを\(P_2^0\)、繰り返し1回目の粒子\(P_2\)のことを\(P_2^1\)のように考えていて、あらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった2番目の粒子\(P_2\)のことです。
  • \(Fitness(P_2^{best})\)
    粒子\(P_2\)の「パーソナルベスト(personal best)」のことである、\(P_2^{best}\)の適応度のことです。式(2.5)では、初期化終了時点(繰り返し0 回目)の粒子\(P_2\)のことである、\(P_2^0\)の適応度\(Fitness(P_2^0)\)を得ています。初期化終了時点では、まだ繰り返しを1回も行っていないため、\(P_2^0\)がそのまま初期値として\(P_2^{best}\)に代入される形になります。そして、繰り返し1回目の粒子\(P_2\)のことである、\(P_2^1\)の領域\(\boldsymbol{x}_2^1\) = (209, 477)を用いて\(Fitness(P_2^1)\)を算出したのが式(2.10)です。ここで得られた\(Fitness(P_2^1)\) = 1.4571のほうが\(Fitness(P_2^0)\) = 1.1936よりも大きいので、\(P_2^1\)が新たな\(P_2^{best}\)となり、\(Fitness(P_2^{best})\)も1.1936から1.4571に更新されます。
  • \(\hat{\boldsymbol{x}_2}\)
    2番目の粒子\(P_2\)のみに着目し、あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、最も適応度が高かった\(P_2^{best}\)の領域のことです。繰り返し0回目(初期化後)の粒子を\(P_2^0\)、その領域は\(\boldsymbol{x}_2^0\) = (51, 300)です。(この段階ではまだ繰り返し0回目なので)自動的に\(P_2^{best} = P_2^0\)\(Fitness(P_2^{best}) = Fitness(P_2^0)\)、そして\(\hat{\boldsymbol{x}_2} = \boldsymbol{x}_2^0 = (51, 300)\)となります。\(Fitness(P_2^1)\) = 1.4571のほうが\(Fitness(P_2^0)\) = 1.1936よりも大きいので、\(P_2^1\)が新たな\(P_2^{best}\)となり、\(Fitness(P_2^{best})\)も1.1936から1.4571に更新されます。それに合わせて、\(\hat{\boldsymbol{x}_2}\) = (51, 300)に\(\boldsymbol{x}_2^1\) = (209, 477)を代入するようなイメージです。つまり、\(\hat{\boldsymbol{x}_2}\) = (209, 477)です。
  • グローバルベスト(global best)
    群全体でのベストという意味です。すべての粒子があらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった粒子を\(g^{best}\)、その領域を\(\hat{\boldsymbol{x}_g}\)、そしてその適応度を\(Fitness(g^{best})\)といいます。これらがグローバルベストのものたちということになります。
  • \(P_2\)
    2番目の粒子のことです。表2.2の最右列の\(Fitness(P_2)\) = 1.1936からもわかりますが、初期化後の状態で3番目に\(Fitness(P)\)の値が高い粒子です。1番高い値でもないため、大勢に影響を与えないのでなんとなく例示しています。
  • 粒子(particle; \(P\))
    粒子群最適化(PSO)の場合は、群れ全体で最適解を探索します。それゆえ、その群れを構成する1匹1匹の個体のことを粒子(particle)と表現します。たとえば、個体数\(n\)を4とおくと、各粒子は\(P_1, P_2, P_3, P_4\)のように表現することができます。また、\(P_i (i = 1, …, n)\)のように、任意の\(i\)番目の粒子のように表現することもできます。CGI同定問題では、各粒子は「(CGIの)各候補領域」に相当します。各候補領域\(\boldsymbol{x}\)は、始点\(s\)と終点\(e\)の2つのパラメータで表現可能\((s < e)\)です。例題配列として用いるHZ245980.1は633塩基なので\(e_{max}\) = 633、同様に\(s_{min}\) = 1となります。\(i\)番目の粒子\(P_i\)の領域の座標情報は、\(\boldsymbol{x}_i\) = \((s_i, e_i)\)のように表現することができます。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • 式(2.8)
    \[ \boldsymbol{v}_i^{new} = \overbrace{ \boldsymbol{v}_i^{old} }^{第1項} + \overbrace{ (\hat{\boldsymbol{x}_i} - \boldsymbol{x}_i^{old}) }^{第2項} + \overbrace{ (\hat{\boldsymbol{x}_g} - \boldsymbol{x}_i^{old}) }^{第3項} \tag{2.8} \] この式は、更新\(P_i\)の領域を、(1塩基だけ右にずれていますが誤差範囲と考えて…)とにかく更新のグローバルベストである\(\hat{\boldsymbol{x}_g}\) \(= \hat{\boldsymbol{x}_3}\) = (301, 580)に向かわせるためのパーフェクトな性能をもった更新式だとみなせばよいです。なお、\(\boldsymbol{v}_i^{new}\)は、式(2.6)の第2項で出てくる速度とよばれる項です。2次元の整数ベクトルであり、この値が更新前後の領域の違いを決定します。式(2.8)は、この値の求め方の基本形であり、完成形が後述する式(2.11)です。
  • 速度(velocity)
    式(2.6)の右辺第2項の\(v\)のことであり、式(2.8)の左辺のことです。つまり\(\boldsymbol{v}_i^{new}\)のことです。
  • PSO
    粒子群最適化(Particle Swarm Optimization)のことです。生物の社会的な行動をシミュレーションすることで開発された集団ベースの確率的最適化アルゴリズムであり、群知能の一種です。ハイエナの群れが最初はバラバラな方角にエサを探していても、1匹が近くに獲物を発見したら他の仲間にその情報を伝え、群れ全体あるいは近くにいる仲間が獲物の方向に向かうようなものです。
  • 繰り返し1 回目で更新された速度情報\(\boldsymbol{v}_2^{new}\) = (158, 177)について
    これは式(2.10)の上の段落で説明した「乱数が0.63だった場合」の仮想的な\(P_2\)の速度情報です。念のため以下に算出手順を再掲しておきます。
    \[ \begin{align} \boldsymbol{v}_2^{new} &= 0.63 \times \begin{pmatrix} 251 \\ 281 \end{pmatrix} = \begin{pmatrix} 158.13 \\ 177.03 \end{pmatrix}\\ \end{align} \] なお、この\(\boldsymbol{v}_2^{new}\)は、式(2.8)および式(2.9)で算出できる「\(P_2\)の速度情報」です。たとえば、「\(P_2\)の更新の領域情報\(\boldsymbol{x}_2^{old}\) = (51, 300)」を式(2.9)に代入して以下のように得たものです。
    \[ \begin{align} \boldsymbol{v}_2^{new} &= \begin{pmatrix} 1 \\ 1 \end{pmatrix} + \begin{pmatrix} 301 \\ 580 \end{pmatrix} - \boldsymbol{x}_2^{old} \\ &= \begin{pmatrix} 1 \\ 1 \end{pmatrix} + \begin{pmatrix} 301 \\ 580 \end{pmatrix} - \begin{pmatrix} 51 \\ 300 \end{pmatrix} \\ &= \begin{pmatrix} 251 \\ 281 \end{pmatrix} \\ \end{align} \]
page069
  • Chuang論文(Chuang et al., PLoS One, 2011)
    この論文の式(6)に対応する、本教科書中の式(2.8)の完成系が、以下の式(2.11)に対応します。
  • 式(2.8)
    ここでも再掲します。
    \[ \boldsymbol{v}_i^{new} = \overbrace{ \boldsymbol{v}_i^{old} }^{第1項} + \overbrace{ (\hat{\boldsymbol{x}_i} - \boldsymbol{x}_i^{old}) }^{第2項} + \overbrace{ (\hat{\boldsymbol{x}_g} - \boldsymbol{x}_i^{old}) }^{第3項} \tag{2.8} \]
  • 式(2.11)
    Chuang論文の式(6)に対応する、本教科書中の式(2.8)の完成形が、以下の式(2.11)に対応します。
    \[ \begin{align} \boldsymbol{v}_i^{new} = w \times \boldsymbol{v}_i^{old} + c_1 \times r_1 \times (\hat{\boldsymbol{x}_i} - \boldsymbol{x}_i^{old}) + c_2 \times r_2 \times (\hat{\boldsymbol{x}_g} - \boldsymbol{x}_i^{old}) \tag{2.11} \end{align} \]
  • 一様乱数(uniform random numbers)
    リンク先は「乱数列」です。ある有限の区間(この場合は0~1)を区切って、その区間内で全ての実数が同じ確率(濃度)で現れるような連続一様分布に従う乱数のことです。
  • 係数(coefficient)
    多項式の各項(単項式)を構成する因子において、ある変数(不定元)に着目した際の他の部分のことです。たとえば\(f(x) = 3x + 5\)において\(x\)に着目した際、\(x\)の係数は3です。また、ここでの5のように、それ自体で項全体となっている項のことを特に定数項とよびます。
  • 式(2.11)の第2項および第3項にかかっている\(r_1\)および\(r_2\)
    それぞれの項にかかっている乱数(一様乱数)のことです。
  • 式(2.11)の第2項および第3項にかかっている\(c_1\)および\(c_2\)
    加速度定数(acceleration constant)とよばれるものですが、要はただの係数です。Chuang論文では、\(c_1 = c_2 = 2\)として計算が行われています。これは、たとえば第2項の\(r_1 \times (\hat{\boldsymbol{x}_i} - \boldsymbol{x}_i^{old})\)をそのまま使うのではなくて、それを\(c_1\)倍だけさせることを意図したものだと解釈すればよいです。
  • \(\boldsymbol{x}_i^{old}\)
    更新\(P_i\)の領域情報です。式(2.11)の第3項で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^0\)の領域情報は\(\boldsymbol{x}_4^{old}\) \(= \boldsymbol{x}_4^0\) \(= (s_4^0, e_4^0)\) = (401, 500)となります。更新が繰り返し0回目に相当するので、右上の添え字が0になっているのだと理解すればよいです。本文中では右上の0の添え字はありませんので、ご注意ください。
  • グローバルベスト(global best)
    群全体でのベストという意味です。すべての粒子があらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった粒子を\(g^{best}\)、その領域を\(\hat{\boldsymbol{x}_g}\)、そしてその適応度を\(Fitness(g^{best})\)といいます。これらがグローバルベストのものたちということになります。初期化(繰り返し0回目)終了時点では、\(\hat{\boldsymbol{x}_g}\) \(= \hat{\boldsymbol{x}_3}\) = (301, 580)です。

  • 第1項の\(w\)
    式(2.11)の第1項の\(\boldsymbol{v}_i^{old}\)にかかっている、慣性重み(inertia weight)とよばれる係数のことです。元々もっていた速度(つまり\(\boldsymbol{v}_i^{old}\))を保とうとする性質(つまり慣性)を調整するための係数です。
  • 慣性重み(inertia weight)
    リンク先は「慣性(inertia)」です。慣性(inertia)とは、ある物体が外力を受けないとき、その物体の運動状態は慣性系に対して変わらないという性質のことです。
  • \(\boldsymbol{x}_i^{old}\)
    更新\(P_i\)の領域情報です。式(2.11)の第3項で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^0\)の領域情報は\(\boldsymbol{x}_4^{old}\) \(= \boldsymbol{x}_4^0\) \(= (s_4^0, e_4^0)\) = (401, 500)となります。更新が繰り返し0回目に相当するので、右上の添え字が0になっているのだと理解すればよいです。本文中では右上の0の添え字はありませんので、ご注意ください。
  • \(w\)の最大値(\(w_{max}\))
    式(2.11)の第1項の\(\boldsymbol{v}_i^{old}\)にかかっている、慣性重み(inertia weight)とよばれる係数\(w\)の最大値のことです。Chuang論文では\(w_{max}\) = 0.9が用いられています。
  • \(w\)の最小値(\(w_{min}\))
    式(2.11)の第1項の\(\boldsymbol{v}_i^{old}\)にかかっている、慣性重み(inertia weight)とよばれる係数\(w\)の最小値のことです。Chuang論文では\(w_{min}\) = 0.4が用いられています。
  • PSOの繰り返し回数(\(move_{max}\))
    本文中でも感度が繰り返し0回目(\(j\) = 0)、繰り返し1回目(\(j\) = 1)などと言及してきましたが、この繰り返し回数のことです。
  • \(move^j\)
    現在繰り返し何回目かを表すものです。たとえば繰り返し1回目は\(move^j\) = 1、繰り返し2回目は\(move^j\) = 2みたいに考えます。moveという文字が不要ではないかと思われるかもしれませんが、式(2.12)全体としての統一感をChuang論文では優先したのだと解釈すればよいと思います。
  • Poli et al., Swarm Intell., 2007
    PSOの論文です。
  • 式(2.12)
    Chuang論文の式(8)に対応します。
    \[ \begin{align} w &= (w_{max} - w_{min}) \times \frac{move_{max} - move^j}{move_{max}} + w_{min} \\ \tag{2.12} \end{align} \]
  • Chuang論文(Chuang et al., PLoS One, 2011)
    本教科書中の式(2.12)は、Chuang論文の式(8)に対応します。
  • 添字(subscriptまたはindex)
    リンク先は「添え字」です。文字の右上、左上、右下、左下のいずれかに書かれる文字のことです。上記の例だと様々な化合物の種類があったときに、1番目の化合物、2番目の化合物、…、i番目の化合物といった具体でどの化合物かを指し示す目的で添字をつけます。
  • 式(2.13)
    \(move_{max}\) = 5, \(w_{max}\) = 0.9, \(w_{min}\) = 0.4として、繰り返し1回目(\(move^j\) = 1)の\(w\)の値を算出する具体例です。
    \[ \begin{align} w &= (w_{max} - w_{min}) \times \frac{move_{max} - move^j}{move_{max}} + w_{min} \\ \tag{2.13} &= (0.9 - 0.4) \times \frac{5 - 1}{5} + 0.4 \\ &= 0.8 \\ \end{align} \]
  • 慣れてくると…のところ
    これは、式(2.13)の第1項の\(move_{max} - move^j\)に着目しています。ここでは\(move_{max}\) = 5として考えていますので、繰り返し最終回は\(move^j\) = 5になります。思考回路としては、「\(move_{max}\) =\(move^j\) = 5なので、\(move_{max} - move^j\) = 0になる。ということは、\(move_{max}\)をいくつに設定していようとも、繰り返し最終回においては第1項全体として常に0になるので、\(w\)\(w_{min}\)で設定した値になるな。」と読み解いています。
  • 繰り返し回数を重ねるにつれて、だんだん\(w\)の値を小さくしていこう…のあたり
    念のために\(move_{max}\) = 5, \(w_{max}\) = 0.9, \(w_{min}\) = 0.4として、\(move^j\) = 1~5それぞれに対する全ての\(w\)を算出する具体例を示します。式(2.13)を含みます。
    \(move^j\) = 1の場合
    \[ \begin{align} w = (0.9 - 0.4) \times \frac{5 - 1}{5} + 0.4 = 0.8 \\ \end{align} \] \(move^j\) = 2の場合
    \[ \begin{align} w = (0.9 - 0.4) \times \frac{5 - 2}{5} + 0.4 = 0.7 \\ \end{align} \] \(move^j\) = 3の場合
    \[ \begin{align} w = (0.9 - 0.4) \times \frac{5 - 3}{5} + 0.4 = 0.6 \\ \end{align} \] \(move^j\) = 4の場合
    \[ \begin{align} w = (0.9 - 0.4) \times \frac{5 - 4}{5} + 0.4 = 0.5 \\ \end{align} \] \(move^j\) = 5の場合
    \[ \begin{align} w = (0.9 - 0.4) \times \frac{5 - 5}{5} + 0.4 = 0.4 \\ \end{align} \]
  • 表2.3
    PSO計算の続きです。繰り返し1回目では、表2.2に示す初期化(繰り返し0回目)後の情報が利用されています。繰り返し2回目の\(x_2^{new}\)の(361, 633)*については、計算上の終点は518 + 131 = 649塩基目です。しかし、探索可能範囲(1~633塩基)を超えているため、超えた分がトリムされています(図2.7)。最も適応度が高い粒子は、繰り返し0から2回目の順に、\(P_3\)\(P_2\)、そして\(P_1\)に変わっていいます。この表の作成に用いたRスクリプトファイルと実際の入力ファイルは、それぞれrcode_table2.3.RHZ245980.1.fastaです。実行結果として、表2.3の元情報を含むファイル(table2.3a.txt)と(table2.3b.txt)が得られます。実際には、rcode_table2.3.R表2.2の実行も含んでいますので、表2.2の元情報に相当するファイル(table2.2.txt)も得られます。なお、オリジナルの表2.3には表示されていませんが、表2.3の1番右側に「更新後の\(\hat{\boldsymbol{x}_i}\)」を追加しています。注意点として、式(2.12)どおりにwmax = 0.9およびwmin = 0.4として計算すると、繰り返し2回目はw = 0.7とすべきです。しかし、実際のwmaxwminのさじ加減は自由であることを示すべく、意図的にw = 0.6としています。この点を本文中でちゃんと説明しておらず失礼しました(これは\(move_{max}\) = 5, \(w_{max}\) = 1.0, そして\(w_{min}\) = 0.0で式(2.12)を計算していることに相当します)。
  • PSO
    粒子群最適化(Particle Swarm Optimization)のことです。生物の社会的な行動をシミュレーションすることで開発された集団ベースの確率的最適化アルゴリズムであり、群知能の一種です。ハイエナの群れが最初はバラバラな方角にエサを探していても、1匹が近くに獲物を発見したら他の仲間にその情報を伝え、群れ全体あるいは近くにいる仲間が獲物の方向に向かうようなものです。
  • \(\boldsymbol{v}_i^{new}\)
    式(2.6)の第2項で出てくる速度とよばれる項です。2次元の整数ベクトルであり、この値が更新前後の領域の違いを決定します。\(\boldsymbol{v}_i^{new}\)の値の求め方の基本形が式(2.8)で、完成形が式(2.11)です。
  • 式(2.11)
    Chuang論文の式(6)に対応する、本教科書中の式(2.8)の完成形が、以下の式(2.11)に対応します。
    \[ \begin{align} \boldsymbol{v}_i^{new} = w \times \boldsymbol{v}_i^{old} + c_1 \times r_1 \times (\hat{\boldsymbol{x}_i} - \boldsymbol{x}_i^{old}) + c_2 \times r_2 \times (\hat{\boldsymbol{x}_g} - \boldsymbol{x}_i^{old}) \tag{2.11} \end{align} \]
  • \(\boldsymbol{x}_i^{new}\)
    更新\(P_i\)の領域情報です。式(2.6)で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^1\)の領域情報は\(\boldsymbol{x}_4^{new}\) \(= \boldsymbol{x}_4^1\) \(= (s_4^1, e_4^1)\)のように表現できます。更新が繰り返し1回目に相当するので、右上の添え字が1になっているのだと理解すればよいです。本文中では右上の1の添え字はありませんので、ご注意ください。
  • 式(2.6)
    \[ \boldsymbol{x}_i^{new} = \boldsymbol{x}_i^{old} + \boldsymbol{v}_i^{new} \tag{2.6} \]
  • \(Fitness(P_i)\)
    \(i\)番目の粒子\(P_i\)の適応度関数です。式(2.2)~(2.4)で定義されています。
  • 式(2.3)
    \[ Fitness(P_i) = \frac{Obs_i}{Exp_i} + \frac{C_i + G_i}{CGIL_i} + CGIL_i^{norm} \tag{2.3} \] 第2項\(\frac{C_i + G_i}{CGIL_i}\)において、\(C_i\)は領域\(\boldsymbol{x}_i = (s_i, e_i)\)中に存在する塩基Cの数、\(G_i\)は領域\(\boldsymbol{x}_i = (s_i, e_i)\)中に存在する塩基Gの数です。第3項の\(CGIL_i^{norm}\)は、式(2.1)で定めるように、\(CGIL_i\)の取りうる範囲を0~1に変換して得られる変換後の長さです。
  • \(Fitness(P_i^{best})\)
    \(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子\(P_i\)の適応度のことです。本文中では次のような書き方をしていませんが、繰り返し0回目(初期化後)の粒子を\(P_i^0\)、その適応度を\(Fitness(P_i^0)\)とすると、(この段階ではまだ繰り返し0回目なので)自動的に\(Fitness(P_i^{best}) = Fitness(P_i^0)\)、そして\(P_i^{best} = P_i^0\)となります。繰り返し1回目の粒子を\(P_i^1\)、その適応度を\(Fitness(P_i^1)\)とすると、もし\(Fitness(P_i^1) > Fitness(P_i^{best})\)なら、\(Fitness(P_i^1)\)の値を\(Fitness(P_i^{best})\)に代入し、同時に\(P_i^1\)\(P_i^{best}\)に代入していくようなイメージです。
  • \(\hat{\boldsymbol{x}_i}\)
    \(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子\(P_i^{best}\)の領域のことです。繰り返し0回目(初期化後)の粒子を\(P_i^0\)、その領域を\(\boldsymbol{x}_i^0 = (s_i^0, e_i^0)\)とすると、(この段階ではまだ繰り返し0回目なので)自動的に\(P_i^{best} = P_i^0\)\(Fitness(P_i^{best}) = Fitness(P_i^0)\)、そして\(\hat{\boldsymbol{x}_i} = \boldsymbol{x}_i^0 = (s_i^0, e_i^0)\)となります。繰り返し1回目の結果として、もし\(Fitness(P_i^1) > Fitness(P_i^{best})\)なら、\(\hat{\boldsymbol{x}_i}\)\(\boldsymbol{x}_i^1\)を代入するようなイメージです。
  • \(\hat{\boldsymbol{x}_g}\)
    あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、群全体として最も適応度が高かった領域のことです。\(g^{best}\)の説明と本質的に同じですが、違いは\(\hat{\boldsymbol{x}_g}\)が明確に領域を指すという点のみです。初期化(繰り返し0回目)終了時点では、\(\hat{\boldsymbol{x}_g}\) \(= \hat{\boldsymbol{x}_3}\) \(= (301, 580)\)です。
page070
  • 表2.3
    PSO計算の続きです。繰り返し1回目では、表2.2に示す初期化(繰り返し0回目)後の情報が利用されています。繰り返し2回目の\(x_2^{new}\)の(361, 633)*については、計算上の終点は518 + 131 = 649塩基目です。しかし、探索可能範囲(1~633塩基)を超えているため、超えた分がトリムされています(図2.7)。最も適応度が高い粒子は、繰り返し0から2回目の順に、\(P_3\)\(P_2\)、そして\(P_1\)に変わっていいます。この表の作成に用いたRスクリプトファイルと実際の入力ファイルは、それぞれrcode_table2.3.RHZ245980.1.fastaです。実行結果として、表2.3の元情報を含むファイル(table2.3a.txt)と(table2.3b.txt)が得られます。実際には、rcode_table2.3.R表2.2の実行も含んでいますので、表2.2の元情報に相当するファイル(table2.2.txt)も得られます。なお、オリジナルの表2.3には表示されていませんが、表2.3の1番右側に「更新後の\(\hat{\boldsymbol{x}_i}\)」を追加しています。注意点として、式(2.12)どおりにwmax = 0.9およびwmin = 0.4として計算すると、繰り返し2回目はw = 0.7とすべきです。しかし、実際のwmaxwminのさじ加減は自由であることを示すべく、意図的にw = 0.6としています。この点を本文中でちゃんと説明しておらず失礼しました(これは\(move_{max}\) = 5, \(w_{max}\) = 1.0, そして\(w_{min}\) = 0.0で式(2.12)を計算していることに相当します)。

  • \(\boldsymbol{x}_i^{old}\)
    更新\(P_i\)の領域情報です。式(2.6)で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^0\)の領域情報は\(\boldsymbol{x}_4^{old}\) \(= \boldsymbol{x}_4^0\) \(= (s_4^0, e_4^0)\) = (401, 500)となります。更新が繰り返し0回目に相当するので、右上の添え字が0になっているのだと理解すればよいです。本文中では右上の0の添え字はありませんので、ご注意ください。
  • 加速度定数(acceleration constant)
    式(2.11)の第2項および第3項にかかっている\(c_1\)および\(c_2\)のことです。要はただの係数です。Chuang論文では、\(c_1 = c_2 = 2\)として計算が行われています。これは、たとえば式(2.11)の第2項の\(r_1 \times (\hat{\boldsymbol{x}_i} - \boldsymbol{x}_i^{old})\)をそのまま使うのではなくて、それを\(c_1\)倍だけさせることを意図したものだと解釈すればよいです。
  • 一様乱数(uniform random numbers)
    リンク先は「乱数列」です。ある有限の区間(この場合は0~1)を区切って、その区間内で全ての実数が同じ確率(濃度)で現れるような連続一様分布に従う乱数のことです。具体的には、式(2.11)の第2項および第3項にかかっている\(r_1\)および\(r_2\)のことです。
  • 式(2.14)
    \(r_2\) = 0.864だった場合の\(\boldsymbol{x}_4^{new}\)の計算例です。式(2.6)と式(2.11)に具体的な\(P_2\)の数値を代入しているだけです。\(w\) = 0.8として計算していることからも想像できますが、これは繰り返し1回目の部分\(\boldsymbol{x}_4^{new}\)のを計算しています。
    \[ \begin{align} \boldsymbol{x}_4^{new} &= \boldsymbol{x}_4^{old} + \boldsymbol{v}_4^{new} \\ \tag{2.11} &= \begin{pmatrix} 401 \\ 500 \end{pmatrix} + w \times \boldsymbol{v}_4^{old} + c_1 \times r_1 \times (\hat{\boldsymbol{x}_4} - \boldsymbol{x}_4^{old}) + c_2 \times r_2 \times (\hat{\boldsymbol{x}_g} - \boldsymbol{x}_4^{old}) \\ &= \begin{pmatrix} 401 \\ 500 \end{pmatrix} + 0.8 \times \begin{pmatrix} 1 \\ 1 \end{pmatrix} + 2 \times 0.824 \times (\begin{pmatrix} 401 \\ 500 \end{pmatrix} - \begin{pmatrix} 401 \\ 500 \end{pmatrix}) + 2 \times 0.864 \times (\begin{pmatrix} 301 \\ 580 \end{pmatrix} - \begin{pmatrix} 401 \\ 500 \end{pmatrix}) \\ &= \begin{pmatrix} 401 \\ 500 \end{pmatrix} + \begin{pmatrix} 0.8 \\ 0.8 \end{pmatrix} + 1.728 \times \begin{pmatrix} -100 \\ 80 \end{pmatrix} \\ &= \begin{pmatrix} 229 \\ 639.04 \end{pmatrix} \\ \end{align} \]
  • 小数点以下を四捨五入して得られたこの領域(229,639)…について
    式(2.14)で得られた\(\boldsymbol{x}_4^{new}\) = (229, 639.04)をベースとして考えています。
  • 乱数(\(r_1\)および\(r_2\))
    ここでは一様乱数(uniform random numbers)のことを指し、リンク先は「乱数列」です。ある有限の区間(この場合は0~1)を区切って、その区間内で全ての実数が同じ確率(濃度)で現れるような連続一様分布に従う乱数のことです。
  • 繰り返し1回目
    表2.3の上側の作業に相当します。
  • \(\boldsymbol{x}_i^{new}\)
    更新\(P_i\)の領域情報です。式(2.6)で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^1\)の領域情報は\(\boldsymbol{x}_4^{new}\) \(= \boldsymbol{x}_4^1\) \(= (s_4^1, e_4^1)\)のように表現できます。更新が繰り返し1回目に相当するので、右上の添え字が1になっているのだと理解すればよいです。本文中では右上の1の添え字はありませんので、ご注意ください。
  • 適応度(fitness)
    生物学、とくに集団遺伝学など数理生物学分野で用いられる語であり、ざっくりいえばその生物個体がどれほどその生活する環境に適応しているかを示す値です。
  • \(Fitness(P_i)\)
    \(i\)番目の粒子\(P_i\)の適応度関数です。式(2.2)~(2.4)で定義されています。
  • パーソナルベスト(personal best)
    粒子ごとのベストという意味です。\(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子を\(P_i^{best}\)、その領域を\(\hat{\boldsymbol{x}_i}\)、そしてその適応度を\(Fitness(P_i^{best})\)といいます。これらがパーソナルベストのものたちということになります。
  • \(Fitness(P_i^{best})\)
    \(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子\(P_i\)の適応度のことです。本文中では次のような書き方をしていませんが、繰り返し0回目(初期化後)の粒子を\(P_i^0\)、その適応度を\(Fitness(P_i^0)\)とすると、(この段階ではまだ繰り返し0回目なので)自動的に\(Fitness(P_i^{best}) = Fitness(P_i^0)\)、そして\(P_i^{best} = P_i^0\)となります。繰り返し1回目の粒子を\(P_i^1\)、その適応度を\(Fitness(P_i^1)\)とすると、もし\(Fitness(P_i^1) > Fitness(P_i^{best})\)なら、\(Fitness(P_i^1)\)の値を\(Fitness(P_i^{best})\)に代入し、同時に\(P_i^1\)\(P_i^{best}\)に代入していくようなイメージです。
  • \(\hat{\boldsymbol{x}_i}\)
    \(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子\(P_i^{best}\)の領域のことです。繰り返し0回目(初期化後)の粒子を\(P_i^0\)、その領域を\(\boldsymbol{x}_i^0 = (s_i^0, e_i^0)\)とすると、(この段階ではまだ繰り返し0回目なので)自動的に\(P_i^{best} = P_i^0\)\(Fitness(P_i^{best}) = Fitness(P_i^0)\)、そして\(\hat{\boldsymbol{x}_i} = \boldsymbol{x}_i^0 = (s_i^0, e_i^0)\)となります。繰り返し1回目の結果として、もし\(Fitness(P_i^1) > Fitness(P_i^{best})\)なら、\(\hat{\boldsymbol{x}_i}\)\(\boldsymbol{x}_i^1\)を代入するようなイメージです。
  • グローバルベスト(global best)
    群全体でのベストという意味です。すべての粒子があらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった粒子を\(g^{best}\)、その領域を\(\hat{\boldsymbol{x}_g}\)、そしてその適応度を\(Fitness(g^{best})\)といいます。これらがグローバルベストのものたちということになります。
  • 表2.2

    PSOにおける適応度の計算例です。入力配列は、HZ245980.1です。列数が多くなるので、ここでは元の基礎情報の値がわかるように式(2.4)の第1項(2列目)、第2項(3列目)、第3項(4列目)という形で示します。5列目が式(2.4)左辺に相当し、式(2.4)の右辺に相当する2~4列目の値の和です。この表の作成に用いたRスクリプトファイルと実際の入力ファイルは、それぞれrcode_table2.2.RHZ245980.1.fastaです。実行結果として、表2.2の元情報を含むファイル(table2.2.txt)が得られます。

    \(P_i\) \(\frac{\frac{CpG_i}{CGIL_i}}{\frac{C_i}{CGIL_i} \times \frac{G_i}{CGIL_i}}\) \(\frac{C_i + G_i}{CGIL_i}\) \(CGIL_i^{norm}\) \(Fitness(P_i)\)
    \(P_1\) \(\frac{\frac{9}{203}}{\frac{64}{203} \times \frac{69}{203}}\) \(\frac{64 + 69}{203}\) \(0.0097\) \(1.0786\)
    \(P_2\) \(\frac{\frac{10}{250}}{\frac{73}{250} \times \frac{91}{250}}\) \(\frac{73 + 91}{250}\) \(0.1613\) \(1.1936\)
    \(P_3\) \(\frac{\frac{17}{280}}{\frac{99}{280} \times \frac{79}{280}}\) \(\frac{99 + 79}{280}\) \(0.2581\) \(1.5024\)
    \(P_4\) \(\frac{\frac{6}{100}}{\frac{32}{100} \times \frac{30}{100}}\) \(\frac{32 + 30}{100}\) \(0.0000\) \(1.2450\)

  • 表2.3の繰り返し1回目終了時点では…のあたり
    繰り返し1回目終了時点でのパーソナルベストが、表2.3\(Fitness(P_i^{best})\)列になります。この中で最も適応度が高かったものは\(Fitness(P_2^{best})\)の1.5218ですので、表2.2の繰り返し0回目終了時点でのグローバルベスト(\(g^{best}\))であった\(Fitness(g^{best})\) = \(Fitness(P_3^{best})\) = \(Fitness(P_3)\) = 1.5024から、繰り返し1回目終了時点で\(Fitness(g^{best})\) = \(Fitness(P_2^{best})\) = \(Fitness(P_2)\) = 1.5218に変更されます。同様に、それに対応して、繰り返し1回目終了時点での\(\boldsymbol{x}_2^{new}\) = (245, 518)が、\(\hat{\boldsymbol{x}_2}\)および\(\hat{\boldsymbol{x}_g}\)となります。
page071
  • 繰り返し2回目
    表2.3の下側の作業に相当します。
  • 繰り返し1回目
    表2.3の上側の作業に相当します。
  • \(\boldsymbol{v}_i^{new}\)
    式(2.6)の第2項で出てくる速度とよばれる項です。2次元の整数ベクトルであり、この値が更新前後の領域の違いを決定します。\(\boldsymbol{v}_i^{new}\)の値の求め方の基本形が式(2.8)で、完成形が式(2.11)です。
  • \(\boldsymbol{x}_i^{new}\)
    更新\(P_i\)の領域情報です。式(2.6)で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^1\)の領域情報は\(\boldsymbol{x}_4^{new}\) \(= \boldsymbol{x}_4^1\) \(= (s_4^1, e_4^1)\)のように表現できます。更新が繰り返し1回目に相当するので、右上の添え字が1になっているのだと理解すればよいです。本文中では右上の1の添え字はありませんので、ご注意ください。
  • \(\boldsymbol{v}_i^{old}\)
    式(2.8)の第1項で出てくるものあり、粒子\(P_i\)が更新前に持っていた速度のことです。更新なので右上の添え字が\(old\)なのです。
  • \(\boldsymbol{x}_i^{old}\)
    更新\(P_i\)の領域情報です。式(2.6)で出てきます。たとえば、4番目の粒子\(P_4\)について初期化後(繰り返し0回目)から繰り返し1回目の領域情報の更新を行う場合は、更新\(P_4^0\)の領域情報は\(\boldsymbol{x}_4^{old}\) \(= \boldsymbol{x}_4^0\) \(= (s_4^0, e_4^0)\) = (401, 500)となります。更新が繰り返し0回目に相当するので、右上の添え字が0になっているのだと理解すればよいです。本文中では右上の0の添え字はありませんので、ご注意ください。
  • 式(2.11)
    Chuang論文の式(6)に対応する、本教科書中の式(2.8)の完成形が、以下の式(2.11)に対応します。
    \[ \begin{align} \boldsymbol{v}_i^{new} = w \times \boldsymbol{v}_i^{old} + c_1 \times r_1 \times (\hat{\boldsymbol{x}_i} - \boldsymbol{x}_i^{old}) + c_2 \times r_2 \times (\hat{\boldsymbol{x}_g} - \boldsymbol{x}_i^{old}) \tag{2.11} \end{align} \]
  • パーソナルベスト(personal best)
    粒子ごとのベストという意味です。\(i\)番目の粒子\(P_i\)のみに着目し、あらかじめ指定された繰り返し回数(\(move_{max}\))分だけPSOで飛び回った結果として、最も適応度が高かった\(i\)番目の粒子を\(P_i^{best}\)、その領域を\(\hat{\boldsymbol{x}_i}\)、そしてその適応度を\(Fitness(P_i^{best})\)といいます。これらがパーソナルベストのものたちということになります。
  • 繰り返し1 回目でパーソナルベストが更新されなかった\(P_3\)\(P_4\)が該当する…のあたり
    式(2.11)の第2項において、\(\hat{\boldsymbol{x}_i}\)\(\boldsymbol{x}_i^{old}\)がイコールでなければ0でない値をもちうる、と考えればよいです。その観点で表2.3の当該の2列を眺めると、確かに\(P_3\)\(P_4\)の(\(\hat{\boldsymbol{x}_i}\) - \(\boldsymbol{x}_i^{old}\))が0でない値をもちうることがわかります。具体的には、(\(\hat{\boldsymbol{x}_3}\) - \(\boldsymbol{x}_3^{old}\)) = (301, 580) - (302, 581) = (-1, -1)です。また、(\(\hat{\boldsymbol{x}_4}\) - \(\boldsymbol{x}_4^{old}\)) = (401, 500) - (391, 510) = (10, -10)ですので、係数としてかかっている\(c_1\)\(r_1\)が0でなければ、式(2.11)の第2項が0でない値をもつことになります。
  • 60%の慣性重み(繰り返し2 回目なのでw = 0.6)…について
    式(2.12)どおりにwmax = 0.9およびwmin = 0.4として計算すると、繰り返し2回目はw = 0.7とすべきです。しかし、実際のwmaxwminのさじ加減は自由であることを示すべく、意図的にw = 0.6としています。この点を本文中でちゃんと説明しておらず失礼しました(これは\(move_{max}\) = 5, \(w_{max}\) = 1.0, そして\(w_{min}\) = 0.0で式(2.12)を計算していることに相当します)。
  • 繰り返し2回目で\(Fitness(P_i)\)を算出する具体例

    表2.3\(Fitness(P_i)\)列で見えている値を、式(2.4)で算出する具体例を粒子ごとに示します。式(2.4)の第1~3項が以下の第2~4列に相当します。

    \(P_i\) \(\frac{\frac{CpG_i}{CGIL_i}}{\frac{C_i}{CGIL_i} \times \frac{G_i}{CGIL_i}}\) \(\frac{C_i + G_i}{CGIL_i}\) \(CGIL_i^{norm}\) \(Fitness(P_i)\)
    \(P_1\) \(\frac{\frac{18}{283}}{\frac{103}{283} \times \frac{81}{283}}\) \(\frac{103 + 81}{283}\) \(0.2677\) \(1.5285\)
    \(P_2\) \(\frac{\frac{17}{273}}{\frac{100}{273} \times \frac{79}{273}}\) \(\frac{100 + 79}{273}\) \(0.2355\) \(1.4786\)
    \(P_3\) \(\frac{\frac{16}{269}}{\frac{85}{269} \times \frac{82}{269}}\) \(\frac{85 + 82}{269}\) \(0.2226\) \(1.4609\)
    \(P_4\) \(\frac{\frac{13}{204}}{\frac{70}{204} \times \frac{57}{204}}\) \(\frac{70 + 57}{204}\) \(0.0129\) \(1.3001\)
    たとえば、\(P_1\)の領域長である\(CGIL_1\)は、\(\boldsymbol{x}_1^{new}\) = (313, 595)より、\(CGIL_1\) = 595 - 313 + 1 = 283 bpだと算出します。また、\(CGIL_i^{norm}\)は式(2.1)を用いて算出します。たとえば、\(CGIL_1^{norm}\) = (\(CGIL_1\) - \(CGIL_{min}\))/(\(CGIL_{max}\) - \(CGIL_{min}\)) = (283 - 200)/(510 - 200) = 0.2677のような感じです。

  • 図2.7
    PSO計算における粒子\(P_2\)の領域の変遷です。
  • \(P_2\)
    2番目の粒子のことです。表2.2の最右列の\(Fitness(P_2)\) = 1.1936からもわかりますが、初期化後の状態で3番目に\(Fitness(P)\)の値が高い粒子です。1番高い値でもないため、大勢に影響を与えないのでなんとなく例示しています。初期化後(繰り返し0回目)の領域\(\boldsymbol{x}_i^{old}\) \(= \boldsymbol{x}_2^0\) = (51, 300)とも表現できます。
  • \(\boldsymbol{x}_2\)
    2番目の粒子\(P_2\)の領域の座標情報のことです。\(\boldsymbol{x}_2\) = \((s_2, e_2)\)のように表現することができ、初期化後(繰り返し0回目)は\(\boldsymbol{x}_2^0\) = (51, 300)、繰り返し1回目は\(\boldsymbol{x}_2^1\) = (245, 518)、繰り返し2回目は\(\boldsymbol{x}_2^2\) = (361, 633)として、適応度\(Fitness(P_2)\)が計算されます。
  • 表2.3
    PSO計算の続きです。繰り返し1回目では、表2.2に示す初期化(繰り返し0回目)後の情報が利用されています。繰り返し2回目の\(x_2^{new}\)の(361, 633)*については、計算上の終点は518 + 131 = 649塩基目です。しかし、探索可能範囲(1~633塩基)を超えているため、超えた分がトリムされています(図2.7)。最も適応度が高い粒子は、繰り返し0から2回目の順に、\(P_3\)\(P_2\)、そして\(P_1\)に変わっていいます。この表の作成に用いたRスクリプトファイルと実際の入力ファイルは、それぞれrcode_table2.3.RHZ245980.1.fastaです。実行結果として、表2.3の元情報を含むファイル(table2.3a.txt)と(table2.3b.txt)が得られます。実際には、rcode_table2.3.R表2.2の実行も含んでいますので、表2.2の元情報に相当するファイル(table2.2.txt)も得られます。なお、オリジナルの表2.3には表示されていませんが、表2.3の1番右側に「更新後の\(\hat{\boldsymbol{x}_i}\)」を追加しています。注意点として、式(2.12)どおりにwmax = 0.9およびwmin = 0.4として計算すると、繰り返し2回目はw = 0.7とすべきです。しかし、実際のwmaxwminのさじ加減は自由であることを示すべく、意図的にw = 0.6としています。この点を本文中でちゃんと説明しておらず失礼しました(これは\(move_{max}\) = 5, \(w_{max}\) = 1.0, そして\(w_{min}\) = 0.0で式(2.12)を計算していることに相当します)。
  • \(\boldsymbol{x}_2^{new}\)
    更新\(P_2\)の領域情報です。式(2.6)で出てきます。繰り返し1回目は\(\boldsymbol{x}_2^{new}\) = (245, 518)、繰り返し2回目は\(\boldsymbol{x}_2^{new}\) = (361, 633)です。繰り返し1回目の\(\boldsymbol{x}_2^{new}\) = (245, 518)で算出した\(Fitness(P_2)\)の値(= 1.5218)が\(\boldsymbol{x}_2^{old}\) = (51, 300)で算出した値(= 1.1936)よりも高いので、この粒子(\(P_2)\)のパーソナルベストは適応度が\(Fitness(P_2^{best})\) = 1.5218、そして\(\hat{\boldsymbol{x}_2}\) = \(\boldsymbol{x}_2^{new}\) = (245, 518)となります。また、繰り返し1回目終了時点において、\(Fitness(P_2^{best})\) = 1.5218の値は他の粒子と比べても最大値となっているので、これらがグローバルベストを兼ねます。つまり、\(\hat{\boldsymbol{x}_g}\) = \(\hat{\boldsymbol{x}_2}\) = \(\boldsymbol{x}_2^{new}\) = (245, 518)です。
  • 繰り返し2回目で行う速度の更新時に式(2.11)中の第2項および第3項が乱数の値によらず0になる…について
    これは、「繰り返し1回目の\(\boldsymbol{x}_2^{new}\) = (245, 518)」が「繰り返し2回目の\(\boldsymbol{x}_2^{old}\)」に、そして「繰り返し2回目の\(\hat{\boldsymbol{x}_g}\) = \(\hat{\boldsymbol{x}_2}\) = (245, 518)」だからです。つまり、式(2.11)中の第2項の括弧内は、\(\hat{\boldsymbol{x}_2}\) - \(\boldsymbol{x}_2^{old}\) = (245, 518) - (245, 518) = (0, 0)です。同様に、式(2.11)中の第3項の括弧内は、\(\hat{\boldsymbol{x}_g}\) - \(\boldsymbol{x}_2^{old}\) = (245, 518) - (245, 518) = (0, 0)です。それゆえ、係数として掛かっている\(r_1\)および\(r_2\)がどんな値であろうとも(\(c_1\) = \(c_2\) = 2なので)「第2項および第3項が乱数の値によらず0になる」のです。
  • 式(2.11)
    Chuang論文の式(6)に対応する、本教科書中の式(2.8)の完成形が、以下の式(2.11)に対応します。
    \[ \begin{align} \boldsymbol{v}_i^{new} = w \times \boldsymbol{v}_i^{old} + c_1 \times r_1 \times (\hat{\boldsymbol{x}_i} - \boldsymbol{x}_i^{old}) + c_2 \times r_2 \times (\hat{\boldsymbol{x}_g} - \boldsymbol{x}_i^{old}) \tag{2.11} \end{align} \]
  • \(\boldsymbol{v}_2^{old}\)
    式(2.8)の第1項で出てくるものあり、粒子\(P_2\)が更新前に持っていた速度のことです。更新なので右上の添え字が\(old\)なのです。「繰り返し1回目の\(\boldsymbol{v}_2^{new}\) = (194, 218)」が「繰り返し2回目の\(\boldsymbol{v}_2^{old}\)」に相当します。
  • 第1項の\(w\)
    式(2.11)の第1項の\(\boldsymbol{v}_i^{old}\)にかかっている、慣性重み(inertia weight)とよばれる係数のことです。元々もっていた速度(つまり\(\boldsymbol{v}_i^{old}\))を保とうとする性質(つまり慣性)を調整するための係数です。
  • \(\boldsymbol{v}_2^{new}\)
    式(2.6)の第2項で出てくる速度とよばれる項です。2次元の整数ベクトルであり、この値が更新前後の領域の違いを決定します。この値の求め方の基本形が式(2.8)で、完成形が式(2.11)です。この場合は、繰り返し2回目における粒子\(P_2\)を、式(2.6)に基づいて更新の領域\(\boldsymbol{x}_2^{old}\)からどれだけ移動させるかを定める情報に相当します。前述のとおり、式(2.11)中の第2項と第3項は0ですので、\(\boldsymbol{v}_2^{new}\) = \(w \times \boldsymbol{v}_2^{old}\)です。そしてここでは\(w\) = 0.6、\(\boldsymbol{v}_2^{old}\) = (194, 218)ですので、以下のように計算し、小数点以下を四捨五入した結果が領域(116, 131)です。
    \[ \begin{align} \boldsymbol{v}_2^{new} &= 0.6 \times \begin{pmatrix} 194 \\ 218 \end{pmatrix} = \begin{pmatrix} 116.4 \\ 130.8 \end{pmatrix}\\ \end{align} \]
  • PSO
    粒子群最適化(Particle Swarm Optimization)のことです。生物の社会的な行動をシミュレーションすることで開発された集団ベースの確率的最適化アルゴリズムであり、群知能の一種です。ハイエナの群れが最初はバラバラな方角にエサを探していても、1匹が近くに獲物を発見したら他の仲間にその情報を伝え、群れ全体あるいは近くにいる仲間が獲物の方向に向かうようなものです。
  • 式(2.8)
    式(2.11)の基本形です。 \[ \boldsymbol{v}_i^{new} = \overbrace{ \boldsymbol{v}_i^{old} }^{第1項} + \overbrace{ (\hat{\boldsymbol{x}_i} - \boldsymbol{x}_i^{old}) }^{第2項} + \overbrace{ (\hat{\boldsymbol{x}_g} - \boldsymbol{x}_i^{old}) }^{第3項} \tag{2.8} \]
page072

2.6.3 強化学習

  • PSO
    粒子群最適化(Particle Swarm Optimization)のことです。生物の社会的な行動をシミュレーションすることで開発された集団ベースの確率的最適化アルゴリズムであり、群知能の一種です。ハイエナの群れが最初はバラバラな方角にエサを探していても、1匹が近くに獲物を発見したら他の仲間にその情報を伝え、群れ全体あるいは近くにいる仲間が獲物の方向に向かうようなものです。
  • Chuang論文(Chuang et al., PLoS One, 2011)
    PSOの改良版」と「強化学習(RL)」を組み合わせたCGI同定プログラム(CPSORL)の論文です。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • CPSORL:Chuang et al., PLoS One, 2011
    PSOの改良版」と「強化学習(RL)」を組み合わせたCGI同定プログラムの論文です。
    • Figure S1(pone.0021036.s001.docという名前のwordファイル)
    • Table S1(pone.0021036.s011.docという名前のwordファイル)
  • 強化学習(reinforcement learning; RL)
    ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種です。エージェントは行動を選択することで環境から報酬を得ます。機械自身が試行錯誤しながら学習していくものです。サッカーのルールを知らないヒト型ロボットを、サッカーのペナルティキックで点を取らせる問題で考えると、「ゴールとよばれる四角い領域に向けて、そこを守るキーパーとよばれるヒトから遠く離れたところへ1回だけ強く蹴る行為が最も報酬が高い」と試行錯誤しながら学習していくようなイメージで捉えるとよいです。もう少し身近な例だと、子育てとか犬猫のしつけとかでしょうか。
  • 機械学習(Machine Learning)
    経験からの学習により自動で改善するコンピューターアルゴリズムもしくはその研究領域で、人工知能の一種であるとみなされています。「訓練データ」もしくは「学習データ」とよばれるデータを使って学習し、学習結果を使って何らかのタスクをこなします。強化学習は機械学習の一種です。深層学習も機械学習の一種です。
  • 人工知能(Artificial Intelligence; AI)
    「計算」という概念と「コンピュータ」という道具を用いて「知能」を研究する計算機科学の一分野を指す語です。機械学習は人工知能の一種です。

  • 機械学習(Machine Learning)
    経験からの学習により自動で改善するコンピューターアルゴリズムもしくはその研究領域で、人工知能の一種であるとみなされています。「訓練データ」もしくは「学習データ」とよばれるデータを使って学習し、学習結果を使って何らかのタスクをこなします。強化学習は機械学習の一種です。深層学習も機械学習の一種です。
    • \(i\) 教師あり学習(supervised learning)
    • \(ii\) 教師なし学習(unsupervised learning)
    • \(iii\) 強化学習(reinforcement learning)
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • 深層学習(deep learninig)
    リンク先は「ディープラーニング」です。対象の全体像から細部までの各々の粒度の概念を階層構造として関連させて学習する手法のことです。機械学習(Machine Learning)の1つです。さらに具体的には、深層学習は教師あり学習の一種です。
  • TSS
    リンク先は「転写 (生物学)」です。転写開始点(transcription start site)の略です。RNAの転写が開始される部位のことであり、転写されたRNAの1番目の塩基の位置に相当します。
  • 特徴抽出または特徴選択(feature selection)
    リンク先は「特徴選択」です。機械学習と統計学の用語であり、頑健な学習モデルの構築のため、特徴集合のうち意味のある部分集合だけを選択する手法のことを指します。たとえば、癌と正常を比較した遺伝子発現データで、どの遺伝子(サブセット)が癌と正常の分類により寄与しているか?といったことを調べることなどを指します。

  • 教師なし学習
    機械学習(Machine Learning)の手法の1つです。「出力すべきもの」があらかじめ決まっていないという点で教師あり学習とは大きく異なります。データの背後に存在する本質的な構造を抽出するために用いられます。
  • 探索的データ解析(Exploratory Data Analysis; EDA)
    データセットを解析してその主な特徴を要約する、統計学における手法です。
  • 次元削減(dimensionality reduction)
    高次元空間から低次元空間へデータを変換しながら、低次元表現が元データの何らかの意味ある特性を保持することです。多次元の情報をなるべく情報量を落とさずに低次元の情報に落とし込む作業のことを指します。次元圧縮ともよばれます。
  • クラスタリング(clustering)
    リンク先は「データ・クラスタリング」です。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法、またそのアルゴリズムのことです。データの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法に大別できます。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
  • CpG
    ゲノム中でCGという2連続塩基になっている箇所のことです。
  • Hackenberg et al., BMC Bioinformatics, 2006
    CpGclusterの論文です。
  • 強化学習(reinforcement learning; RL)
    ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種です。エージェントは行動を選択することで環境から報酬を得ます。機械自身が試行錯誤しながら学習していくものです。サッカーのルールを知らないヒト型ロボットを、サッカーのペナルティキックで点を取らせる問題で考えると、「ゴールとよばれる四角い領域に向けて、そこを守るキーパーとよばれるヒトから遠く離れたところへ1回だけ強く蹴る行為が最も報酬が高い」と試行錯誤しながら学習していくようなイメージで捉えるとよいです。もう少し身近な例だと、子育てとか犬猫のしつけとかでしょうか。
  • ペナルティーキック(penalty kick)
    フリーキックの一種です。ペナルティーエリア内で犯された特定の反則行為に対し、反則を行った選手の属するチーム側に与えられる罰則です。キッカーとゴールキーパーが一対一の状態でゴールまで12ヤード(約10.97メートル)の地点にボールを置いて行われます。

  • CPSORL:Chuang et al., PLoS One, 2011
    PSOの改良版」と「強化学習(RL)」を組み合わせたCGI同定プログラムの論文です。
  • 強化学習(reinforcement learning; RL)
    ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種です。エージェントは行動を選択することで環境から報酬を得ます。機械自身が試行錯誤しながら学習していくものです。サッカーのルールを知らないヒト型ロボットを、サッカーのペナルティキックで点を取らせる問題で考えると、「ゴールとよばれる四角い領域に向けて、そこを守るキーパーとよばれるヒトから遠く離れたところへ1回だけ強く蹴る行為が最も報酬が高い」と試行錯誤しながら学習していくようなイメージで捉えるとよいです。もう少し身近な例だと、子育てとか犬猫のしつけとかでしょうか。
  • PSO
    粒子群最適化(Particle Swarm Optimization)のことです。生物の社会的な行動をシミュレーションすることで開発された集団ベースの確率的最適化アルゴリズムであり、群知能の一種です。ハイエナの群れが最初はバラバラな方角にエサを探していても、1匹が近くに獲物を発見したら他の仲間にその情報を伝え、群れ全体あるいは近くにいる仲間が獲物の方向に向かうようなものです。
  • CGI
    CpGアイランド(CpG island)のことです。シトシン(C)の次にグアニン(G)が現れるタイプの2連続塩基(ジヌクレオチド)であるCpGサイトの出現頻度が、ゲノム中で相対的に高い領域のことです。CpGの「p」の文字は、シトシン(C)とグアニン(G)の間のホスホジエステル結合を表しています。哺乳類の遺伝子のうち40%近くが、プロモータ内部もしくはその近傍にCpGアイランド(CGI)を含んでいるとされます。
page073
  • 適応度(fitness)
    生物学、とくに集団遺伝学など数理生物学分野で用いられる語であり、ざっくりいえばその生物個体がどれほどその生活する環境に適応しているかを示す値です。
  • 表2.3
    PSO計算の続きです。繰り返し1回目では、表2.2に示す初期化(繰り返し0回目)後の情報が利用されています。繰り返し2回目の\(x_2^{new}\)の(361, 633)*については、計算上の終点は518 + 131 = 649塩基目です。しかし、探索可能範囲(1~633塩基)を超えているため、超えた分がトリムされています(図2.7)。最も適応度が高い粒子は、繰り返し0から2回目の順に、\(P_3\)\(P_2\)、そして\(P_1\)に変わっていいます。この表の作成に用いたRスクリプトファイルと実際の入力ファイルは、それぞれrcode_table2.3.RHZ245980.1.fastaです。実行結果として、表2.3の元情報を含むファイル(table2.3a.txt)と(table2.3b.txt)が得られます。実際には、rcode_table2.3.R表2.2の実行も含んでいますので、表2.2の元情報に相当するファイル(table2.2.txt)も得られます。なお、オリジナルの表2.3には表示されていませんが、表2.3の1番右側に「更新後の\(\hat{\boldsymbol{x}_i}\)」を追加しています。注意点として、式(2.12)どおりにwmax = 0.9およびwmin = 0.4として計算すると、繰り返し2回目はw = 0.7とすべきです。しかし、実際のwmaxwminのさじ加減は自由であることを示すべく、意図的にw = 0.6としています。この点を本文中でちゃんと説明しておらず失礼しました(これは\(move_{max}\) = 5, \(w_{max}\) = 1.0, そして\(w_{min}\) = 0.0で式(2.12)を計算していることに相当します)。
  • CGIの3条件
    Gardiner-Garden and Frommer, J Mol Biol., 1987によって定義された、ゲノム中のCpGアイランド(CGI)の条件です。
    • ①CGの観測値/期待値(= Obs/Exp = O/E)が0.6以上
    • ②GC含量が50%以上
    • ③その領域の長さが200 bp以上
  • 表2.4(本文中にはありません)
    表2.3のPSO結果として得られた領域(313, 595)を出発点として、強化学習によってCGI3条件を満たす領域を探索するRスクリプトファイル(rcode_table2.4.R)とその結果ファイル(table2.4.txt)です。 左上のほうが出発点の領域(313, 595)です。出発点から右側ほど領域の右側の探索に、そして下側ほど領域の左側の探索に相当します。 出発点の313と595が交差するセルが3になっていますが、これはCGI3条件を満たしていることを意味します。 最初は、出発点から右下に向かって探索します。(293, 615)のところで2になっていますが、ここではCGI3条件のうち2つしか満たしていないことを意味します。 これが本文中の(313-20, 595+20)に相当します。