page171

第6章 生物配列統計学

6.1 種間の多様性と分子進化

  • 図6.1
    種間の多様性と種内の多様性です。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 種分化(speciation)
    新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
  • 絶滅(extinction)
    1つの生物種のすべての個体が死ぬことによって、その種が絶えることです。種全体に対してではなく個体群に対して用いることもあります。ただし野生のものも含めてすべての個体の死亡を確認するのは難しく、絶滅したとされた種の個体が後になって生存を確認されることもあります。
  • 地球(The Earth)
    人類を含む多種多様な生命体が生存する天体で、太陽系の惑星の1つです。太陽から3番目に近く、表面に水、空気中に酸素を大量に蓄え、多様な生物が生存することを特徴とする惑星です。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 祖先(ancestor)
    リンク先は「先祖」です。現代人の、既に亡くなった数世代以前の血縁者全般のこと。狭義では、直系の尊属を指す場合が多いです。対義語は子孫、後裔(こうえい)、または末裔(まつえい)です。 生物学的な側面では、進化分類学において、ある生物種の進化前の段階をしばしばこのようによびます。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
page172
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 系図(family tree)
    ある一族の代々の系統を書き表した図表のことです。系譜(けいふ)ともいいますが、系譜と言った場合は血縁関係のみならず、学芸の師匠から弟子への師承関係を表した図表をいう場合も多いです。なお、特定の家の家督相続の継承の系統(家系)を記した系図は家系図(かけいず)、家譜(かふ)ともいいます。

  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 世代(generation)
    「親、祖父母、子供、孫と数える助数詞」や「ほぼ同時期に誕生した集団」という理解でよいです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 複製(replication)
    リンク先は「DNA複製」です。細胞分裂における核分裂の前に、DNAが元の数の2倍となる過程のことです。生命科学分野ではDNA複製のことを複製を略すことが多いです。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 発現(expression)
    リンク先は「遺伝子発現」です。遺伝情報に基づいてRNAやタンパク質が合成されることを指します。
  • 選択圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を増していくことを選択(selection)といい、このような変化が起こる要因のこと指します。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 適応(adaptation)
    進化という観点では「生物種がある環境のもとで生活するのに有利な形質を持っていること」を指しますが、この場合は「何らかの状況にふさわしいことや合致していること」を指します。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • 近縁種(closely related species) 生物で分類上非常に近い関係にある種のことです。
  • チンパンジー(Pan troglodytes)
    哺乳綱霊長目ヒト科チンパンジー属に分類される類人猿のことです。
  • 共通祖先(common descent)
    この場合は、ヒトという生物種内の大元という理解でよいと思います。
  • 遺伝的多型(genetic polymorphism)
    リンク先は「多型」です。遺伝的多型とは、同じ生物種の集団のうちに遺伝子型(ある生物の個体が持つ遺伝物質の構成)の異なる個体が存在すること、またはその異なる遺伝子・DNA配列のことを指します。
  • 遺伝的多様性(genetic diversity)
    (同一生物種内の)遺伝子型(ある生物の個体が持つ遺伝物質の構成)の多様性のことです。

6.1.1 分子進化の中立説と分子系統樹

  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 適応(adaptation)
    進化という観点では「生物種がある環境のもとで生活するのに有利な形質を持っていること」を指しますが、この場合は「何らかの状況にふさわしいことや合致していること」を指します。
  • 推定(estimation)
    現状知り得た情報や傾向を元に、知り得ない事象を決めることです。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • 中立説(neutral theory)
    リンク先は「中立進化説」です。分子レベルでの遺伝子の変化は大部分が自然淘汰に対して有利でも不利でもなく中立的であり、突然変異と遺伝的浮動が進化の主因であるとする説のことです。

  • 環境(environment) 広義では、人や生物を取り巻く家庭・社会・自然などの外的な事の総体です。狭義では、その中で人や生物に何らかの影響を与えるものだけを指す場合もあります。特に限定しない場合は、人間を中心とする生物・生態系を取り巻く環境のことである場合が多いです。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • 淘汰圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を減少させていくことを淘汰(selection)といい、このような変化が起こる要因のこと指します。 選択圧と英語が同じですが、選択と淘汰は表裏一体であることを考慮すれば妥当…かもしれません。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 適応進化(adaptiogenesisまたはadaptive evolution)
    リンク先は「適応」です。生物種が自分の形質を自分がいる環境に合わせて世代を経るごとに変化させていくこと、という理解でよいです。
  • Haldane JBS., J Genet., 1957
  • 適応(adaptation)
    進化という観点では「生物種がある環境のもとで生活するのに有利な形質を持っていること」を指しますが、この場合は「何らかの状況にふさわしいことや合致していること」を指します。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • Zuckerkandl and Pauling, Molecular disease, evolution, and genic heterogeneity, 189–225, 1962
    分子時計の提唱論文です。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ヘモグロビン(hemoglobin; Hb)
    ヒトを含むすべての脊椎動物や一部のその他の動物の血液中に見られる赤血球の中に存在するタンパク質です。1960年頃にはアミノ酸配列が決定されています。
  • 化石(fossil)
    地質時代に生息していた生物が死骸となって永く残っていたもの、もしくはその活動の痕跡のことです。
  • 種分化(speciation)
    新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
  • 分子時計(molecular clock)
    生物種間の分子的な違いを比較し、進化過程で分岐した年代を推定したもの。「生物種間の類縁度が高いほどアミノ酸配列が異なる個数は少ない」という事実から、配列の類似性を頼りにして分岐年代が推定できるのでは?!というアイデアのことを指します。

  • Kimura M., Nature, 1968
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • ヘモグロビン(hemoglobin; Hb)
    ヒトを含むすべての脊椎動物や一部のその他の動物の血液中に見られる赤血球の中に存在するタンパク質です。1960年頃にはアミノ酸配列が決定されています。
  • シトクロームc(cytochrome c)
    ミトコンドリアの内膜に弱く結合しているヘムタンパク質の一種。上記の中立説論文に使われるくらい昔(1960年頃)にアミノ酸配列が決定されています。
  • 三炭糖(triose)
    3個の炭素原子を含む単糖である。アルドトリオース(グリセルアルデヒド)とケトトリオース(ジヒドロキシアセトン)のみが存在する。トリオースは細胞呼吸において重要な生体物質であり、乳酸とピルビン酸はアルドトリオースとケトトリオースから誘導されます。
  • 脱水素酵素(dehydrogenase)
    NAD+/NADP+やFADやFMNのようなフラビン補酵素により基質から1つあるいはそれ以上の数の水素(H)を奪い取って酸化する酵素のことです。
  • 三炭糖リン酸脱水素酵素(glyceraldehyde-3-phosphate dehydrogenase(NADP+))
    解糖系/糖新生を構成する酵素です。この酵素の基質はD-グリセルアルデヒド-3-リン酸とNADP+と水、生成物は3-ホスホ-D-グリセリン酸とNADPHとH+です。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 塩基置換(nucleotide substitution)
    リンク先は「点突然変異」です。ある塩基が別の塩基に置き換わるイベントのことです。
  • Haldane JBS., J Genet., 1957
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 変異(mutation)
    リンク先は「突然変異」です。DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 適応度(fitness)
    生物学、とくに集団遺伝学など数理生物学分野で用いられる語であり、ざっくりいえばその生物個体がどれほどその生活する環境に適応しているかを示す値です。
  • 中立説(neutral theory)
    リンク先は「中立進化説」です。分子レベルでの遺伝子の変化は大部分が自然淘汰に対して有利でも不利でもなく中立的であり、突然変異と遺伝的浮動が進化の主因であるとする説のことです。
  • 淘汰圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を減少させていくことを淘汰(selection)といい、このような変化が起こる要因のこと指します。 選択圧と英語が同じですが、選択と淘汰は表裏一体であることを考慮すれば妥当…かもしれません。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 収斂進化(convergent evolution)
    似たような場所で似たような生活をしている異なる種どうしが、長い年月をかけて似た性質や特徴(つまり形質)を独立に獲得していく現象のことです。 この「似たような場所で似たような生活をしている」というのは、ある生物種が生活を営む上で利用する環境的な要因とも捉えることができますが、これを生態的地位あるいはニッチ(niche)といいます。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。

  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 最小進化の規準(minimal evolution criteria)
    「進化の履歴に関していくつかのシナリオが考えられるとき、進化的イベントの数が少ないものを選択する」という考え方です。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
page173
  • 最尤法(method of maximum likelihood)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法です。比較したい複数の生物種由来のアミノ酸配列または塩基配列を並べて(アラインメントをとる、みたいな表現をします)、生物種間で違いのあるサイト(何番目の塩基か、みたいな理解でよい)に着目して系統樹を作成したいのですが、この際に「ある分子(例:アミノ酸残基)が別の分子に置換する際に、分子の種類によって置換しやすさが異なる」のです。似た生物種どうしだと違いのあるサイト数自体が少なく、遠く離れた生物種どうしであるほど異なるサイト数が増える傾向となります。置換分子の組み合わせによっても置換しやすさに違いがあるため、樹形図の可能性は無数にあります。最尤法(最尤推定法の略)は、多くの可能性の中から一番尤もらしい選択肢を得るための有力な方法です。EMアルゴリズム(Expectation-Maximization algorithm)は、確率モデルのパラメータを最尤推定する手法の1つであり、観測不可能な潜在変数に確率モデルが依存する場合に用いられます。
  • ベイズ推定(Bayesian inference)
    観測事象(観測された事実)から、推定したい事柄(それの起因である原因事象)を、ベイズ確率の考え方に基づいて推論することです。この場合の観測事象は置換分子のセットに、そして推定したい事柄が樹形図に相当します。
  • 確率モデル(probabilistic model)
    リンク先は「確率分布」です。確率変数に対して、各々の値をとる確率全体を表したものです。
  • 置換(substitution)
    リンク先は「点突然変異」です。ある塩基が別の塩基に置き換わるイベントのことです。

  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • マルコフ過程(Markov process)
    未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質(これをマルコフ性といいます)を持つ確率過程のことです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • コドン(codon)
    塩基配列がアミノ酸配列に翻訳されるときの、各アミノ酸に対応する3つの塩基配列のことです。
  • 速度行列(rate matrix)
    リンク先は「Transition rate matrix」です。推移速度行列とか推移率行列とよばれるものに相当します。本文中でも後述されていますが、入力が塩基配列のときはA, C, G, Tの4種類あるので4×4の行列、アミノ酸配列のときは20種類あるので20×20の行列になります。行列中の各要素の数値が、対応する行と列の分子間での置換しやすさを表す数値になります。
  • 自由度(degree of freedom)
    変数のうち独立に選べるものの数のことです。
  • 不均質性(heterogeneity)
    この場合は、たとえば転写調節領域やタンパク質コード領域内のサイトは置換が起こりにくいが、その他の領域は起こりやすいといった置換頻度がゲノム上の部位によって異なる性質という理解でよいです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 尤度(likelihood)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • 推移確率(transition probability)
    ある状態から別の状態に推移する確率のことです。たとえばサイコロの目が6が出たあとに4が出る確率のようなイメージでよいです。表2.1で示したような、ヒトゲノム配列において、CのあとにGとなる推移確率は、GC含量(0.41)から期待される値よりも低いというような理解でもよいと思います。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。
  • 潜在変数(latent variable)
    直接は観察されないものの、観測された他の変数から推定される変数のことです。
  • 対数尤度(log-likelihood)
    リンク先は「尤度関数」です。尤度関数の自然対数をとったもののことです。
  • 式(6.1)
  • Felsenstein J., Inferring Phylogenies, 2004
  • Yang Z., Molecular Evolution: A Statistical Approach, 2014
  • 地質(geology)
    地下の岩石・地層の性質・状態・種類などを指す言葉です。
  • 化石(fossil)
    地質時代に生息していた生物が死骸となって永く残っていたもの、もしくはその活動の痕跡のことです。
  • 分子時計(molecular clock)
    生物種間の分子的な違いを比較し、進化過程で分岐した年代を推定したもの。「生物種間の類縁度が高いほどアミノ酸配列が異なる個数は少ない」という事実から、配列の類似性を頼りにして分岐年代が推定できるのでは?!というアイデアのことを指します。
  • 分岐年代(bifurcation age)
    進化の過程で、共通祖先からたとえば生物種AとBに分かれた年代のことを指します。国立遺伝学研究所のヒトがサルと分かれた日などが参考になると思います。

6.1.2 分子進化速度

  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 2倍体(diploid)
    リンク先は「倍数性」です。生物がゲノムを何セットもつかという概念を倍数性といい、2セットもつ生物を2倍体またはディプロイドといいます。ゲノム1セットあたりの染色体数(基本数)はxで表され、ヒトの場合はx = 23となります。ヒトを含むは2倍体は、2xとして表すことができます。
  • Ohta T., Nature, 1973
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
page174
  • 式(6.2)
  • Kimura M., Nature, 1977
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。

  • 図6.2a
    哺乳類の分子系統樹です。(a)は哺乳類のミトコンドリアDNAの分子系統樹です。
  • 哺乳類(mammal)
    哺乳綱(ほにゅうこう)に属する動物の総称です。
  • ミトコンドリア(mitochondria)
    ほとんどすべての真核生物の細胞の中に存在する、細胞小器官の1つです。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • 未熟児(premature infant)
    母子保健法では、「身体の発育が未熟のまま出生した乳児であつて、正常児が出生時に有する諸機能を得るに至るまでのもの」と定義されているようです。なお、産まれたばかりの有袋類の新生仔はjoey (ジョーイ)と呼ぶようです。
  • 育児嚢(marsupium)
    雌の有袋類に見られる未熟な乳仔を育てるための袋のことです。
  • 有袋類(marsupialia)
    哺乳綱獣亜綱後獣下綱の1グループに属する動物の総称です。階級は有袋上目とすることが多いようです。「界・門・綱・目・科・属・種」という分類階級の中の「綱」の中にも亜綱(あこう)や下綱(かこう)といったサブ階級があるようで、哺乳綱の中の獣亜綱の中の後獣下綱と読み解くようです。
  • オポッサム(opossum)
    リンク先は「オポッサム形目」です。未熟児で生まれた子供を育児嚢で育てる有袋類の動物です。
  • 外群(outgroup)
    系統関係を知りたい生物(これを内群といいます)の系統的位置関係を決定するに参照する群のことです。内群の他のグループに近縁であり、他のどの内群のグループよりも互いに遠縁であると考えられるものを選択するのが基本のようです。
  • 子宮(uterus)
    哺乳類における雌(単孔類を除く)の生殖器の1つです。
  • 胎児(fetus)
    生物学上は胎生の動物の母体の中で胚が器官原基の分化が完了してから出産までの成長中の子を指します。
  • 有胎盤類
    哺乳類と有袋類の中で、特に胎盤を有する動物の総称と理解すればよいです。有袋類のオポッサムは、胎盤を持たない(育児嚢をもつ)ので外群(outgroup)として取り扱えます。
  • げっ歯類(rodents)
    リンク先は「齧歯目」です。哺乳綱げっ歯目に属する動物の総称です。ネズミやビーバーが含まれます。
  • 霊長類(primates)
    リンク先は「霊長目」です。哺乳綱霊長目に属する動物の総称です。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • 酸素(oxygen)
    原子番号8の元素です。元素記号はO。原子量は16.00です。この場合は酸素分子O2の文脈で用いています。これは、常温常圧では無色無臭で助燃性をもつ気体として存在します。
  • ATP
    リンク先は「アデノシン三リン酸」です。既知の地球生物のすべての細胞が利用している解糖系でも産生される物質です。生体内では、リン酸1分子、またはリン酸2分子が離れたり結合したりすることで、エネルギーの放出・貯蔵を行います。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。

page175
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 適応進化(adaptiogenesisまたはadaptive evolution)
    リンク先は「適応」です。生物種が自分の形質を自分がいる環境に合わせて世代を経るごとに変化させていくこと、という理解でよいです。
  • 生物学(biology)
    生命現象を研究する、自然科学の一分野です。
  • We et al., Curr Biol., 2017

6.1.3 多遺伝子系統樹と分子進化速度の分解

  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 世代(generation)
    「親、祖父母、子供、孫と数える助数詞」や「ほぼ同時期に誕生した集団」という理解でよいです。
  • 暴露率 「突然変異が起こる原因となるもの(変異原)にさらされる(暴露される)割合」という理解でよいです。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 選択圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を増していくことを選択(selection)といい、このような変化が起こる要因のこと指します。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。

  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • 式(6.3)
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 二元配置分散分析(two-way analysis of variance)
    リンク先は「分散分析」です。比較したい3つ以上のグループ(群)間のデータが手元にあるときによく用いられる統計的仮説検定法の1つです。すべての群が同じ母集団からのランダムサンプリングによって得られたものだという帰無仮説(null hypothesis)をおいて、帰無仮説の分布(null distribution)からどれだけ離れているか(珍しい事象か)を\(p\)値の低さで評価する枠組みのものです。たとえば、プラセボ投与群(A群) vs. Bという抗がん剤投与群(B群) vs. Cという抗がん剤投与群(C群)というグループラベル情報を割り当てて3群間比較を行うような枠組みが、一元配置分散分析(one-way ANOVA)とよばれるものです。実際には、このようなラベル割り当てだけでなく、たとえば薬の効果に性別が関係するかどうかといったことも同時に調べたいところです。それゆえ同じデータについて「F, M, and X」といった独立したラベル情報を付与してone-way ANOVAを行うこともできます。ここでラベルとして与えた薬の種類や性別といった事柄を要因(factor)といいますが、このような要因間の相互作用(業界では歴史的に交互作用といい、英単語はともにinteractionです)があるかどうかも調べられるのが二元配置分散分析(two-way ANOVA)とよばれるものです。
  • 統計モデル(statistical model)
    サンプルデータの生成に関する一連の統計的仮定を具体化した数理モデルのことです。
  • 対数変換(logarithmic transformation)
    リンク先は「対数」です。対数変換とはlogをとることです。たとえば、底をeとする10の対数は\(\log_e(10)\) \(= 2.302585\)です。
  • リンク関数(link function)
    数式の左辺と右辺の関係を示す分布のことだと解釈すればよいです。この場合は、掛け算の問題を足し算にして考えることができるのでそうしていると解釈すればよいと思います。
  • ポアソン回帰(Poisson regression)
    リンク先は「ポアソン分布」です。ポアソン分布に基づく回帰モデルのことです。ポアソン分布に従う観測結果に対してモデルをフィットしたい(i.e., 回帰したい)場合に用います。
  • 過分散(over-dispersion)
    「かぶんさん」と読みます。この場合は「観測結果のデータのばらつき(つまり分散)がポアソン分布で表現しきれないほど大きい」という意味合いで用いています。なお、分散の一般的な英単語としてはvarianceとかvariabilityをイメージされるかもしれませんが、dispersionという単語も統計分野ではよく用いられます。
  • 負の二項回帰(negative binomial regression)
    リンク先は「負の二項分布」です。負の二項分布に基づく回帰モデルのことです。負の二項分布に従う観測結果に対してモデルをフィットしたい(i.e., 回帰したい)場合に用います。観測結果の分散がポアソン分布よりも大きい(つまり過分散)場合にこのモデルを用いることが多いです。
  • 非負実数値
    「負の値ではない実数」のことです。0以上の実数なので、たとえば0とか0.3とか10.7とかです。
  • 尤度関数(likelihood function)
    手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • 回帰係数(regression coefficient)
    ポアソン回帰や負の二項回帰によって推定された係数のことです。
  • 交互作用(interaction)
    2つ以上の複数の因子(この場合は遺伝子効果と枝効果の2つ)が相互に影響しあうことによって生じた、それぞれの効果のみでは説明できないもののことを指します。

page176
  • 哺乳類(mammal)
    哺乳綱(ほにゅうこう)に属する動物の総称です。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 遺伝子重複(gene duplication)
    遺伝子を含むDNAのある領域が重複する現象のことです。遺伝子重複によって生じた2つの遺伝子はパラログ(paralog)とよばれます。異なる生物に存在する相同な機能を持った遺伝子群であるオーソログ(ortholog)もこのリンク先になります。
  • 図6.2
    哺乳類の分子系統樹です。
  • ミトコンドリア(mitochondria)
    ほとんどすべての真核生物の細胞の中に存在する、細胞小器官の1つです。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • げっ歯類(rodents)
    リンク先は「齧歯目」です。哺乳綱げっ歯目に属する動物の総称です。ネズミやビーバーが含まれます。
  • 霊長類(primates)
    リンク先は「霊長目」です。哺乳綱霊長目に属する動物の総称です。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。

6.1.4 表現型進化の予測変数としての分子進化速度の遺伝子×枝交互作用

  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 祖先形質(plesiomorphy)
    リンク先は「共有原始形質」です。2つ以上の分類群で共有される祖先的な性質や特徴のことです。対になる用語は、派生形質です。
  • Yang et al., Genetics, 1995
  • Pagel M., Systematic Biol., 1999a
  • ベイズの公式
    リンク先は「ベイズの定理」です。ある事象に関連する可能性のある条件についての事前の知識に基づいて、その事象の確率を記述するベイズの定理に基づく式のことです。
  • 事後確率(posterior probability)
    条件付き確率の一種であり、ベイズの定理により「事前確率に尤度関数の出力値を掛ける」ことで得られます。なお、事前確率は条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • マルコフ過程(Markov process)
    未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質(これをマルコフ性といいます)を持つ確率過程のことです。
  • 種分化(speciation)
    新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
  • 条件付き確率(conditional probability)
    ある事象Bが起こるという条件下での別の事象Aの確率のことであり、P(A|B)のように表されます。条件付き確率P(A|B)はしばしば「Bが起こったときのAの(条件付き)確率」「条件Bの下でのAの確率」などと表現されます。条件付確率。
  • 推移確率(transition probability)
    ある状態から別の状態に推移する確率のことです。この場合は、祖先形質yからある形質xに遷移する確率のように理解するとよいです。
  • 潜在変数(latent variable)
    直接は観察されないものの、観測された他の変数から推定される変数のことです。

  • 図6.3
    食虫性に関する祖先形質の復元です。
  • 哺乳類(mammal)
    哺乳綱(ほにゅうこう)に属する動物の総称です。
  • 食虫性
    「昆虫をエサとして食べている」ことです。
  • 事後確率(posterior probability)
    条件付き確率の一種であり、ベイズの定理により「事前確率に尤度関数の出力値を掛ける」ことで得られます。なお、事前確率は条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。
  • 現生種
    現在生きている生物種のことです。対の用語は化石種です。
  • 最小進化の規準(minimal evolution criteria)
    「進化の履歴に関していくつかのシナリオが考えられるとき、進化的イベントの数が少ないものを選択する」という考え方です。
  • 祖先形質(plesiomorphy)
    リンク先は「共有原始形質」です。2つ以上の分類群で共有される祖先的な性質や特徴のことです。対になる用語は、派生形質です。
  • 化石(fossil)
    地質時代に生息していた生物が死骸となって永く残っていたもの、もしくはその活動の痕跡のことです。
  • 中生代(Mesozoic era)
    古生代・中生代・新生代と分かれる地質時代の大きな区分の1つであり、約2億5217万年前から約6600万年前に相当するようです。
  • 新生代(Cenozoic era)
    古生代・中生代・新生代と分かれる地質時代の大きな区分の1つであり、6,500万年前から現代までに相当するようです。陸上では恐竜が絶滅し、海中ではアンモナイトや海生爬虫類が絶滅し、哺乳類が繁栄したことがこの時代の特徴のようです。
  • K-Pg境界(Cretaceous-Paleogene boundary)
    「けー、ぴーじーきょうかい」と読みます。地質年代区分の用語で、約6550万年前の中生代と新生代の境目のことです。恐竜などの大型爬虫類やアンモナイトが絶滅したことで有名ですが、海洋のプランクトンや植物類にも多数の絶滅種があったとのことです。
  • 恐竜(dinosaur)
    中生代に繁栄した脊椎動物の分類群の1つです。
  • ニッチ(niche)
    ある生物種が生活を営む上で利用する環境のことです。生態的地位ともいいます。
  • 系統(lineage)
    進化してきた道筋が同じ生物種の集まりという理解でよいです。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 収斂進化(convergent evolution)
    似たような場所で似たような生活をしている異なる種どうしが、長い年月をかけて似た性質や特徴(つまり形質)を独立に獲得していく現象のことです。 この「似たような場所で似たような生活をしている」というのは、ある生物種が生活を営む上で利用する環境的な要因とも捉えることができますが、これを生態的地位あるいはニッチ(niche)といいます。
  • 平行進化(parallel evolution)
    生物の進化に関する現象のひとつであり、異なった種において似通った方向の進化が見られる現象のことです。平行進化の結果が収斂である場合もあるようです。
  • Pagel M., Nature, 1999b

  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 交互作用(interaction)
    2つ以上の複数の因子(この場合は遺伝子効果と枝効果の2つ)が相互に影響しあうことによって生じた、それぞれの効果のみでは説明できないもののことを指します。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 回帰(regression)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめることです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。
page177
  • 図6.3
    食虫性に関する祖先形質の復元です。

  • 質的な形質(qualitative trait)
    質的形質(しつてきけいしつ)というのは、メンデルの法則の説明でよく出てくるような「エンドウマメの形が”丸い”か”しわがある”か」といった、環境要因によらず遺伝要因のみで決定されている形質のことだと理解すればよいです。対義語は量的形質(quantitative trait)であり、これは表現型のばらつきのようなものだと理解すればよいです。
  • ロジスティック回帰(Logistic regression)
    ベルヌーイ分布に従う変数の統計的回帰モデルの一種です。連結関数としてロジットを使用する一般化線形モデル(GLM)の一種でもあるそうです。質的形質のところでも説明しているように、得たい事柄が1か0かといった2値に集約されるときに用いられます(2値ロジスティック回帰ともいいます)。難解だと感じるかもしれませんが、たとえばロジットのグラフをみると、横軸のpの値が0.5以上だと縦軸の値(つまりロジット)が正の値に、そしてそれ以外の横軸の値のときは縦軸が負の値になることがわかります。こんな感じで、“0から1の範囲をとる値”を0または1という2値に変換しているだけだと解釈すればよいでしょう。
  • 説明変数(explanatory variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、xに相当するものです。対になる用語は、f(x)またはyに相当する目的変数(response variable)です。ちなみに本文中のNは遺伝子数です。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ラプラス分布(Laplace distribution)
    正規分布と同じく、平均Mと分散Vの2つのパラメータで表現できる連続確率分布の1つです。正規分布はベル曲線といわれるようにM付近はなだらかですが、ラプラス分布は尖っているのが特徴です。両側指数分布ともよばれますが、これはMの右側のみ(あるいは左側のみ)で考えると指数分布のように見えますので、それが両側にあると考えれば納得できると思います。
  • Lasso回帰(Lasso regression)
    リンク先は「ラッソ回帰」です。変数選択と正則化の両方を実行し、生成する統計モデルの予測精度と解釈可能性を向上させる回帰分析手法です。

  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 交互作用(interaction)
    2つ以上の複数の因子(この場合は遺伝子効果と枝効果の2つ)が相互に影響しあうことによって生じた、それぞれの効果のみでは説明できないもののことを指します。
  • 回帰(regression)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめることです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。
  • 回帰係数(regression coefficient)
    この場合は、Lasso回帰によって推定された係数のことです。
  • 祖先形質(plesiomorphy)
    リンク先は「共有原始形質」です。2つ以上の分類群で共有される祖先的な性質や特徴のことです。対になる用語は、派生形質です。
  • K-Pg境界(Cretaceous-Paleogene boundary)
    「けー、ぴーじーきょうかい」と読みます。地質年代区分の用語で、約6550万年前の中生代と新生代の境目のことです。恐竜などの大型爬虫類やアンモナイトが絶滅したことで有名ですが、海洋のプランクトンや植物類にも多数の絶滅種があったとのことです。
  • 系統(lineage)
    進化してきた道筋が同じ生物種の集まりという理解でよいです。
  • 食性(feeding behavioursまたはfood habit)
    動物の食物に関する性質のことです。動物は個体維持のために食物を食べますが、その種類や様式(食べ方)は、動物の種類によって異なり、非常に多様です。
  • 生活史(life history)
    リンク先は「生活史 (生物)」です。生物の一生における生活の有り様を見渡す時に、それを環境とのかかわりの元でまとめて呼ぶ呼び方です。生物の一生にわたる変化の様子を、その生活に即して考える場合に用います。
  • 有胎盤類
    哺乳類と有袋類の中で、特に胎盤を有する動物の総称と理解すればよいです。
  • 共通祖先(common descent)
    全生物種の系統樹を描いたときに、一番根っこ部分にある生物種のことだという理解でよいと思います。
  • 昆虫(insect)
    六脚亜門の昆虫綱(学名:Insecta)に分類される節足動物の総称です。昆虫は多様な節足動物の中でも、特に陸上で進化したグループです。
  • 回帰係数(regression coefficient)
    ポアソン回帰や負の二項回帰によって推定された係数のことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。

page178
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。

6.2 種の遺伝的多様性と集団構造

  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 動物(animal)
    生物学における生物の分類群の1つです。かつて生物は、感覚と運動能力によって植物と動物に大別されていましたが、動物はヘッケルによって多細胞性の後生動物と単細胞性の原生動物に分けられました。ホイッタカーによる五界説では、この後生動物のみを動物界(Animalia)として扱い、これを「動物」として扱うことが一般的です。
  • 環境収容力(carrying capacity)
    ある環境において、そこに継続的に存在できる生物の最大量のことです。「ある環境」を日本とか九州とか西表島と置き換えて、そういう限られた場では養えるヒト(生物全体でもよい)の総数は限られているだろう、では最大何人まで養えるのか?ということを考えている概念だと思えばよいです。
  • 移動(migration)
    「移住」という風に解釈したほうがよいかもしれません。明治時代の北海道の開拓のようなイメージでしょうか。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • 分集団(subpopulation)
    上記の説明の中にほぼ含まれていますが、遺伝子型によってさらに分けられたサブ集団という意味です。たとえば「父親由来がGで母親由来がTのヒト達」が1つの分集団を形成し、「父親由来がでC母親由来がTのヒト達」も別の分集団を形成しているという風に解釈すればよいです。本文では以降は分集団のことを集団とよんでいます。
  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。
  • 昆虫(insect)
    六脚亜門の昆虫綱(学名:Insecta)に分類される節足動物の総称です。昆虫は多様な節足動物の中でも、特に陸上で進化したグループです。
  • 動物(animal)
    生物学における生物の分類群の1つです。かつて生物は、感覚と運動能力によって植物と動物に大別されていましたが、動物はヘッケルによって多細胞性の後生動物と単細胞性の原生動物に分けられました。ホイッタカーによる五界説では、この後生動物のみを動物界(Animalia)として扱い、これを「動物」として扱うことが一般的です。
  • 花粉(pollen)
    種子植物門の植物の花の雄しべから出る粉状の細胞です。雄しべの先端にある葯(やく)という袋の中で形成されます。花粉は、雄しべの葯から出て雌しべの柱頭に付くまでの間の粉状のものの抽象的な呼び名です。花粉は基本的に多細胞体です。
  • 種子(seed)
    種子植物で有性生殖によって形成される散布体です。一般には、単に種(たね)とよばれることが多いです。種子は親植物の組織起源の種皮(しゅひ)という皮に包まれ、その中には受精卵から発育した幼い植物体、すなわち胚が入っています。種子はめしべにある胚珠から発達します。
  • 遺伝的浮動(genetic drift)
    無作為抽出の効果によって生じる、遺伝子プールにおけるアレル頻度の変化のことです。遺伝子プールは「繁殖可能な個体からなる集団がもつ遺伝子の総体」のことです。無作為(ランダム)抽出というのがポイントで、遺伝的浮動は集団から遺伝的変異を取り除く効果があります。この効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなるそうです。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 自然選択(natural selection)
    リンク先は「自然選択説」です。「厳しい自然環境が生物に無目的に起きる変異(突然変異)を選別し、進化に方向性を与える」というものです。「時間の流れで自然と淘汰(選択)されていく」という風に解釈してもよいと思います。
  • 有効集団サイズ(effective population size; Ne)
    リンク先は「Effective population size」です。遺伝的浮動(genetic drift)のところで、「遺伝的変異を取り除く効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなる」と述べましたが、ここで述べている集団サイズのことを本文中でNeを使って説明しています。遺伝的浮動はNeと世代数の関数で表されるというのは、世代数を重ねないと効果の強弱が評価できないと解釈すればよいです。
  • 世代(generation)
    「親、祖父母、子供、孫と数える助数詞」や「ほぼ同時期に誕生した集団」という理解でよいです。
  • 遺伝的多様性(genetic diversity)
    (同一生物種内の)遺伝子型(ある生物の個体が持つ遺伝物質の構成)の多様性のことです。
  • ヘテロ接合度(heterozygosity)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)はヘテロ接合型(heterozygous)といいます。また、そのような状態のことを「ヘテロ接合である」といいます。そのヘテロ接合型の個体が集団内にどれだけいるかという度合いを表すのがヘテロ接合度です。
  • 近交(inbred)
    リンク先は「近交系」です。基本的に近親交配の略という認識でよいです。2倍体個体において相同な染色体ペアの双方のアレルが同一のとき、その座位(サイト)はホモ接合型(homozygous)、そしてそのような状態のことを「ホモ接合である」といいといいます。近親交配を繰り返して世代を進めていくと、ヘテロ接合の座位がどんどん減り、ホモ接合の座位が増えていきます。近交とは、近親交配を20世代以上繰り返して得られた、遺伝子的なバックグラウンドが揃った(つまりヘテロ接合の座位が非常に少ない)状態を表す言葉です。
  • 湖沼
    周囲を陸に囲まれ、海と直接つながっていない静止した水の塊のことです。比較的大きなものを湖、比較的小さなものを池や沼といいます。
  • 水生生物
    リンク先は「水生」です。水中で生活する生物のことです。
  • 海産魚類
    海水域にすむ魚類の総称です。対になる用語は、淡水魚類です。
  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。

  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。
  • 遺伝的多様性(genetic diversity)
    (同一生物種内の)遺伝子型(ある生物の個体が持つ遺伝物質の構成)の多様性のことです。
  • \(F_{\rm{ST}}\)
    集団構造の推定に最も広く使われている遺伝的分化の指標です。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • 回帰分析(regression analysis)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめて分析することです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。

6.2.1 遺伝的分化の指標\(F_{\rm{ST}}\)

  • \(F_{\rm{ST}}\)
    集団構造の推定に最も広く使われている遺伝的分化の指標です。
  • Sewall Green Wright
    リンク先は「シューアル・ライト」です。
  • Wright S., Ann Eugen., 1951
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • メタ集団(metapopulation)
    リンク先は「メタ個体群」です。複数の集団をひっくるめたもののことです。たとえば、「集団Aと集団Bと集団C」をひっくるめたものをメタ集団とよんだりします。「ゲノムとメタゲノム」の関係性をイメージすればよいです。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • 分散(variance)
    リンク先は「分散 (統計学)」です。「データの標準偏差の二乗のこと」であり「平均値からの偏差の二乗の平均」です。
  • 定義(definition)
    一般にコミュニケーションを円滑に行うために、ある言葉の正確な意味や用法について、人々の間で共通認識を抱くために行われる作業のことです。
  • Excoffier L., Handbook of Statistical Genetics, 2001
    \(F_{\rm{ST}}\)の論文です。他の日本語の解説記事としては、[山道ら, 日本生態学会誌, 2008]も(https://doi.org/10.18960/seitai.58.3_241)参考になると思います

  • Nei M., Proc Natl Acad Sci USA., 1973
    \(G_{\rm{ST}}\)の論文です。全集団\(F_{\rm{ST}}\) (global \(F_{\rm{ST}}\))の略ですが、本文中にもあるように\(G_{\rm{ST}}\) = \(F_{\rm{ST}}\)だそうです。
  • 式(6.4)
  • ヘテロ接合度(heterozygosity)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)はヘテロ接合型(heterozygous)といいます。また、そのような状態のことを「ヘテロ接合である」といいます。そのヘテロ接合型の個体が集団内にどれだけいるかという度合いを表すのがヘテロ接合度です。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
page179
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • 定義(definition)
    一般にコミュニケーションを円滑に行うために、ある言葉の正確な意味や用法について、人々の間で共通認識を抱くために行われる作業のことです。
  • Excoffier L., Handbook of Statistical Genetics, 2001
    \(F_{\rm{ST}}\)の論文です。他の日本語の解説記事としては、[山道ら, 日本生態学会誌, 2008]も(https://doi.org/10.18960/seitai.58.3_241)参考になると思います

  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 式(6.5)
  • マイクロサテライト(microsatellite)
    「単位配列の長さ」が数 bp程度のタンデムリピートのことです。short tandem repeat(STR)やsimple sequence repeat(SSR)ともよばれます。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • Kitada et al., G3 (Bathesda), 2021
  • Neiの\(G_{\rm{ST}}\)Nei M., Proc Natl Acad Sci USA., 1973
    式(6.4)のことです。アレル頻度の分散をヘテロ接合度で定義したものです。全集団\(F_{\rm{ST}}\) (global \(F_{\rm{ST}}\))とよばれます。
  • ヘテロ接合度(heterozygosity)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)はヘテロ接合型(heterozygous)といいます。また、そのような状態のことを「ヘテロ接合である」といいます。そのヘテロ接合型の個体が集団内にどれだけいるかという度合いを表すのがヘテロ接合度です。

  • Weir and Cockerham, Evolution, 1984
    WC84の論文です。
  • モーメント推定量(Moment estimator)
    リンク先は「一般化モーメント法」です。最尤法と同じく点推定の一種です。母集団のパラメータを推定する方法であるモーメント法(method of moments)を用いて推定された値がモーメント推定量です。
  • 合祖シミュレーション(coalescent simulation)
    リンク先は「合祖理論」です。現在の集団から得られる遺伝情報から過去の集団動態を推測する際に用いるシミュレーションのことです。
  • Nei and Chesser, Ann Hum Genet., 1983
    NC83の論文です。
  • Kitada et al., Mol Ecol Resour., 2017
  • 不偏推定量(unbiased estimator)
    サンプリングによって得られた推定量の期待値が母集団のそれに等しいときに、その推定量を不偏推定量といいます。たとえば、さいころを10回振って得た出目の平均値(標本平均)よりも、それを100セット行って得た標本平均の平均のほうが、より母平均に近づきます。本文では、遺伝子座の数が多くなるほど、得られる遺伝的分化の指標がより真の値(つまり不偏推定量)に収束するという意味で述べています。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • 結合比推定量(combined ratio estimator)
  • Cockran, WG., Sampling Techniques, 1977
  • 大数の法則(Law of Large Numbers)
    確率論・統計学における基本定理の一つ。極限定理とよばれる定理の一種です。「独立同分布に従う可積分な確率変数列の標本平均は平均に収束する」という法則です。たとえば、サイコロを振る試行を莫大に繰り返せば、出た目の平均(標本平均)が出る目の平均である3.5の近傍から外れる確率をいくらでも小さくできるといったことをまことしやかに述べているだけです。
  • Kitada et al., G3 (Bathesda), 2021
    「遺伝子座の数が大きくなると大数の法則により、NC83、WC84ともFSTの真値に収束する」の原著論文です。

  • 分散分析(analysis of variance; ANOVA)
    比較したい3つ以上のグループ(群)間のデータが手元にあるときによく用いられる統計的仮説検定法の1つです。すべての群が同じ母集団からのランダムサンプリングによって得られたものだという帰無仮説(null hypothesis)をおいて、帰無仮説の分布(null distribution)からどれだけ離れているか(珍しい事象か)を\(p\)値の低さで評価する枠組みのものです。たとえば、プラセボ投与群(A群) vs. Bという抗がん剤投与群(B群) vs. Cという抗がん剤投与群(C群)というグループラベル情報を割り当てて3群間比較を行うような枠組みが、一元配置分散分析(one-way ANOVA)とよばれるものです。実際には、このようなラベル割り当てだけでなく、たとえば薬の効果に性別が関係するかどうかといったことも同時に調べたいところです。それゆえ同じデータについて「F, M, and X」といった独立したラベル情報を付与してone-way ANOVAを行うこともできます。ここでラベルとして与えた薬の種類や性別といった事柄を要因(factor)といいますが、このような要因間の相互作用(業界では歴史的に交互作用といい、英単語はともにinteractionです)があるかどうかも調べられるのが二元配置分散分析(two-way ANOVA)とよばれるものです。
  • Cockerham and Weir, Proc Natl Acad Sci USA., 1987
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 同祖
    同一祖先のことです。
page180
  • 近縁(closely related)
    生物で分類上非常に近い関係にあることです。一般には「界/門/綱/目/科/属/種」という分類体系で同じ属のものを指します。似た言葉に類縁がありますが、これは近縁よりも対象がより広がっているイメージをもつとよいと思います。つまり、近縁は類縁の部分集合です(近縁\(\subset\)類縁)。
  • 近親交配(inbreeding)
    親やきょうだいや子など親等が近い(同じ祖先からの)個体どうしで交配することです。対義語は、おそらく任意交配(または自由交配; panmictic)です。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • 固定指数(fixation index)
    \(F_{\rm{ST}}\)の別名です。

  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 集団固有\(F_{\rm{ST}}\)(population-specific \(F_{\rm{ST}}\))
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • Weir and Goudet, Genetics, 2017
    WG17の論文です。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • 式(6.6)
  • 大数の法則(Law of Large Numbers)
    確率論・統計学における基本定理の一つ。極限定理とよばれる定理の一種です。「独立同分布に従う可積分な確率変数列の標本平均は平均に収束する」という法則です。たとえば、サイコロを振る試行を莫大に繰り返せば、出た目の平均(標本平均)が出る目の平均である3.5の近傍から外れる確率をいくらでも小さくできるといったことをまことしやかに述べているだけです。
  • ヘテロ接合度(heterozygosity)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)はヘテロ接合型(heterozygous)といいます。また、そのような状態のことを「ヘテロ接合である」といいます。そのヘテロ接合型の個体が集団内にどれだけいるかという度合いを表すのがヘテロ接合度です。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。

6.2.2 ヒトの進化と多様性

  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • マイクロサテライト(microsatellite)
    「単位配列の長さ」が数 bp程度のタンデムリピートのことです。short tandem repeat(STR)やsimple sequence repeat(SSR)ともよばれます。
  • Rosenberg et al., Science, 2002
  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。
  • 遺伝的浮動(genetic drift)
    無作為抽出の効果によって生じる、遺伝子プールにおけるアレル頻度の変化のことです。遺伝子プールは「繁殖可能な個体からなる集団がもつ遺伝子の総体」のことです。無作為(ランダム)抽出というのがポイントで、遺伝的浮動は集団から遺伝的変異を取り除く効果があります。この効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなるそうです。
  • 図6.4
    ヒトの集団構造です。
  • 遺伝的多様性(genetic diversity)
    (同一生物種内の)遺伝子型(ある生物の個体が持つ遺伝物質の構成)の多様性のことです。
  • ヘテロ接合度(heterozygosity)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)はヘテロ接合型(heterozygous)といいます。また、そのような状態のことを「ヘテロ接合である」といいます。そのヘテロ接合型の個体が集団内にどれだけいるかという度合いを表すのがヘテロ接合度です。期待ヘテロ接合度(\(H_e\))は、ヘテロ接合度の期待値という理解でよいです。expected heterozygosityなので\(H_e\)で表すのでしょう。
  • WC84:Weir and Cockerham, Evolution, 1984
  • 標準誤差(standard error)
    ここでの標準誤差は「標本平均の標準誤差」です。本文中の標本平均が0.0488で、標準誤差が0.0012に相当します。標本平均が母平均に対する標本平均のばらつきの度合いを表す指標と理解すればよいです。標本平均の値は、標本の数が増えるほど母平均に近づくのは直感的にわかると思います。この場合の標本は遺伝子座に相当します。
  • 図6.4a
    ヒトの集団構造です。
  • ユーラシア(Eurasia)
    アジア州とヨーロッパ州を一続きの大陸(ユーラシア大陸)と考えたときの呼称です。本来は大地形区分名であり、地形学的には太平洋の列島群を除いた大陸地域を指すようです。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 遺伝的浮動(genetic drift)
    無作為抽出の効果によって生じる、遺伝子プールにおけるアレル頻度の変化のことです。遺伝子プールは「繁殖可能な個体からなる集団がもつ遺伝子の総体」のことです。無作為(ランダム)抽出というのがポイントで、遺伝的浮動は集団から遺伝的変異を取り除く効果があります。この効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなるそうです。
  • Wright S., Ann Eugen., 1951
  • Slatkin M., Science, 1987
    \(F_{\rm{ST}}\) = 0.02のときは、0.02 = 1/(1 + 4Nem)より、4Nem = 1/0.02 - 1 = 50 - 1 = 49となります。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • Waples and Gaggiotti, Mol Ecol., 2006
  • Whitlock and McCauley, Heredity, 1999

page181
  • 図6.4b
    ヒトの集団構造です。
  • アフリカ(Africa)
    広義にはアフリカ大陸およびその周辺のマダガスカル島などの島嶼・海域を含む地域の総称で、六大州の1つです。
  • Bantu Kenya
    リンク先は「バントゥー系民族」です。Bantuがバントゥーに相当します。アフリカ言語の大カテゴリであるバントゥー語群に属する多様な言語を使用するケニヤ(Kenya)の人々という理解でよいと思います。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • Liu et al., Am J Hum Genet., 2006
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • ポリネシア(Polynesia)
    オセアニアの海洋部の分類の1つです。
  • Nielsen et al., Nature, 2017
  • 近隣結合系統樹(neighbor joining tree; NJ樹)
    リンク先は「近隣結合法」です。系統樹を作製するためのボトムアップ式のクラスタ解析法。星型の樹形から出発してOTU (系統樹の葉にあたる分類群)をクラスタリングする各段階において、総分岐長を最小化するOTUの組を発見することを原理としています。解析可能な系統樹の樹形や枝長を短時間で求めることができるのが特徴です。
  • Saitou and Nei, Mol Biol Evol., 1987
  • 図6.4c
    ヒトの集団構造です。
  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。

6.2.3 野生ポプラの集団分化と環境適応

  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • 花季(かき)
    花の咲く時期または期間のことです。
  • 種子(seed)
    種子植物で有性生殖によって形成される散布体です。一般には、単に種(たね)とよばれることが多いです。種子は親植物の組織起源の種皮(しゅひ)という皮に包まれ、その中には受精卵から発育した幼い植物体、すなわち胚が入っています。種子はめしべにある胚珠から発達します。

page182
  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • 非コード領域(non-coding region)
    「タンパク質コード領域ではない部分」という理解でよいです。
  • イントロン(intron)
    転写はされるが最終的に機能する転写産物からスプライシングによって除去される塩基配列のことです。
  • コード領域(coding region)
    「タンパク質コード領域」という理解でよいです。
  • 非翻訳領域(untranslated region; UTR)
    転写はされるがタンパク質に翻訳されない領域のことです。タンパク質に翻訳される領域(coding sequence; CDS)の上流側(5’側)のUTRを5’UTRといい、下流側を3’UTRといいます。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • Geraldes et al., Mol Ecol Resour., 2013
  • GWAS
    リンク先は「Genome-wide association study」です。ゲノムワイド関連解析(genome-wide association study)の略です。ある集団内に存在する個体間の形質と塩基配列の違い(たとえばSNPや遺伝子型)との関連をゲノム全体で調べ,形質と関連する塩基配列の違いを統計的に検出する方法です。
  • さび病(rustまたはrust disease)
    リンク先は「サビキン目」です。サビキン目は担子菌門の目の1つで、サビキン(錆菌または銹菌)と総称されます。植物に寄生する絶対寄生菌であり、赤・黒などに着色したさびのように見える無性胞子(さび胞子)を作ることで病害が引き起こされます。これをさび病といいます。
  • 気孔(stoma)
    葉の表皮に存在する小さな穴(開口部)のことです。孔辺細胞とよばれる2つの細胞が唇のような形で向かい合った構造になっており、2つの孔辺細胞の形が変化することによって孔の大きさが調節されます。主に光合成、呼吸および蒸散のために、外部と気体の交換を行う目的で使用されます。stomaが単数形で、stomataが複数形です。
  • スクリーニング(screening)
    多数の中から特定の条件に合うものを抽出するために選別することです。
  • McKown et al., New Phytol., 2014
  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。
  • Geraldes et al., Evolution, 2014

  • WC84:Weir and Cockerham, Evolution, 1984
    Weir and Cockerhamによって提唱されたモーメント推定量のことです。
  • \(H_e\)
    期待ヘテロ接合度のことです。
  • 図6.5
    北米の野生ポプラ25集団の集団構造です。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 種子(seed)
    種子植物で有性生殖によって形成される散布体です。一般には、単に種(たね)とよばれることが多いです。種子は親植物の組織起源の種皮(しゅひ)という皮に包まれ、その中には受精卵から発育した幼い植物体、すなわち胚が入っています。種子はめしべにある胚珠から発達します。
  • BC内陸部
    ブリティッシュコロンビア州の内陸部という意味です。カナダの州の1つで、太平洋に面したカナダ最西部に位置しています。
  • 多次元尺度構成法(Multi Dimensional Scaling; MDS)
    多変量解析の一手法である。主成分分析(PCA)のように、分類対象物の関係を2次元や3次元といった低次元空間における点の布置で表現する手法です。
  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。

  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • サンプリング(sampling)
    リンク先は「標本調査」です。母集団から標本を抽出することです。母集団(ある解析対象生物種のすべての個体)をすべて調査対象とする全数調査は、予算的な面からも非現実的です。このため、現実的な数の菌株(strain)を抽出して、手元の情報のみから母集団の性質を統計学的に推定する方法が標本調査です。生命科学系のほぼすべての研究は、標本調査によって得られています。
  • 重回帰分析(multiple regression analysis)
    観測データを数式(モデル)に当てはめて分析することです。単回帰分析は説明変数が1つだけなのに対して、重回帰分析は説明変数が2つ以上ある場合の回帰分析になります。
  • 多重共線性(multicollinearity)
    重回帰分析(multiple regression analysis)」の中にも多重共線性の項目がありますが、説明変数の中に相関係数が高い組み合わせがあることです。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。
  • 説明変数(explanatory variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、xに相当するものです。
  • 目的変数(response variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、f(x)またはyに相当するものです。応答変数ともよばれます。
  • 共分散(covariance)
    2組の対応するデータ(要素数が同じ2つのベクトル)間での、平均からの偏差の積の平均値のことです。
  • 一般化最小二乗法(generalized least squares; GLS)
    リンク先は「Generalized least squares」です。回帰モデルの残差の間にある程度の相関がある場合に、線形回帰モデルの未知パラメータを推定するための手法です。
  • 表6.1
    野生ポプラ集団の環境適応の推測結果です。

  • 回帰分析(regression analysis)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめて分析することです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。
  • 図6.6
    北米の野生ポプラの集団分化と環境の図です。
  • 夏至(summer solstice)
    北半球では一年のうちで最も昼(日の出から日没まで)の時間が長い日のことです。南半球では、北半球の夏至の日に最も昼の時間が短くなります。

  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 祖先(ancestor)
    リンク先は「先祖」です。現代人の、既に亡くなった数世代以前の血縁者全般のこと。狭義では、直系の尊属を指す場合が多いです。対義語は子孫、後裔(こうえい)、または末裔(まつえい)です。 生物学的な側面では、進化分類学において、ある生物種の進化前の段階をしばしばこのようによびます。
  • 回帰分析(regression analysis)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめて分析することです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。
  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • BC内陸部
    ブリティッシュコロンビア州の内陸部という意味です。カナダの州の1つで、太平洋に面したカナダ最西部に位置しています。
  • 種子(seed)
    種子植物で有性生殖によって形成される散布体です。一般には、単に種(たね)とよばれることが多いです。種子は親植物の組織起源の種皮(しゅひ)という皮に包まれ、その中には受精卵から発育した幼い植物体、すなわち胚が入っています。種子はめしべにある胚珠から発達します。
page183
  • 図6.5
    北米の野生ポプラ25集団の集団構造です。
  • 表6.1
    野生ポプラ集団の環境適応の推測結果です。
page184
  • 図6.6
    北米の野生ポプラの集団分化と環境です。

6.2.4 \(F_{\rm{ST}}\)の計算のためのソフトウェア

  • FinePop2
    \(F_{\rm{ST}}\)を計算するためのRパッケージです。全集団\(F_{\rm{ST}}\)を計算するglobalFST関数、集団対\(F_{\rm{ST}}\)を計算するpop_pairwiseFST関数、そして集団固有\(F_{\rm{ST}}\)を計算するpop_specificFST関数などが提供されています。

  • Genepop
    データフォーマットです。

  • WC84:Weir and Cockerham, Evolution, 1984

  • 回帰分析(regression analysis)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめて分析することです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。

  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。

  • CPU
    中央演算処理装置(Central Processing Unit)の略です。コンピュータにおける中心的な処理装置(プロセッサ)のことです。コンピュータの頭脳や心臓部に例えられることが多いです。

  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。

  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。

  • マイクロサテライト(microsatellite)
    「単位配列の長さ」が数 bp程度のタンデムリピートのことです。short tandem repeat(STR)やsimple sequence repeat(SSR)ともよばれます。

  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。

  • 図6.4c
    ヒトの集団構造です。

  • ポプラの回帰分析に用いたデータとR script
    リンク先のpoplar_bioinf.zip中にある、3つのファイル(omega.csv, poplar_gls_data.csv, poplar_env.R)です。

  • 例題6.1
    1ページ目が問題、2ページ目以降が解答例です。PDFファイル中のRコマンドのコピペ実行は不具合が生じやすいため、実際にコピペする際は以下のスクリプトをご利用ください。

    # パッケージのインストール部分
    install.packages("ape")
    install.packages("FinePop2")
    install.packages("sf")
    install.packages("tibble") 
    install.packages("RColorBrewer")
    
    # パッケージのロード(1回目)
    library(ape)
    library(FinePop2)
    library(sf)
    library(tibble)
    library(RColorBrewer)
    
    # パッケージのロード(2回目)
    library(ape)
    library(FinePop2)
    library(sf)
    library(tibble)
    library(RColorBrewer)
page185

6.3 集団の歴史と適応

  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 生息域
    リンク先は「生息地」です。生物が主に生息する区域のことです。
  • 適応(adaptation)
    生物種がある環境のもとで生活するのに有利な形質を持っていることです。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。
  • エピジェネティックな修飾(epigenetic modification)
    リンク先は「エピジェネティクス」です。ゲノムの塩基配列自体は変わらないものの、その一部が化学的な修飾を受けて遺伝子の発現が制御され、それが維持される仕組みが存在します。この仕組みのことをエピジェネティクス、そして修飾を受けたゲノムのことをエピゲノムといいます。DNAメチル化やヒストン修飾(ヒストンのアセチル化やメチル化)とよばれるものがこの修飾の実体であり、エピジェネティック修飾ともよばれます。
  • 表現型の可塑性(phenotypic plasticity)
    生物個体がその表現型を環境条件に応じて変化させる能力のことです。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • 変異(mutation)
    リンク先は「突然変異」です。DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • 生殖隔離(reproductive isolation)
    リンク先は「生殖的隔離」です。この場合は、「2つの集団の個体間で交配が行われない状況」のことを指します。
  • 中立遺伝子座
    中立な突然変異が起こっている遺伝子座です。
  • 多遺伝子的(polygenic)
    リンク先は「ポリジーン遺伝(polygenic inheritance)」です。多くの遺伝子による要因が1つの形質に影響を与えることを指す用語です。本文中の言葉でいえば、「その形質に関わる数百から数千の遺伝子のアレル頻度がわずかに変化すること」です。要因に相当するのがアレル頻度となります。多因子遺伝ともよばれます。対義語が後述する「多面発現的」です。
  • 多面発現的(pleiotropic)
    リンク先は「多相遺伝(pleiotropy)」です。「1つの遺伝子が複数の異なる形質に影響を与えるさま」です。対義語が前述の「多遺伝子的」です。「1つの遺伝子が沢山の形質に影響を与えること」が多面発現(pleiotropy)であり、多相遺伝とか多面作用ともよばれます。
  • 集団分化
    「ある集団が分かれて別々の(サブ)集団になっていくこと」です。
  • 遺伝的混合(genetic admixture)
    リンク先は「genetic admixture」です。以前に分岐または分離された遺伝系統(genetic lineages)が混合することです。混合により、新しい遺伝系統が集団に導入されます。なお、遺伝系統とは、祖先の遺伝型を派生型に接続する一連の突然変異のことです。
  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。

6.3.1 集団分化と環境:数量化3類

  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 数量化3類
    リンク先は「数量化理論」です。下記の対応分析(correspondence analysis)と同じものです。
  • 適応(adaptation)
    生物種がある環境のもとで生活するのに有利な形質を持っていることです。
  • 対応分析(correspondence analysis)
    リンク先は「Correspondence analysis」です。クロス集計表など、行と列からなるデータの特徴を図示し、項目間の関係を視覚的に把握する方法です。主成分分析に似ていますが、連続データではなくカテゴリデータに適用されます。
  • Benzecri, JP., Data Analyses. Volume II. Correspondence Analysis., 1973
  • Hayashi C., Ann Inst Stat Math., 1953
  • 図6.7
    北米の野生ポプラの集団分化と形質の環境適応です。
  • North American Carbon Program (NACP)
  • Unified North American Soil Map
  • Liu et al., Biogeosciences, 2013
  • 環境値のまとめ
    • 土壌深度(Depth)
    • 密度(Bulk)
    • 粘土(Clay)
    • 沈泥(Silt)
    • 砂(Sand)
    • 礫(Gravel)
    • 陽イオン交換容量(Cation)
    • 有機炭素濃度(Carbon)
    • 水素イオン指数(pH)
  • 形質値のまとめ
    • 向軸側気孔密度(ADd)
      向軸側気孔は、葉の表側の気孔のことです。一般に気孔は葉の裏側に形成されますが、北方など光合成効率の低下する環境では表側にも気孔が形成され光合成効率を補うことがあります。
    • 背軸側気孔密度(ABd)
      背軸側気孔は、葉の裏側の気孔のことです。通常の環境下で光合成のガス交換を担います。
    • さび病進行度(DP)
      ここでは疾患進行曲線下面積(area under disease progress curve; AUDPC)を用いています。経時的な疾患強度の定量的尺度であり、高いほど疾患の進行が速く、疾患に対する感受性が高くなります。
  • さび病(rustまたはrust disease)
    リンク先は「サビキン目」です。サビキン目は担子菌門の目の1つで、サビキン(錆菌または銹菌)と総称されます。植物に寄生する絶対寄生菌であり、赤・黒などに着色したさびのように見える無性胞子(さび胞子)を作ることで病害が引き起こされます。これをさび病といいます。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • 集団分化
    「ある集団が分かれて別々の(サブ)集団になっていくこと」です。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。
  • 図6.5b
    北米の野生ポプラ25集団の集団構造です。
  • 図6.7aの説明部分
    • 緯度(LAT)
    • 夏期最長日照時間(DAY)
    • 年平均気温(MAT)
    • 夏期平均気温(MWMT)
    • 無霜日数(FFD)
    • 年平均熱水分指数(AHM)
    • 夏期平均熱水分指数(SHM)
    • 年平均降水量(MAP)
    • 夏期平均降水量(MSP)
    • 標高(ALT)

page186
  • 図6.7
    北米の野生ポプラの集団分化と形質の環境適応です。

  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • AHM
    年平均熱水分指数のことです。
  • 有意性の検定(statistical test)
    リンク先は「仮説検定」です。この場合は、「年平均熱水分指数(AHM)と有意な相関を持つ遺伝子座」を一般化最小二乗法という方法で検出・評価しているということになります。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 共分散(covariance)
    2組の対応するデータ(要素数が同じ2つのベクトル)間での、平均からの偏差の積の平均値のことです。
  • 一般化最小二乗法(generalized least squares; GLS)
    リンク先は「Generalized least squares」です。回帰モデルの残差の間にある程度の相関がある場合に、線形回帰モデルの未知パラメータを推定するための手法です。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • サンプルサイズ
    リンク先は「Sample size determination」です。図6.7bの説明部分です。この場合は、サンプル数は円の数に相当するので約22個、サンプルサイズは各円の大きさに相当します(円ごとに異なります)。

6.3.2 集団構造の背景:遺伝子流動の推定

  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 移住(migration)
    明治時代の北海道の開拓のようなイメージでしょうか。
  • Cavalli-Sforza and Edwards, Am J Hum Genet., 1967
  • Felsenstein J., J Theor Biol., 1982
  • Cann et al., Nature, 1987
  • 種分化(speciation)
    新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
  • 相同遺伝子(homolog)
    共通祖先に由来する遺伝子どうしのことです。
  • 集団分化
    「ある集団が分かれて別々の(サブ)集団になっていくこと」です。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
page187
  • 図6.8
    北米の野生ポプラの集団分化と移住の混合グラフです。

  • 遺伝的混合(genetic admixture)
    リンク先は「genetic admixture」です。以前に分岐または分離された遺伝系統(genetic lineages)が混合することです。混合により、新しい遺伝系統が集団に導入されます。なお、遺伝系統とは、祖先の遺伝型を派生型に接続する一連の突然変異のことです。
  • 混合グラフ(admixture graph)
    集団間移住の情報を集団分化の樹上グラフに枝として加えたものです。
  • 図6.8
    北米の野生ポプラの集団分化と移住の混合グラフです。
  • 移住枝
    集団分化の樹上グラフ上に枝として加えられた集団間移住の情報です。
  • Felsenstein J., J Theor Biol., 1982
  • Cavalli-Sforza LL., Am J Hum Genet., 1973
  • Cavalli-Sforza and Piazza, Theor Popul Biol., 1975
  • MixMapper:]Lipson et al., Mol Biol Evol., 2013](https://pubmed.ncbi.nlm.nih.gov/23709261/)
  • TreeMixPickrell and Pritchard, PLoS Genet., 2012

  • TreeMixPickrell and Pritchard, PLoS Genet., 2012
  • 集団分化
    「ある集団が分かれて別々の(サブ)集団になっていくこと」です。
  • 混合グラフ(admixture graph)
    集団間移住の情報を集団分化の樹上グラフに枝として加えたものです。
  • 最尤推定法(method of maximum likelihood)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法です。最尤法は、最尤推定法の略です。EMアルゴリズム(Expectation-Maximization algorithm)は、確率モデルのパラメータを最尤推定する手法の1つであり、観測不可能な潜在変数に確率モデルが依存する場合に用いられます。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • Cavalli-Sforza and Edwards, Am J Hum Genet., 1967
  • ガウスモデル(Gaussian model)
    リンク先は「正規分布」です。正規分布の別名はガウス分布(Gaussian distribution)です。正規分布モデルの別名がガウスモデルだという理解でよいです。混合ガウスモデル(Gaussian mixture model; GMM)というのが同時に引っ掛かってきますが、これは1つのガウスモデルだけだと1つの山しか表現できないが、複数の山を表現したい場合にガウス分布が複数あるようなモデル(つまりGMM)を想定しておくのだと理解すればよいです。
  • 式(6.7)
  • 遺伝的浮動(genetic drift)
    無作為抽出の効果によって生じる、遺伝子プールにおけるアレル頻度の変化のことです。遺伝子プールは「繁殖可能な個体からなる集団がもつ遺伝子の総体」のことです。無作為(ランダム)抽出というのがポイントで、遺伝的浮動は集団から遺伝的変異を取り除く効果があります。この効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなるそうです。
page188
  • 山登り法(hill climbing)
    評価関数の極値を探索する探索アルゴリズムであり、最も代表的な局所探索法として知られています。
  • 尤度(likelihood)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • 遺伝的混合(genetic admixture)
    リンク先は「genetic admixture」です。以前に分岐または分離された遺伝系統(genetic lineages)が混合することです。混合により、新しい遺伝系統が集団に導入されます。なお、遺伝系統とは、祖先の遺伝型を派生型に接続する一連の突然変異のことです。
  • AIC
    赤池情報量規準(Akaike’s Information Criterion)のことです。リンク先は「赤池情報量規準」です。統計モデルの良さを評価するための指標の1つです。

  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • 集団分化
    「ある集団が分かれて別々の(サブ)集団になっていくこと」です。
  • 混合グラフ(admixture graph)
    集団間移住の情報を集団分化の樹上グラフに枝として加えたものです。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • SBC27
    カナダの州の1つがブリティッシュコロンビア州(British Columbia; BC)で略称がBCです。その南部(south BC)という意味でSBCです。
  • 遺伝的混合(genetic admixture)
    リンク先は「genetic admixture」です。以前に分岐または分離された遺伝系統(genetic lineages)が混合することです。混合により、新しい遺伝系統が集団に導入されます。なお、遺伝系統とは、祖先の遺伝型を派生型に接続する一連の突然変異のことです。
  • 花粉(pollen)
    種子植物門の植物の花の雄しべから出る粉状の細胞です。雄しべの先端にある葯(やく)という袋の中で形成されます。花粉は、雄しべの葯から出て雌しべの柱頭に付くまでの間の粉状のものの抽象的な呼び名です。花粉は基本的に多細胞体です。
  • 風媒植物(anemophilous plant)
    リンク先は「風媒花」です。花粉を運ぶ手段として風を利用する(風を媒介するという意味で風媒)花をもつ植物のことです。

6.3.3 多遺伝子形質の適応

  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 集団分化
    「ある集団が分かれて別々の(サブ)集団になっていくこと」です。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 遺伝的浮動(genetic drift)
    無作為抽出の効果によって生じる、遺伝子プールにおけるアレル頻度の変化のことです。遺伝子プールは「繁殖可能な個体からなる集団がもつ遺伝子の総体」のことです。無作為(ランダム)抽出というのがポイントで、遺伝的浮動は集団から遺伝的変異を取り除く効果があります。この効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなるそうです。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • GWAS
    リンク先は「Genome-wide association study」です。ゲノムワイド関連解析(genome-wide association study)の略です。ある集団内に存在する個体間の形質と塩基配列の違い(たとえばSNPや遺伝子型)との関連をゲノム全体で調べ,形質と関連する塩基配列の違いを統計的に検出する方法です。
  • 適応(adaptation)
    生物種がある環境のもとで生活するのに有利な形質を持っていることです。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • 多遺伝子適応(polygenic adaptation)
    「その形質に関わる数百から数千の遺伝子のアレル頻度が協調して一貫した方向でわずかに変化していくこと」という理解でよいです。
  • Pritchard et al., Curr Biol., 2010
  • Pritchard and Di Rienzo, Nat Rev Genet., 2010
  • Mathieson et al., Nature, 2015
  • Field et al., Science, 2016
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 混合グラフ(admixture graph)
    集団間移住の情報を集団分化の樹上グラフに枝として加えたものです。
  • PolyGraphRacimo et al., Genetics, 2018

  • 混合グラフ(admixture graph)
    集団間移住の情報を集団分化の樹上グラフに枝として加えたものです。
  • GWAS
    リンク先は「Genome-wide association study」です。ゲノムワイド関連解析(genome-wide association study)の略です。ある集団内に存在する個体間の形質と塩基配列の違い(たとえばSNPや遺伝子型)との関連をゲノム全体で調べ,形質と関連する塩基配列の違いを統計的に検出する方法です。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 有意(significance)
    リンク先は「有意」です。確率論・統計学の用語で、「確率的に偶然とは考えにくく、意味があると考えられる」ことです。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • 座位(locus)
    冠婚葬祭などで座る順番というのが原義です。座位は、実質的に遺伝子座と同じ意味です。遺伝子座は、この「座位」をゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • 適応(adaptation)
    生物種がある環境のもとで生活するのに有利な形質を持っていることです。
  • 選択圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を増していくことを選択(selection)といい、このような変化が起こる要因のこと指します。
page189
  • 図6.9
    北米の野生ポプラの形質の多遺伝子適応です。

  • 選択係数(selection coefficient)
    生存に有利なアレルが、集団内の他のアレルと比較してどの程度配偶子に対して寄与するかを0から1の範囲で示したものです。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • Turchin et al., Nat Genet., 2012
  • Mathieson and McVean, Genetics, 2013
  • マルコフ連鎖モンテカルロ法(Markov chain Monte Carlo methods; MCMC)
    未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質(これをマルコフ性といいます)を持つ確率過程をマルコフ過程(Markov process)といいます。確率過程の一種であるこのマルコフ過程のうち、とりうる状態が離散的(有限または可算)なものをマルコフ連鎖(Markov chain)といいます。MCMCは、求める確率分布を均衡分布として持つマルコフ連鎖を作成することによって確率分布のサンプリングを行う種々のアルゴリズムの総称です。たとえば、ギブスサンプリング(Gibbs sampling)は、MCMC法の1つです。
  • 事後分布(posterior distribution)
    リンク先は「事後確率」です。事後確率は、条件付き確率の一種であり、ベイズの定理により「事前確率に尤度関数の出力値を掛ける」ことで得られます。なお、事前確率は条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。事後分布は、事後確率の確率分布のことです。事後確率分布(posterior probability distribution)が正式名称ですが、通常は省略して事後分布といいます。

  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • 混合グラフ(admixture graph)
    集団間移住の情報を集団分化の樹上グラフに枝として加えたものです。
  • 図6.9
    北米の野生ポプラの形質の多遺伝子適応です。
  • ADd
    (葉の)向軸側気孔密度のことです。
  • ABd
    (葉の)背軸側気孔密度のことです。
  • DP さび病進行度のことです。
  • GWAS
    リンク先は「Genome-wide association study」です。ゲノムワイド関連解析(genome-wide association study)の略です。ある集団内に存在する個体間の形質と塩基配列の違い(たとえばSNPや遺伝子型)との関連をゲノム全体で調べ,形質と関連する塩基配列の違いを統計的に検出する方法です。
  • 有意(significance)
    リンク先は「有意」です。確率論・統計学の用語で、「確率的に偶然とは考えにくく、意味があると考えられる」ことです。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • 選択圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を増していくことを選択(selection)といい、このような変化が起こる要因のこと指します。

6.4 選択圧の推定

  • 生物圏(biosphere)
    生物が存在する領域のことです。
  • 水圏(hydrosphere)
    地球の水の構成を指す概念です。具体的に該当するのは、海洋、湖沼、河川、地下水、雪氷水、土壌水などです。水圏は地表の約71%を覆い、多数の動植物の生息の場です。水界ともいいます。
  • 大気圏(atmosphere)
    大気の球状層のことです。地球の表面を層状に覆っている気体を大気(atomosphere)といいますが、大気が存在する範囲を大気圏といいます。英単語は同じです。
  • 岩石圏(lithosphere)
    リンク先は「リソスフェア」です。地球の地殻とマントル最上部の固い岩盤を併せた部分の総称です。プレートとほぼ同じです。プレート、あるいはリソスフェアは14枚に分かれて地球表面を覆っており、それぞれが互いに相対運動しています。相対運動速度は場所によって異なり、年間数ミリメートルから10センチメートル程度です。
  • 地球(The Earth)
    人類を含む多種多様な生命体が生存する天体で、太陽系の惑星の1つです。太陽から3番目に近く、表面に水、空気中に酸素を大量に蓄え、多様な生物が生存することを特徴とする惑星です。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 適応(adaptation)
    生物種がある環境のもとで生活するのに有利な形質を持っていることです。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 中立説(neutral theory)
    リンク先は「中立進化説」です。分子レベルでの遺伝子の変化は大部分が自然淘汰に対して有利でも不利でもなく中立的であり、突然変異と遺伝的浮動が進化の主因であるとする説のことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 座位(locus)
    冠婚葬祭などで座る順番というのが原義です。座位は、実質的に遺伝子座と同じ意味です。遺伝子座は、この「座位」をゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。
  • 選択圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を増していくことを選択(selection)といい、このような変化が起こる要因のこと指します。
  • 変異(mutation)
    リンク先は「突然変異」です。DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 遺伝的浮動(genetic drift)
    無作為抽出の効果によって生じる、遺伝子プールにおけるアレル頻度の変化のことです。遺伝子プールは「繁殖可能な個体からなる集団がもつ遺伝子の総体」のことです。無作為(ランダム)抽出というのがポイントで、遺伝的浮動は集団から遺伝的変異を取り除く効果があります。この効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなるそうです。
  • 表現形質(phenotypic trait)
    表現型と形質を組み合わせた表現です。Marees et al., Int J Methods Psychiatr Res., 2018で使われています。
page190
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 集団遺伝学(population genetics)
    生物集団内における遺伝子の構成・頻度の変化に関する遺伝学の一分野です。
  • 分子系統学(molecular phylogenetics)
    DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を調べる学問です。(種内の多様性ではなく)種間レベルの違いを対象としています。

6.4.1 集団遺伝学的アプローチによる選択圧の推定

  • 集団遺伝学(population genetics)
    生物集団内における遺伝子の構成・頻度の変化に関する遺伝学の一分野です。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 多型(polymorphism)
    同一生物種の個体間で、形態や塩基が異なることを指します。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 系図(family tree)
    ある一族の代々の系統を書き表した図表のことです。系譜(けいふ)ともいいますが、系譜と言った場合は血縁関係のみならず、学芸の師匠から弟子への師承関係を表した図表をいう場合も多いです。なお、特定の家の家督相続の継承の系統(家系)を記した系図は家系図(かけいず)、家譜(かふ)ともいいます。
  • 合祖過程(coalescent process)
    リンク先は「合祖理論」です。ある集団から得られた複数個体の塩基配列において、ある遺伝子座におけるすべての対立遺伝子が時間的に遡って、その共通祖先のものに一致していく過程のことです。現在の情報から過去(のアレル)がどうだったかという経過を知るようなイメージです。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 図6.10
    合祖過程の模式図です。
  • サンプリング(sampling)
    リンク先は「標本調査」です。母集団から標本を抽出することです。母集団(ある解析対象生物種のすべての個体)をすべて調査対象とする全数調査は、予算的な面からも非現実的です。このため、現実的な数の菌株(strain)を抽出して、手元の情報のみから母集団の性質を統計学的に推定する方法が標本調査です。生命科学系のほぼすべての研究は、標本調査によって得られています。
  • 共通祖先(common descent)
    全生物種の系統樹を描いたときに、一番根っこ部分にある生物種のことだという理解でよいと思います。同一生物種内の個体間の違いの場合は、その生物種内の大元という理解でよいと思います。
  • 系統(lineage)
    進化してきた道筋が同じ生物種の集まりという理解でよいです。

  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • 正の選択(positive selection)
    この場合は「有利なアレルが選択されること」です。正の選択は、さらに方向性選択(他に比べて適応度の高いアレルが集団中で頻度を増加させていく一定の方向性を持った選択)と安定化選択(特定のアレルどうしのヘテロ接合に有利に働く様式の選択)に分けられます。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 系図(family tree)
    ある一族の代々の系統を書き表した図表のことです。系譜(けいふ)ともいいますが、系譜と言った場合は血縁関係のみならず、学芸の師匠から弟子への師承関係を表した図表をいう場合も多いです。なお、特定の家の家督相続の継承の系統(家系)を記した系図は家系図(かけいず)、家譜(かふ)ともいいます。
  • 適応度(fitness)
    生物学、とくに集団遺伝学など数理生物学分野で用いられる語であり、ざっくりいえばその生物個体がどれほどその生活する環境に適応しているかを示す値です。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • ヘテロ接合(heterozygous)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)の状態のことを指す言葉です。「ヘテロ接合である」とか「ヘテロ接合型」といいます(英語はheterozygousで共通)。そしてヘテロ接合の細胞や個体を「ヘテロ接合体(heterozygote)」といいます。
  • 共通祖先(common descent)
    全生物種の系統樹を描いたときに、一番根っこ部分にある生物種のことだという理解でよいと思います。同一生物種内の個体間の違いの場合は、その生物種内の大元という理解でよいと思います。
  • 図6.10b
    合祖過程の模式図です。
page191
  • 合祖過程(coalescent process)
    リンク先は「合祖理論」です。ある集団から得られた複数個体の塩基配列において、ある遺伝子座におけるすべての対立遺伝子が時間的に遡って、その共通祖先のものに一致していく過程のことです。現在の情報から過去(のアレル)がどうだったかという経過を知るようなイメージです。
  • TajimaのDTajima F., Genetics, 1989
    ランダムに進化(中立進化)するという理論上の過程を経たDNA配列とランダムでない進化の過程を経たDNA配列を区別する目的で用いられる統計的検定手法です。Tajima’s Dともよばれます。
    • Π:塩基多様度とよばれ、集団中の塩基配列間で観察される平均的な塩基相違数です。
    • S/a:Wattersonのθとよばれる統計量です(Watterson GA, Theor Popul Biol., 1975)。
    • S:塩基配列のアラインメントでの分離サイト(塩基多型の見られるサイト)の数です。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。

  • 標準偏差(standard deviation)
    データや確率変数の、平均値からの散らばり具合(ばらつき)を表す指標の1つです。分散(variance)の平方根(root)をとったものです。
  • 選択圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を増していくことを選択(selection)といい、このような変化が起こる要因のこと指します。
  • シングルトン(singleton)
    調べている集団のアラインメントにおいて、1つの配列のみで他と異なる変異になっていることを指します。シングルトン変異ともいいます。たとえば10本の配列のマルチプルアラインメントをとり、あるサイト(たとえば27番目の塩基)を眺めたときに、9本でGだが、1本のみTとなるようなサイトのことです。
  • 変異(mutation)
    リンク先は「突然変異」です。DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。

  • 系図(family tree)
    ある一族の代々の系統を書き表した図表のことです。系譜(けいふ)ともいいますが、系譜と言った場合は血縁関係のみならず、学芸の師匠から弟子への師承関係を表した図表をいう場合も多いです。なお、特定の家の家督相続の継承の系統(家系)を記した系図は家系図(かけいず)、家譜(かふ)ともいいます。
  • 集団動態(population dynamics)
    集団の経時変化という理解でよいです。集団のサイズが大きくなったり小さくなったり、サブ集団に分岐したり、またそれが混合したりといったような動きのことです。
  • 集団サイズ(population size)
    集団内の個体数のことです。
  • 任意交配(panmictic)
    自由交配と同じ意味で、人為的に掛け合わせているのではない、自然な状態での交配のことです。
  • 分集団(subpopulation)
    集団をさらにある特徴でわけたサブ集団のことです。たとえば「父親由来がGで母親由来がTのヒト達」が1つの分集団を形成し、「父親由来がでC母親由来がTのヒト達」も別の分集団を形成しているという風に解釈すればよいです。
  • TajimaのDTajima F., Genetics, 1989
    ランダムに進化(中立進化)するという理論上の過程を経たDNA配列とランダムでない進化の過程を経たDNA配列を区別する目的で用いられる統計的検定手法です。Tajima’s Dともよばれます。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • シーケンシング(sequencing)
    リンク先は「DNAシークエンシング」です。DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • 座位(locus)
    冠婚葬祭などで座る順番というのが原義です。座位は、実質的に遺伝子座と同じ意味です。遺伝子座は、この「座位」をゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。

6.4.2 分子系統学的アプローチによる選択圧の推定

  • 系図(family tree)
    ある一族の代々の系統を書き表した図表のことです。系譜(けいふ)ともいいますが、系譜と言った場合は血縁関係のみならず、学芸の師匠から弟子への師承関係を表した図表をいう場合も多いです。なお、特定の家の家督相続の継承の系統(家系)を記した系図は家系図(かけいず)、家譜(かふ)ともいいます。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 種分化(speciation)
    新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
  • 分子系統学(molecular phylogenetics)
    DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を調べる学問です。(種内の多様性ではなく)種間レベルの違いを対象としています。
  • 選択圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を増していくことを選択(selection)といい、このような変化が起こる要因のこと指します。
page192
  • タンパク質コード遺伝子(protein-coding gene)
    リンク先は「コドン」です。基本的にcoding sequence (CDS)のことだという理解でよいです。1970-80年代頃に行われていたアミノ酸配列比較の流れをくんでいるので、その当時の遺伝子の定義をイメージすることが重要です。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 非同義置換(nonsynonymous substitution)
    タンパク質コード遺伝子内で起こる塩基置換のうち、アミノ酸の種類が変わるものを指します。たとえば3つ組のコドンのうち、AGCはセリン(serine)をコードしますが、3番目の塩基であるCがAに置換するとAGAになります。AGAはアルギニン(arginine)をコードするのでアミノ酸の種類が変わることがわかります(同義でないという意味で非同義だと解釈すればよいです)。このような変異(つまり塩基置換)のことを非同義置換といいます。
  • 同義置換(synonymous substitution)
    タンパク質コード遺伝子内で起こる塩基置換のうち、アミノ酸の種類が変わらないものを指します。たとえば3つ組のコドンのうち、AGCはセリン(serine)をコードしますが、3番目の塩基であるCがUに置換するとAGUになります。AGUはセリン(serine)をコードするので、アミノ酸の種類が変わらない(つまり同義)ことがわかります。このような変異(つまり塩基置換)のことを同義置換といいます。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 変異(mutation)
    リンク先は「突然変異」です。DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • コドン(codon)
    塩基配列がアミノ酸配列に翻訳されるときの、各アミノ酸に対応する3つの塩基配列のことです。
  • カウント法:Miyata and Yasunaga, J Mol Evol., 1980
  • 最尤法(method of maximum likelihood)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法です。比較したい複数の生物種由来のアミノ酸配列または塩基配列を並べて(アラインメントをとる、みたいな表現をします)、生物種間で違いのあるサイト(何番目の塩基か、みたいな理解でよい)に着目して系統樹を作成したいのですが、この際に「ある分子(例:アミノ酸残基)が別の分子に置換する際に、分子の種類によって置換しやすさが異なる」のです。似た生物種どうしだと違いのあるサイト数自体が少なく、遠く離れた生物種どうしであるほど異なるサイト数が増える傾向となります。置換分子の組み合わせによっても置換しやすさに違いがあるため、樹形図の可能性は無数にあります。最尤法(最尤推定法の略)は、多くの可能性の中から一番尤もらしい選択肢を得るための有力な方法です。EMアルゴリズム(Expectation-Maximization algorithm)は、確率モデルのパラメータを最尤推定する手法の1つであり、観測不可能な潜在変数に確率モデルが依存する場合に用いられます。
  • トランスバージョン(transversion)
    リンク先は「点突然変異」です。トランスバージョンによって引き起こされる同義置換(トランスバージョン変異)とは、プリン塩基とピリミジン塩基間の置換のことを指します。
  • トランジション(transition)
    リンク先は「点突然変異」です。トランジションによって引き起こされる同義置換(トランジション変異)とは、同じプリン塩基内で異なるものに変わる置換(AからG、およびGからA) あるいは同じピリミジン塩基内で異なるものに変わる置換(CからU/T、およびU/TからC)のことを指します。
  • Goldman and Yang, Mol Biol Evol., 1994
  • Yang Z., Mol Biol Evol., 1998
    枝モデルの論文です。
  • 速度行列(rate matrix)
    リンク先は「Transition rate matrix」です。推移速度行列とか推移率行列とよばれるものに相当します。本文中でも後述されていますが、入力が塩基配列のときはA, C, G, Tの4種類あるので4×4の行列、アミノ酸配列のときは20種類あるので20×20の行列になります。行列中の各要素の数値が、対応する行と列の分子間での置換しやすさを表す数値になります。
  • 遷移確率(transition probability)
    この場合は、ある状態(塩基)から別の状態(塩基)へと遷移する確率という理解でよいです。
  • 図6.11
    枝モデルによって推定したアマツバメ目のミトコンドリアゲノムにかかる選択圧の変動です。
  • アマツバメ目(Apodiformes)
    鳥類の分類目の1つです。
  • ミトコンドリア(mitochondria)
    ほとんどすべての真核生物の細胞の中に存在する、細胞小器官の1つです。
  • ハチドリ科(Trochilidae)
    リンク先は「ハチドリ」です。空中の一点に静止した状態になることができます(ホバリング飛行性)。

  • 図6.11
    枝モデルによって推定したアマツバメ目のミトコンドリアゲノムにかかる選択圧の変動です。
page193
  • ホバリング(hovering)
    リンク先は「空中浮揚」です。作用・反作用に基づいて、何か質量のある物質を噴射することで、物体(この場合はハチドリ)が発する噴射力と物体に掛かる重力などの他の力が釣り合って物体が空中に静止している状態のことです。
  • 代謝(metabolism)
    生命の維持のために有機体が行う、外界から取り入れた無機物や有機化合物を素材として行う一連の合成や化学反応のことです。
  • 好気呼吸(aerobic respiration)
    リンク先は「呼吸」です。酸素を取り入れて二酸化炭素を放出する通常の呼吸のことです。対義語は嫌気呼吸(最終電子受容体として酸素を用いない呼吸の総称)です。
  • アマツバメ科(Apodidae)
    鳥綱アマツバメ目に属する科のことです。空中の一点に静止した状態にはなりません(非ホバリング飛行性)。
  • ズクヨタカ科(Aegothelidae)
    鳥類アマツバメ目の科のことです。空中の一点に静止した状態にはなりません(非ホバリング飛行性)。

  • 同義置換(synonymous substitution)
    タンパク質コード遺伝子内で起こる塩基置換のうち、アミノ酸の種類が変わらないものを指します。たとえば3つ組のコドンのうち、AGCはセリン(serine)をコードしますが、3番目の塩基であるCがUに置換するとAGUになります。AGUはセリン(serine)をコードするので、アミノ酸の種類が変わらない(つまり同義)ことがわかります。このような変異(つまり塩基置換)のことを同義置換といいます。
  • 非同義置換(nonsynonymous substitution)
    タンパク質コード遺伝子内で起こる塩基置換のうち、アミノ酸の種類が変わるものを指します。たとえば3つ組のコドンのうち、AGCはセリン(serine)をコードしますが、3番目の塩基であるCがAに置換するとAGAになります。AGAはアルギニン(arginine)をコードするのでアミノ酸の種類が変わることがわかります(同義でないという意味で非同義だと解釈すればよいです)。このような変異(つまり塩基置換)のことを非同義置換といいます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 正の選択(positive selection)
    この場合は「有利なアレルが選択されること」です。正の選択は、さらに方向性選択(他に比べて適応度の高いアレルが集団中で頻度を増加させていく一定の方向性を持った選択)と安定化選択(特定のアレルどうしのヘテロ接合に有利に働く様式の選択)に分けられます。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 枝モデル:Yang Z., Mol Biol Evol., 1998
  • サイトモデル:Nielsen and Yang, Genetics, 1998
  • 最尤推定(maximum likelihood estimation)
    与えられたデータからそれが従う確率分布の母数を点推定することです。
  • 尤度比検定(likelihood ratio test)
    尤度比を検定統計量として用いる統計学的検定の総称です。尤度比とは、帰無仮説が成り立つとした条件下での尤度関数の最大値を、その条件がない場合の尤度関数の最大値で割った比のことです。
  • 統計的有意性(statistical significance)
    この場合は、「正の選択」が偶然のみによって生ずるとは考えにくいことが尤度比検定によって示されたことを意味します。
  • コドン(codon)
    塩基配列がアミノ酸配列に翻訳されるときの、各アミノ酸に対応する3つの塩基配列のことです。
  • Yang and Nielsen, Mol Biol Evol., 2002
    枝-サイトモデルの論文です。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 系統(lineage)
    進化してきた道筋が同じ生物種の集まりという理解でよいです。
  • 図6.11
    枝モデルによって推定したアマツバメ目のミトコンドリアゲノムにかかる選択圧の変動です。
  • ハチドリ科(Trochilidae)
    リンク先は「ハチドリ」です。空中の一点に静止した状態になることができます(ホバリング飛行性)。
  • ミトコンドリア(mitochondria)
    ほとんどすべての真核生物の細胞の中に存在する、細胞小器官の1つです。
  • タンパク質コード遺伝子(protein-coding gene)
    リンク先は「コドン」です。基本的にcoding sequence (CDS)のことだという理解でよいです。1970-80年代頃に行われていたアミノ酸配列比較の流れをくんでいるので、その当時の遺伝子の定義をイメージすることが重要です。
  • Kosakovsky Pond et al., Mol Biol Evol., 2011
    枝-サイトモデルの改良版論文です。

  • 分子系統学(molecular phylogenetics)
    DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を調べる学問です。(種内の多様性ではなく)種間レベルの違いを対象としています。
  • 座位(locus)
    冠婚葬祭などで座る順番というのが原義です。座位は、実質的に遺伝子座と同じ意味です。遺伝子座は、この「座位」をゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。
  • 選択圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を増していくことを選択(selection)といい、このような変化が起こる要因のこと指します。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • ゲノム系統学(phylogenomics)
    全ゲノムレベルのデータを用いて系統を調べる(系統樹推定を行う)学問のことです。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 非コード領域(non-coding region)
    「タンパク質コード領域ではない部分」という理解でよいです。
  • 遺伝子発現(gene expression)
    遺伝子の情報が細胞における構造および機能に変換される過程のことです。
  • 超保存領域
    などの高次分類群の間でも非常によく保存された非コード領域のことです。
page194

6.5 分岐年代推定

  • 分子時計(molecular clock)
    生物種間の分子的な違いを比較し、進化過程で分岐した年代を推定したもの。「生物種間の類縁度が高いほどアミノ酸配列が異なる個数は少ない」という事実から、配列の類似性を頼りにして分岐年代が推定できるのでは?!というアイデアのことを指します。
  • 中立説(neutral theory)
    リンク先は「中立進化説」です。分子レベルでの遺伝子の変化は大部分が自然淘汰に対して有利でも不利でもなく中立的であり、突然変異と遺伝的浮動が進化の主因であるとする説のことです。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • 絶滅(extinction)
    1つの生物種のすべての個体が死ぬことによって、その種が絶えることです。種全体に対してではなく個体群に対して用いることもあります。ただし野生のものも含めてすべての個体の死亡を確認するのは難しく、絶滅したとされた種の個体が後になって生存を確認されることもあります。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 種分化(speciation)
    新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
  • 集団動態(population dynamics)
    集団の経時変化という理解でよいです。集団のサイズが大きくなったり小さくなったり、サブ集団に分岐したり、またそれが混合したりといったような動きのことです。
  • 寄生(parasitism)
    共生(symbiosis)(複数種の生物が相互関係を持ちながら同所的に生活する現象)の一種であり、ある生物が他の生物から栄養やサービスを持続的かつ一方的に収奪する場合を指す言葉です。なお、収奪される側は宿主または寄主とよばれます。カマキリとハリガネムシの関係でいえば、ハリガネムシが寄生する側となります。
  • 宿主(host)
    寄生虫や菌類等が寄生、又は共生する相手の生物のことです。カマキリとハリガネムシの関係でいえば、カマキリが寄生される側(つまり宿主)となります。「しゅくしゅ」と読みます。
  • 共進化(co-evolution)
    1つの生物学的要因の変化が引き金となって、関連する別の生物学的要因が変化することです。ここでは、2種の生物が互いに依存して進化する相利共生(mutualism)の意味合いのほうが強いです。
  • 多重遺伝子族(multigene family)
    リンク先は「遺伝子ファミリー」です。たった1つの遺伝子の複製によって形成された、幾つかの類似遺伝子の組み合わせのことです。共通の祖先遺伝子から派生した遺伝子の集合という理解でもよいです。典型的には類似の配列と機能の遺伝子の集まりですが、配列や機能が高度に異なる場合もあります。前者の例としては、ヘモグロビンをイメージすればよいです。
  • Zuckerkandl E, Pauling LB. (1962) Molecular disease, evolution, and genic heterogeneity. In Kasha, M.; Pullman, B (eds.). Horizons in Biochemistry. Academic Press, New York. pp. 189–225.
  • Sarich and Wilson, Proc Natl Acad Sci USA., 1967
  • 抗原抗体反応(Antigen-antibody reaction)
    抗原(antigen)と抗体(antibody)間に起こる結合のことです。インフルエンザとかコロナワクチンをイメージしてもらえればよいですが、ワクチン接種で体内に入れるものが抗原(ウイルスを無毒化したもの)で、体内で作られ異物である抗原に結合して除去する働きをもつものが抗体になります。
  • 免疫学(immunology)
    生体の持つ免疫機能の解明を目的とする学問分野のことです。
  • チンパンジー(Pan troglodytes)
    哺乳綱霊長目ヒト科チンパンジー属に分類される類人猿のことです。
  • ゴリラ(Gorilla)
    霊長目ヒト科ゴリラ属に分類される構成種の総称です。
  • 化石(fossil)
    地質時代に生息していた生物が死骸となって永く残っていたもの、もしくはその活動の痕跡のことです。
  • 類人猿(ape)
    ヒトに似た形態を持つ大型と中型の霊長類を指す通称名です。生物学的な分類名称ではありませんが、生物の分類上都合が良いので霊長類学などで使われている言葉です。

6.5.1 分子時計の検定法

  • 分子時計(molecular clock)
    生物種間の分子的な違いを比較し、進化過程で分岐した年代を推定したもの。「生物種間の類縁度が高いほどアミノ酸配列が異なる個数は少ない」という事実から、配列の類似性を頼りにして分岐年代が推定できるのでは?!というアイデアのことを指します。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 系統(lineage)
    進化してきた道筋が同じ生物種の集まりという理解でよいです。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • 検定(test)
    リンク先は「仮説検定」です。母集団分布の母数に関する仮説を標本から検証する統計学的方法の1つです。
  • 尤度比検定(likelihood ratio test)
    尤度比を検定統計量として用いる統計学的検定の総称です。尤度比とは、帰無仮説が成り立つとした条件下での尤度関数の最大値を、その条件がない場合の尤度関数の最大値で割った比のことです。
  • Felsenstein J., J Mol Evol., 1981
  • 帰無仮説(null hypothesis)
    リンク先は「仮説検定」です。統計的仮説検定を行う際に、拠り所として設定する仮説という理解でよいです。この仮説が正しいと仮定したうえで、その仮説に従う母集団から実際に観察された標本が抽出される確率を求めて、その確率が非常に小さければ統計的に有意だと判定します。分子時計は、「生物種間の類縁度が高いほどアミノ酸配列が異なる個数は少ない」ことを頼りにしますので、分子時計を帰無仮説として用いる場合は「 すべての枝が一定の進化速度をもつ 」と設定するイメージでよいです。これに対する対立仮説が 「すべての枝が固有の進化速度をもつ」 となります。帰無仮説が棄却される場合は分子時計を用いて分岐年代を推定することはできず、緩和型分子時計などの手法を用いる必要があります。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 尤度(likelihood)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • 最尤推定(maximum likelihood estimation)
    与えられたデータからそれが従う確率分布の母数を点推定することです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 図6.12
    系統樹の樹形に関するパラメータ数の違いです。

  • 分子時計(molecular clock)
    生物種間の分子的な違いを比較し、進化過程で分岐した年代を推定したもの。「生物種間の類縁度が高いほどアミノ酸配列が異なる個数は少ない」という事実から、配列の類似性を頼りにして分岐年代が推定できるのでは?!というアイデアのことを指します。
  • 尤度(likelihood)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • 共通祖先(common descent)
    全生物種の系統樹を描いたときに、一番根っこ部分にある生物種のことだという理解でよいと思います。同一生物種内の個体間の違いの場合は、その生物種内の大元という理解でよいと思います。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 系統(lineage)
    進化してきた道筋が同じ生物種の集まりという理解でよいです。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。
  • 自由度(degree of freedom)
    変数のうち独立に選べるものの数のことです。
  • 尤度比(likelihood ratio)
    帰無仮説が成り立つとした条件下での尤度関数の最大値を、その条件がない場合の尤度関数の最大値で割った比のことです。
  • 漸近的
    「近似的に成り立つ」という理解でよいです。
  • カイ二乗分布(chi-squared distribution)
    確率分布の一種であり、独立に標準正規分布に従うk個の確率変数を\(X_1\), …, \(X_k\)としたとき、各確率変数\(X_i\) (\(i\) = 1, …, \(k\))を二乗して和をとった統計量\(Z\)が従う分布のことを「自由度kのカイ二乗分布」といいます。
  • 尤度比検定(likelihood ratio test)
    尤度比を検定統計量として用いる統計学的検定の総称です。尤度比とは、帰無仮説が成り立つとした条件下での尤度関数の最大値を、その条件がない場合の尤度関数の最大値で割った比のことです。
page195
  • 図6.12
    系統樹の樹形に関するパラメータ数の違いです。

6.5.2 最尤法による局所的分子時計と緩和型分子時計

page196
  • Yang Z, Acta Zool Sin., 2004
  • 幾何ブラウン運動(geometric Brownian motion; GBM)
    対数変動が平均μ分散σ2のブラウン運動(液体や気体中に浮遊する微粒子が不規則に運動する現象のこと)にしたがう連続時間の確率過程のことです。

  • 最尤法(method of maximum likelihood)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法です。比較したい複数の生物種由来のアミノ酸配列または塩基配列を並べて(アラインメントをとる、みたいな表現をします)、生物種間で違いのあるサイト(何番目の塩基か、みたいな理解でよい)に着目して系統樹を作成したいのですが、この際に「ある分子(例:アミノ酸残基)が別の分子に置換する際に、分子の種類によって置換しやすさが異なる」のです。似た生物種どうしだと違いのあるサイト数自体が少なく、遠く離れた生物種どうしであるほど異なるサイト数が増える傾向となります。置換分子の組み合わせによっても置換しやすさに違いがあるため、樹形図の可能性は無数にあります。最尤法(最尤推定法の略)は、多くの可能性の中から一番尤もらしい選択肢を得るための有力な方法です。EMアルゴリズム(Expectation-Maximization algorithm)は、確率モデルのパラメータを最尤推定する手法の1つであり、観測不可能な潜在変数に確率モデルが依存する場合に用いられます。
  • 点推定(point estimation)
    推計統計学において観測データに基づいて未知量に対する良好な推定(推定量)と見なせる値(統計量)を計算する手法とその結果のことです。平均値や中央値がよく用いられますが、事前分布がなく尤度関数の最頻値で推定するのが最尤推定です。

6.5.3 階層ベイズによる緩和型分子時計

  • Thorne et al., Mol Biol Evol., 1998
    階層ベイズを用いた緩和型分子時計の論文です。
  • 階層ベイズ(hierarchial Bayesian)
    リンク先は「ベイズ階層モデル(Bayesian hierarchial modeling)」です。複数のレベルで記述された階層形式の統計モデルです。ベイズ法を用いて事後分布のパラメータを推定します。サブモデルを組み合わせて階層的なモデルを形成し、ベイズの定理を用いて観測データと統合して、すべての不確実性を考慮した事後分布を得ます。
  • 分子時計(molecular clock)
    生物種間の分子的な違いを比較し、進化過程で分岐した年代を推定したもの。「生物種間の類縁度が高いほどアミノ酸配列が異なる個数は少ない」という事実から、配列の類似性を頼りにして分岐年代が推定できるのでは?!というアイデアのことを指します。
  • 事前分布(prior distribution)
    リンク先は「事前確率」です。事前確率は条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。事前分布は、事前確率の確率分布のことであり、事前確率分布の略です。「データ観測前のパラメータの不確実性を表現する確率分布」という理解でもよいと思います。対になる用語は事後分布です。
  • 超パラメータ(hyperparameter)
    リンク先は「ハイパーパラメータ」です。推論や予測の枠組みの中で決定されないパラメータのことです。多くの場合、あらかじめ値の候補を用意しておき、各候補に対して、それを一定の値として一旦採用して予測や推論を行い、最終的に最も性能の良いモデルのハイパーパラメータを採用します。K-meansクラスタリングがわかるヒトは、Kの値のことだと思えばよいです。
  • 図6.13a
    階層ベイズによる緩和型分子時計を用いたハチドリ科の分岐年代推定です。
  • 最尤法(method of maximum likelihood)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法です。比較したい複数の生物種由来のアミノ酸配列または塩基配列を並べて(アラインメントをとる、みたいな表現をします)、生物種間で違いのあるサイト(何番目の塩基か、みたいな理解でよい)に着目して系統樹を作成したいのですが、この際に「ある分子(例:アミノ酸残基)が別の分子に置換する際に、分子の種類によって置換しやすさが異なる」のです。似た生物種どうしだと違いのあるサイト数自体が少なく、遠く離れた生物種どうしであるほど異なるサイト数が増える傾向となります。置換分子の組み合わせによっても置換しやすさに違いがあるため、樹形図の可能性は無数にあります。最尤法(最尤推定法の略)は、多くの可能性の中から一番尤もらしい選択肢を得るための有力な方法です。EMアルゴリズム(Expectation-Maximization algorithm)は、確率モデルのパラメータを最尤推定する手法の1つであり、観測不可能な潜在変数に確率モデルが依存する場合に用いられます。
  • 事後確率(posterior probability)
    条件付き確率の一種であり、ベイズの定理により「事前確率に尤度関数の出力値を掛ける」ことで得られます。なお、事前確率は条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。
  • Thorneらの論文
    Thorne et al., Mol Biol Evol., 1998のことです。
  • ディリクレ分布(Dirichlet distribution)
    連続型の確率分布です。ベータ分布を多変量に拡張して一般化した形をしており、そのため多変量ベータ分布ともよばれます。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 種分化(speciation)
    新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
  • 絶滅(extinction)
    1つの生物種のすべての個体が死ぬことによって、その種が絶えることです。種全体に対してではなく個体群に対して用いることもあります。ただし野生のものも含めてすべての個体の死亡を確認するのは難しく、絶滅したとされた種の個体が後になって生存を確認されることもあります。
  • 出生死滅過程やYule過程
    出生死滅過程とは、単位時間あたりの系統ごとの種分化率と絶滅率の期待値の一定性を仮定した連続時間マルコフ過程のことです。Yule過程は、純出生過程ともよばれ、出生死滅過程の特殊なケースです。リンク先の別ファイルで詳細に解説しています。
  • 集団動態(population dynamics)
    集団の経時変化という理解でよいです。集団のサイズが大きくなったり小さくなったり、サブ集団に分岐したり、またそれが混合したりといったような動きのことです。
  • 合祖過程(coalescent process)
    リンク先は「合祖理論」です。ある集団から得られた複数個体の塩基配列において、ある遺伝子座におけるすべての対立遺伝子が時間的に遡って、その共通祖先のものに一致していく過程のことです。現在の情報から過去(のアレル)がどうだったかという経過を知るようなイメージです。
  • 化石(fossil)
    地質時代に生息していた生物が死骸となって永く残っていたもの、もしくはその活動の痕跡のことです。

  • 事前確率(prior probability) 条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。
  • Thorne et al., Mol Biol Evol., 1998
    階層ベイズを用いた緩和型分子時計の論文です。
  • 幾何ブラウン運動(geometric Brownian motion; GBM)
    対数変動が平均μ分散σ2のブラウン運動(液体や気体中に浮遊する微粒子が不規則に運動する現象のこと)にしたがう連続時間の確率過程のことです。
page197
  • 図6.13
    階層ベイズによる緩和型分子時計を用いたハチドリ科の分岐年代推定です。

  • Rannala and Yang, Syst Biol., 2007
    独立速度モデルの論文です。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。

  • 尤度(likelihood)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 系統(lineage)
    進化してきた道筋が同じ生物種の集まりという理解でよいです。
  • 事前確率(prior probability) 条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。
page198
  • 事後確率(posterior probability)
    条件付き確率の一種であり、ベイズの定理により「事前確率に尤度関数の出力値を掛ける」ことで得られます。なお、事前確率は条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。
  • 最高事後密度信用区間
    一般的な統計学においては、母集団の真の値は未知の点です。信頼区間とは、この点が存在することをある精度で確信できる区間であり、95%信頼区間とは、信頼区間を繰り返し推定した場合95%の確率で真の値が存在する区間のことです。これに対してベイズ統計学では、母集団の真の値を確率分布として理解します。事後確率分布の95%を占める、確率密度分布が最も大きくなる区間を95%最高事後密度信用区間といいます。ベイズ統計学では、母集団の真の値はこの区間に95%の確率で存在する、と解釈します。
  • 階層ベイズ(hierarchial Bayesian)
    リンク先は「ベイズ階層モデル(Bayesian hierarchial modeling)」です。複数のレベルで記述された階層形式の統計モデルです。ベイズ法を用いて事後分布のパラメータを推定します。サブモデルを組み合わせて階層的なモデルを形成し、ベイズの定理を用いて観測データと統合して、すべての不確実性を考慮した事後分布を得ます。
  • MCMC
    マルコフ連鎖モンテカルロ法(Markov chain Monte Carlo methods)のことです。未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質(これをマルコフ性といいます)を持つ確率過程をマルコフ過程(Markov process)といいます。確率過程の一種であるこのマルコフ過程のうち、とりうる状態が離散的(有限または可算)なものをマルコフ連鎖(Markov chain)といいます。MCMCは、求める確率分布を均衡分布として持つマルコフ連鎖を作成することによって確率分布のサンプリングを行う種々のアルゴリズムの総称です。たとえば、ギブスサンプリング(Gibbs sampling)は、MCMC法の1つです。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • Thorne et al., Mol Biol Evol., 1998
    階層ベイズを用いた緩和型分子時計の論文です。
  • 分子時計(molecular clock)
    生物種間の分子的な違いを比較し、進化過程で分岐した年代を推定したもの。「生物種間の類縁度が高いほどアミノ酸配列が異なる個数は少ない」という事実から、配列の類似性を頼りにして分岐年代が推定できるのでは?!というアイデアのことを指します。
  • 最尤推定(maximum likelihood estimation)
    与えられたデータからそれが従う確率分布の母数を点推定することです。
  • 分散(variance)
    リンク先は「分散 (統計学)」です。「データの標準偏差の二乗のこと」であり「平均値からの偏差の二乗の平均」です。
  • 共分散(covariance)
    2組の対応するデータ(要素数が同じ2つのベクトル)間での、平均からの偏差の積の平均値のことです。
  • 尤度関数(likelihood function)
    手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • 周辺尤度(marginal likelihood)
    リンク先は「Marginal likelihood」です。本文中で、「t、r、θについての高次積分により得られる」と書かれていることからもある程度わかりますが、「t、r、θといったパラメータについて積分によって消去すること」を「周辺化する(marginalize)」といいます。つまりXが与えられたら、t、r、θといったパラメータも積分消去できるのでf(X)を計算することができる。f(X)は6.5.3項の最初で示されている事後確率を得る数式の分母に相当するものなので、事後確率を得ることができるということです。
  • ベイズ因子(Bayes factor)
    比較したい2つのモデルM1とM2のどちらを選択すべきかという問題を取り扱いたいときに、モデルM1でデータXの結果が得られる確率P(X|M1)を分子(numerator)、モデルM2でデータXの結果が得られる確率P(X|M2)を分母(denominator)として、比をとったものがベイズ因子Kです。Kの値が1よりも大きいほどM1のほうがM2よりもよいと判断します。この場合は、M1が自己相関モデルに、そしてM2が独立速度モデルに対応します。ベイズ因子K = P(X|M1)/P(X|M2)は、100以上のときにM1とM2の間に決定的な違いがあると解釈されるため、今回のln(K) = 82.21、すなわちK = 5.05×1035という数値は、自己相関モデルは独立速度モデルよりも決定的にデータへのフィッティングが良いと解釈します。
  • 最尤法(method of maximum likelihood)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法です。比較したい複数の生物種由来のアミノ酸配列または塩基配列を並べて(アラインメントをとる、みたいな表現をします)、生物種間で違いのあるサイト(何番目の塩基か、みたいな理解でよい)に着目して系統樹を作成したいのですが、この際に「ある分子(例:アミノ酸残基)が別の分子に置換する際に、分子の種類によって置換しやすさが異なる」のです。似た生物種どうしだと違いのあるサイト数自体が少なく、遠く離れた生物種どうしであるほど異なるサイト数が増える傾向となります。置換分子の組み合わせによっても置換しやすさに違いがあるため、樹形図の可能性は無数にあります。最尤法(最尤推定法の略)は、多くの可能性の中から一番尤もらしい選択肢を得るための有力な方法です。EMアルゴリズム(Expectation-Maximization algorithm)は、確率モデルのパラメータを最尤推定する手法の1つであり、観測不可能な潜在変数に確率モデルが依存する場合に用いられます。
  • 図6.13
    階層ベイズによる緩和型分子時計を用いたハチドリ科の分岐年代推定です。
  • ハチドリ科(Trochilidae)
    リンク先は「ハチドリ」です。空中の一点に静止した状態になることができます(ホバリング飛行性)。

  • 絶対時間(absolute time)
    リンク先は「絶対時間と絶対空間」です。ニュートンによれば、「絶対時間はいかなる観察者とも無関係に存在し、宇宙のいかなる場所でも一定の早さで進んでいく」ものだそうです。
  • 化石(fossil)
    地質時代に生息していた生物が死骸となって永く残っていたもの、もしくはその活動の痕跡のことです。
  • Yang and Rannala, Mol Biol Evol., 2006
  • 事前分布(prior distribution)
    リンク先は「事前確率」です。事前確率は条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。事前分布は、事前確率の確率分布のことであり、事前確率分布の略です。「データ観測前のパラメータの不確実性を表現する確率分布」という理解でもよいと思います。対になる用語は事後分布です。
  • ガンマ分布(gamma distribution)
    形状母数 k、尺度母数 θ の2つの母数で特徴づけられる連続確率分布の一種です。本文中では形状母数 はαになっています。枝の長さとの識別性を担保するために、期待値1のガンマ分布を考えています。本文中のE[vh] = 1が「期待値1」に相当します。
  • 切断コーシー分布(truncated Cauchy distribution)
    リンク先は「コーシー分布」です。連続確率分布の一種です。平均と分散の2つのパラメータで定まる正規分布と形状が似ていますが、この分布は、最頻値を与える位置母数(平均に相当)と半値半幅を与える尺度母数の2つのパラメータで定まります。「切断」は対応する英語(truncated)からも想像できますが、「確率変数の定義域が有限」だということに相当します。ですので、切断コーシー分布は、「確率変数の定義域が有限なコーシー分布」だということです。
  • Claramunt and Cracraft, Sci Adv., 2015
  • 尤度関数(likelihood function)
    手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。

  • RNAウイルス(RNA virus)
    ゲノムとしてリボ核酸(RNA)をもつウイルスのことです。
  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • ウイルス(virus)
    他生物の細胞を利用して自己を複製させる、極微小な感染性の構造体で、タンパク質の殻とその内部に入っている核酸からなります。生命の最小単位である細胞やその生体膜である細胞膜も持たないこと、小器官がないこと、自己増殖することがないことから、生物かどうかについて議論があります。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • 化石(fossil)
    地質時代に生息していた生物が死骸となって永く残っていたもの、もしくはその活動の痕跡のことです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • TipDate法
    末端節の年代そのものを分岐年代の制約条件として用いる手法のことです。
page199
  • 階層ベイズ(hierarchial Bayesian)
    リンク先は「ベイズ階層モデル(Bayesian hierarchial modeling)」です。複数のレベルで記述された階層形式の統計モデルです。ベイズ法を用いて事後分布のパラメータを推定します。サブモデルを組み合わせて階層的なモデルを形成し、ベイズの定理を用いて観測データと統合して、すべての不確実性を考慮した事後分布を得ます。
  • 古生物学(paleontology)
    地質学の一分野で、過去に生きていた生物(古生物)を研究する学問です。
  • 事後確率(posterior probability)
    条件付き確率の一種であり、ベイズの定理により「事前確率に尤度関数の出力値を掛ける」ことで得られます。なお、事前確率は条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。
  • 事前確率(prior probability) 条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。

  • 例題6.2
    1ページ目が問題、2ページ目以降が解答例です。
    • hummingbird_12mtCDS.fas
      5ページ目で言及されているハチドリのミトコンドリア遺伝子のアラインメントファイルです。
    • partition.txt
      5ページ目で言及されているパーテーションファイルです。
    • help.zip
      23ページ目で言及されている本解析で用いたコントロールファイルです。

6.6 分子系統樹

  • この節で用いたデータ・図・Rスクリプトは、desaturase.zipの中にあります。
  • 生活史(life history)
    生物の一生における生活の有り様を見渡す時に、それを環境とのかかわりの元でまとめて呼ぶ呼び方です。
  • 形態(morph)
    組織だっている物事を外観からみた有り様のことです。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 適応(adaptation)
    進化という観点では「生物種がある環境のもとで生活するのに有利な形質を持っていること」を指しますが、この場合は「何らかの状況にふさわしいことや合致していること」を指します。
  • 淘汰圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を減少させていくことを淘汰(selection)といい、このような変化が起こる要因のこと指します。 選択圧と英語が同じですが、選択と淘汰は表裏一体であることを考慮すれば妥当…かもしれません。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • 適応度(fitness)
    生物学、とくに集団遺伝学など数理生物学分野で用いられる語であり、ざっくりいえばその生物個体がどれほどその生活する環境に適応しているかを示す値です。
  • 中立な突然変異(neutral mutation)
    リンク先は「中立進化説」です。突然変異(DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベント)の大部分が自然淘汰に対して有利でも不利でもなく中立的であるということです。
  • 収斂進化(convergent evolution)
    似たような場所で似たような生活をしている異なる種どうしが、長い年月をかけて似た性質や特徴(つまり形質)を独立に獲得していく現象のことです。 この「似たような場所で似たような生活をしている」というのは、ある生物種が生活を営む上で利用する環境的な要因とも捉えることができますが、これを生態的地位あるいはニッチ(niche)といいます。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • 鱗翅目(Lepidoptera)
    リンク先は「チョウ目」です。昆虫類の分類群の1つであり、チョウやガがここに分類されます。
  • 性フェロモン(sex pheromone)
    リンク先は「フェロモン」です。フェロモンは、動物または微生物が体内で生成して体外に分泌後、同種の他の個体に一定の行動や発育の変化を促す生理活性物質のことです。性フェロモンは、交尾目的で出すフェロモンのことです。
  • 不飽和化酵素(desaturase)
    リンク先は「デサチュラーゼ」です。炭化水素鎖から2個の水素原子を除去する酵素です。炭素-炭素二重結合を生成します。
  • 遺伝子重複(gene duplication)
    遺伝子を含むDNAのある領域が重複する現象のことです。遺伝子重複によって生じた2つの遺伝子はパラログ(paralog)とよばれます。異なる生物に存在する相同な機能を持った遺伝子群であるオーソログ(ortholog)もこのリンク先になります。
  • Roelofs et al., Proc Natl Acad Sci USA., 2002
    論文タイトル中にあるmothは蛾(ガ)のことです。
  • 藤井・石川, 蚕糸・昆虫バイオテック, 2014

6.6.1 無根系統樹と外群、トポロジーと枝の長さ

  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • トポロジー(topology)
    リンク先は「位相幾何学」です。この場合は、系統樹の葉(leaf)に相当するのが比較対象の生物種になりますので、(枝の長さが長い生物種どうしほどdesaturase配列の違いが大きいことを意味しますが枝長は無視して)生物種間の関係性(つまり系統関係)のことを指す用語がトポロジーです。なお、一般論として、比較対象は実際には必ずしも異なる生物種である必要はなく、(同一生物種内の)異なる個体などでもよいです。それゆえ、比較対象のことをOperational Taxonomic Unit (OTU)と総称する場合が多いです。グラフ理論のほうがわかりやすいヒトにとっては、ノード(node)に相当するものが葉(生物種またはOTU)です。
  • 図6.14
    鱗翅目昆虫における不飽和化酵素desaturase遺伝子配列の分子系統樹です。
  • DNA配列(DNA sequences)
    リンク先は「塩基配列」です。核酸の一種であるDNAにおいて、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • 無根系統樹(rootless phylogenetic tree)
    リンク先は「系統樹」です。共通祖先を考慮せず現存種どうしの関係を重視する系統樹のことを指します。根(root)に相当するのが共通祖先なので、それを考慮しないということは「根っこがない(つまり無根)」系統樹ということになります。対になる用語は有根系統樹です。
  • ダニ(tick)
    鋏角亜門クモガタ綱に属する節足動物の分類群です。分類学上はダニ亜綱もしくはダニ目とされます。小型の動物で、体長1mm以下のものも多いです。
  • 外群(outgroup)
    系統関係を知りたい生物(これを内群といいます)の系統的位置関係を決定するに参照する群のことです。内群の他のグループに近縁であり、他のどの内群のグループよりも互いに遠縁であると考えられるものを選択するのが基本のようです。この場合は鱗翅目昆虫が内群になります。
  • 鱗翅目(Lepidoptera)
    リンク先は「チョウ目」です。昆虫類の分類群の1つであり、チョウやガがここに分類されます。
  • 昆虫(insect)
    六脚亜門の昆虫綱(学名:Insecta)に分類される節足動物の総称です。昆虫は多様な節足動物の中でも、特に陸上で進化したグループです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 有根系統樹(rooted phylogenetic tree)
    リンク先は「系統樹」です。根(root)に相当する共通祖先を出発点として、系統関係を知りたい内群の系統的位置関係を知るために作成した系統樹のことを指します。対になる用語は無根系統樹です。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。

  • 図6.14b
    鱗翅目昆虫における不飽和化酵素desaturase遺伝子配列の分子系統樹です。(b)の比較に用いた鱗翅目昆虫の生物種名と略称のまとめです。
    • Onu:ヨーロッパアワノメイガ(Ostrinia nubilalis)
    • Ofu:アワノメイガ(Ostrinia furnacalis)
    • Epo:リンゴウスチャイロハマキ(Epiphyas postvittana)
    • Ave:アカオビコハマキ(Argyrotaenia velutinana)
    • Poc:ニュージーランドハマキガ(Planotortrix octo)
    • Bmo:カイコガ(Bombyx mori)
    • Hze:アメリカタバコガ(Helicoverpa zea)
    • Tni:イラクサギンウワバ(Trichoplusia ni)
  • MEGATamura et al., Mol Biol Evol., 2021
    図6.14の作画に用いたプログラムです。最新版はMEGA 11です。
  • apeParadis et al., Bioinformatics, 2004
    図6.14の作画に用いたプログラムです。本家はhttp://ape-package.ird.fr/のようです。2021年11月現在の最新版はape 5.5です。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 鱗翅目(Lepidoptera)
    リンク先は「チョウ目」です。昆虫類の分類群の1つであり、チョウやガがここに分類されます。
  • 昆虫(insect)
    六脚亜門の昆虫綱(学名:Insecta)に分類される節足動物の総称です。昆虫は多様な節足動物の中でも、特に陸上で進化したグループです。
  • 遺伝子重複(gene duplication)
    遺伝子を含むDNAのある領域が重複する現象のことです。遺伝子重複によって生じた2つの遺伝子はパラログ(paralog)とよばれます。異なる生物に存在する相同な機能を持った遺伝子群であるオーソログ(ortholog)もこのリンク先になります。
  • 最も近い共通祖先(most recent common ancestor; MRCA)
    「ある集団について、それらのすべてを子孫とする祖先のうち最も新しい(現在に近い)個体や集団のこと」です。集団の部分は、遺伝子と読み替えても構いません。MRCAの例としては、きょうだいのMRCAは両親です。いとこのMRCAは血縁関係があるほうの祖父母ということになります。
page200
  • 図6.14
    鱗翅目昆虫における不飽和化酵素desaturase遺伝子配列の分子系統樹です。

  • 炭素鎖
    後述する脂肪酸(fatty acid; FA)は、天然のものは分岐のない炭化水素鎖を持ちますが、このような多くの炭素原子が結合して鎖のようになったものを炭素鎖と表現します。
  • 脂肪酸(fatty acid; FA)
    長鎖炭化水素の1価のカルボン酸です。不飽和結合の有無により、飽和脂肪酸(炭素鎖に単結合のみ有するもの)および不飽和脂肪酸(炭素鎖に二重結合や三重結合を有するもの)に分けられる場合が多いです。天然に存在する脂肪酸の大部分は分岐のない炭化水素鎖をもつが、分枝鎖、環状構造を持つ脂肪酸も存在します。
  • 不飽和化酵素(desaturase)
    リンク先は「デサチュラーゼ」です。炭化水素鎖から2個の水素原子を除去する酵素です。炭素-炭素二重結合を生成します。
  • ブートストラップ(bootstrap)
    リンク先は「ブートストラップ法」です。母集団の推定量(分散など)の性質を、近似分布にしたがって標本化したときの性質を計算することで推定する手法です。近似分布としては、測定値から求められる経験分布を用いるのが標準的です。
  • ベイズ推定(Bayesian inference)
    観測事象(観測された事実)から、推定したい事柄(それの起因である原因事象)を、ベイズ確率の考え方に基づいて推論することです。

6.6.2 最小進化の規準と最尤法

  • 図6.15a
    最小進化の規準と最尤法です。
  • アワノメイガ(Ostrinia furnacalis; Ofu)
    リンク先は「シンクイムシ」です。アワノメイガは、トウモロコシの害虫として有名です。
  • ヨーロッパアワノメイガ(Ostrinia nubilalis; Onu)
    リンク先は「European corn borer(ヨーロッパのトウモロコシの穿孔性甲虫)」です。北アメリカあたりにいるアワノメイガのようです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • バリン(valine)
    カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であるα-アミノ酸の1種で、側鎖にイソプロピル基をもちます。3文字表記はValで、1文字表記はVです。
page201
  • 図6.15
    最小進化の規準と最尤法です。

  • アラニン(alanine)
    α-アミノ酸の1種で、側鎖にメチル基(–CH3)をもちます。3文字表記はAlaで、1文字表記はAです。
  • 遺伝子重複(gene duplication)
    遺伝子を含むDNAのある領域が重複する現象のことです。遺伝子重複によって生じた2つの遺伝子はパラログ(paralog)とよばれます。異なる生物に存在する相同な機能を持った遺伝子群であるオーソログ(ortholog)もこのリンク先になります。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。

  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 最小進化の規準(minimal evolution criteria)
    「進化の履歴に関していくつかのシナリオが考えられるとき、進化的イベントの数が少ないものを選択する」という考え方です。
  • 近隣結合法(Neighbor joining method)Saitou and Nei, Mol Biol Evol., 1987
    系統樹を作製するためのボトムアップ式のクラスタ解析法。星型の樹形から出発してOTU(操作上分類単位、系統樹の葉にあたる分類群)をクラスタリングする各段階において、総分岐長を最小化するOTUの組を発見することを原理としています。NJ法と略されることもあります。
  • トポロジー(topology)
    リンク先は「位相幾何学」です。この場合は、系統樹の葉(leaf)に相当するのが比較対象の生物種になりますので、(枝の長さが長い生物種どうしほどdesaturase配列の違いが大きいことを意味しますが枝長は無視して)生物種間の関係性(つまり系統関係)のことを指す用語がトポロジーです。なお、一般論として、比較対象は実際には必ずしも異なる生物種である必要はなく、(同一生物種内の)異なる個体などでもよいです。それゆえ、比較対象のことをOperational Taxonomic Unit (OTU)と総称する場合が多いです。グラフ理論のほうがわかりやすいヒトにとっては、ノード(node)に相当するものが葉(生物種またはOTU)です。
  • 最尤法(method of maximum likelihood)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法です。比較したい複数の生物種由来のアミノ酸配列または塩基配列を並べて(アラインメントをとる、みたいな表現をします)、生物種間で違いのあるサイト(何番目の塩基か、みたいな理解でよい)に着目して系統樹を作成したいのですが、この際に「ある分子(例:アミノ酸残基)が別の分子に置換する際に、分子の種類によって置換しやすさが異なる」のです。似た生物種どうしだと違いのあるサイト数自体が少なく、遠く離れた生物種どうしであるほど異なるサイト数が増える傾向となります。置換分子の組み合わせによっても置換しやすさに違いがあるため、樹形図の可能性は無数にあります。最尤法(最尤推定法の略)は、多くの可能性の中から一番尤もらしい選択肢を得るための有力な方法です。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。

  • ポアソン分布(Poisson distribution)
    ある時間間隔で発生する事象の回数を表す離散確率分布です。
  • 対数尤度関数(log-likelihood function)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数が尤度関数です。それの対数(log)をとったものが対数尤度関数です。
  • 最尤推定量(maximum likelihood estimator)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法(最尤推定法)で得られた値のことです。
  • 最大対数尤度(maximum log-likelihood)
    リンク先は「尤度関数」です。尤度関数の自然対数をとったものが対数尤度ですが、複数ある対数尤度のうち、確率が最大のものに対応する対数尤度が最大対数尤度です。
  • 図6.15b
    最小進化の規準と最尤法です。
  • 減少関数(decreasing function)
    図6.15bで示されているとおり、横軸xの値が大きくなるにつれて、縦軸f(x)の値が減少している様子を「減少関数になっている」と表現していると理解すればよいです。
  • 最尤法(method of maximum likelihood)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法です。比較したい複数の生物種由来のアミノ酸配列または塩基配列を並べて(アラインメントをとる、みたいな表現をします)、生物種間で違いのあるサイト(何番目の塩基か、みたいな理解でよい)に着目して系統樹を作成したいのですが、この際に「ある分子(例:アミノ酸残基)が別の分子に置換する際に、分子の種類によって置換しやすさが異なる」のです。似た生物種どうしだと違いのあるサイト数自体が少なく、遠く離れた生物種どうしであるほど異なるサイト数が増える傾向となります。置換分子の組み合わせによっても置換しやすさに違いがあるため、樹形図の可能性は無数にあります。最尤法(最尤推定法の略)は、多くの可能性の中から一番尤もらしい選択肢を得るための有力な方法です。

  • 図6.15a
    最小進化の規準と最尤法です。
page202
  • 最尤法(method of maximum likelihood)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法です。比較したい複数の生物種由来のアミノ酸配列または塩基配列を並べて(アラインメントをとる、みたいな表現をします)、生物種間で違いのあるサイト(何番目の塩基か、みたいな理解でよい)に着目して系統樹を作成したいのですが、この際に「ある分子(例:アミノ酸残基)が別の分子に置換する際に、分子の種類によって置換しやすさが異なる」のです。似た生物種どうしだと違いのあるサイト数自体が少なく、遠く離れた生物種どうしであるほど異なるサイト数が増える傾向となります。置換分子の組み合わせによっても置換しやすさに違いがあるため、樹形図の可能性は無数にあります。最尤法(最尤推定法の略)は、多くの可能性の中から一番尤もらしい選択肢を得るための有力な方法です。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • Felsenstein J., Inferring Phylogenies, 2004
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • 速度行列(rate matrix)
    リンク先は「Transition rate matrix」です。推移速度行列とか推移率行列とよばれるものに相当します。本文中でも後述されていますが、入力が塩基配列のときはA, C, G, Tの4種類あるので4×4の行列、アミノ酸配列のときは20種類あるので20×20の行列になります。行列中の各要素の数値が、対応する行と列の分子間での置換しやすさを表す数値になります。
  • 最尤推定(maximum likelihood estimation)
    与えられたデータからそれが従う確率分布の母数を点推定することです。
  • Rannala and Yang, J Mol Evol., 1996
  • Huelsenbeck and Ronquist, Bioinformatics, 2001
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。
  • 事前分布(prior distribution)
    リンク先は「事前確率」です。事前確率は条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。事前分布は、事前確率の確率分布のことであり、事前確率分布の略です。「データ観測前のパラメータの不確実性を表現する確率分布」という理解でもよいと思います。対になる用語は事後分布です。
  • マルコフ連鎖モンテカルロ法(Markov chain Monte Carlo methods; MCMC)
    未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質(これをマルコフ性といいます)を持つ確率過程をマルコフ過程(Markov process)といいます。確率過程の一種であるこのマルコフ過程のうち、とりうる状態が離散的(有限または可算)なものをマルコフ連鎖(Markov chain)といいます。MCMCは、求める確率分布を均衡分布として持つマルコフ連鎖を作成することによって確率分布のサンプリングを行う種々のアルゴリズムの総称です。たとえば、ギブスサンプリング(Gibbs sampling)は、MCMC法の1つです。
  • Metropolis et al., J Chem Phys., 1953
  • Hastings WK, Biometrika, 1970
  • 事後分布(posterior distribution)
    リンク先は「事後確率」です。事後確率は、条件付き確率の一種であり、ベイズの定理により「事前確率に尤度関数の出力値を掛ける」ことで得られます。なお、事前確率は条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。事後分布は、事後確率の確率分布のことです。事後確率分布(posterior probability distribution)が正式名称ですが、通常は省略して事後分布といいます。

6.6.3 サイト間の不均質性、速度行列の統計モデルとモデル選択

  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • Yang Z., J Mol Biol., 1994
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 自由度(degree of freedom)
    一般には、変数のうち独立に選べるものの数のことです。この場合は、とりうるコンフォメーションがいろいろあるという意味合いで用いられていると思います。
  • 基質(substrate)
    リンク先は「基質 (化学)」です。化学反応において他の試薬と反応して生成物を作る化学種の1つです。
  • 相互作用(interaction)
    この場合はタンパク質と他の分子の間にはたらく、共有結合ほど強くないもの(または力)のことです。分子どうしの間の相互作用は分子間相互作用ですし、イオンどうしの相互作用はイオン間相互作用です。
  • ウイルス(virus)
    他生物の細胞を利用して自己を複製させる、極微小な感染性の構造体で、タンパク質の殻とその内部に入っている核酸からなります。生命の最小単位である細胞やその生体膜である細胞膜も持たないこと、小器官がないこと、自己増殖することがないことから、生物かどうかについて議論があります。
  • 宿主(host)
    寄生虫や菌類等が寄生、又は共生する相手の生物のことです。カマキリとハリガネムシの関係でいえば、カマキリが寄生される側(つまり宿主)となります。「しゅくしゅ」と読みます。
  • 抗体(antibody)
    白血球のサブタイプの1つであるリンパ球の一種であるB細胞の産生する糖タンパク分子です。獲得免疫系の液性免疫(特定のタンパク質などの分子である抗原を認識して、排除する働き)を担う。抗体は主に血液中や体液中に存在します。抗体が抗原へ結合すると、その抗原と抗体の複合体を白血球やマクロファージといった食細胞が認識・貪食して体内から除去するように働いたり、リンパ球などの免疫細胞が結合して免疫反応を引き起こしたりします。これらの働きを通じ、脊椎動物の感染防御機構において重要な役割を担っています。
  • 軍拡競争にある領域
    「ウイルスタンパクが寄生する」と「防御側である宿主の抗体がそれに対抗するために侵入されないように進化」します。そうすると「防御側の進化をかいくぐるべく攻撃側もさらに進化」させますが、「防御側もさらにそれに対抗すべく…」ということが延々と繰り広げられていきます。これを旧冷戦時代のような軍拡競争という表現をしているわけです。実際に行われているのはゲノム上の変異であり、そのようなことが行われているゲノム上の領域があるわけです。それを「軍拡競争にある領域」と表現しています。
  • 畳み込み構造(folding)
    リンク先は「フォールディング」です。タンパク質は立体構造(三次構造)をとって本来の機能を果たしますが、アミノ酸配列の一次構造が”折りたたまれて”立体構造を形成します。この折りたたまれることをフォールディングといいます。
  • 図6.16
    分子進化速度のサイト間の変動と推定された進化距離です。

  • 尤度関数(likelihood function)
    手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • ガンマ分布(gamma distribution)
    形状母数 k、尺度母数 θ の2つの母数で特徴づけられる連続確率分布の一種です。本文中では形状母数 はαになっています。枝の長さとの識別性を担保するために、期待値1のガンマ分布を考えています。本文中のE[vh] = 1が「期待値1」に相当します。
  • 対数尤度(log-likelihood)
    リンク先は「尤度関数」です。尤度関数の自然対数をとったもののことです。本文中の「logL」に相当します。ちなみに尤度がLです。
  • 周辺尤度(marginal likelihood)
    リンク先は「Marginal likelihood」です。「パラメータを積分で消去すること」を「周辺化する(marginalize)」といいます。この場合は、目的以外のパラメータを積分消去していると解釈すればよいです。今は対数尤度logLで考えているので、周辺対数尤度ということになります。

page203
  • 図6.16
    分子進化速度のサイト間の変動と推定された進化距離です。

  • 速度行列(rate matrix)
    リンク先は「Transition rate matrix」です。推移速度行列とか推移率行列とよばれるものに相当します。本文中でも後述されていますが、入力が塩基配列のときはA, C, G, Tの4種類あるので4×4の行列、アミノ酸配列のときは20種類あるので20×20の行列になります。行列中の各要素の数値が、対応する行と列の分子間での置換しやすさを表す数値になります。
  • 統計モデル(statistical model)
    サンプルデータの生成に関する一連の統計的仮定を具体化した数理モデルのことです。
  • 赤池情報量規準(Akaike’s Information Criterion; AIC)
    リンク先は「赤池情報量規準」です。統計モデルの良さを評価するための指標の1つです。
  • Akaike H., IEEE Trans Automat Contr., 1974
    AICの原著論文です。
  • ベイズ流情報量規準(Bayesian information criterion; BIC)
    リンク先は「ベイズ情報量規準」です。統計モデルの良さを評価するための指標の1つです。
  • Schwarz G., Ann Statist., 1978
  • Posada and Buckley, Syst Biol., 2004

  • 表6.1
    アミノ酸置換とサイト間不均質性のモデル比較です。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • 多重置換(multiple substitution)
    同一の座位(場所)に複数回の置換が起こることです。
  • トポロジー(topology)
    リンク先は「位相幾何学」です。この場合は、全体的な関係性のことです。
  • 図6.16c
    分子進化速度のサイト間の変動と推定された進化距離です。

page204
  • 表6.1
    アミノ酸置換とサイト間不均質性のモデル比較です。
  • 図6.17
    ブートストラップ確率が付与された分子系統樹です。

  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 有意性(significance)
    リンク先は「有意」です。確率論・統計学の用語で、「確率的に偶然とは考えにくく、意味があると考えられる」ことです。
  • ブートストラップ確率(bootstrap probability)
    リンク先は「ブートストラップ法」です。ブートストラップ法は、母集団の推定量(分散など)の性質を、近似分布にしたがって標本化したときの性質を計算することで推定する手法です。近似分布としては、測定値から求められる経験分布を用いるのが標準的です。本文中でも説明されていますが、ブートストラップ確率は、図6.16aで示されているようなマルチプルアラインメント上のサイト(各列に相当)を実際のサイト数分だけ復元抽出した仮想塩基配列データを作成して系統樹を再構築する作業をたとえば1,000回繰り返します。元のマルチプルアラインメントで見られた系統関係(つまりトポロジー)がブートストラップで作成した1,000個の系統樹の中で何回見られたかを割合で示したものになります。たとえば、ある特定の系統関係が1,000回中874回再現されたら、そこには874/1,000 = 87.4(%)という数値が割り振られます。
  • Felsenstein J, Evolution, 1985
  • トポロジー(topology)
    リンク先は「位相幾何学」です。この場合は、全体的な関係性のことです。
  • 一瞥(いちべつ)
    「一目で」とか「ぱっと見で」のように解釈すればよいです。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。

6.6.4 ゲノム系統樹

  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • ミトコンドリア(mitochondria)
    ほとんどすべての真核生物の細胞の中に存在する、細胞小器官の1つです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • ビッグデータ(big data)
    一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語です。
  • 多型性(polymorphism)
    リンク先は「多型」です。同一生物種の個体間で、形態や塩基が異なることを指します。多型も多型性も実質的に同じ意味であり、「多様性」と同じように解釈してもよいです。
  • 種分化(speciation)
    新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
  • 図6.1b
    種間の多様性と種内の多様性です。
  • 集団遺伝学(population genetics)
    生物集団内における遺伝子の構成・頻度の変化に関する遺伝学の一分野です。
  • 合祖過程(coalescent process)
    リンク先は「合祖理論」です。ある集団から得られた複数個体の塩基配列において、ある遺伝子座におけるすべての対立遺伝子が時間的に遡って、その共通祖先のものに一致していく過程のことです。現在の情報から過去(のアレル)がどうだったかという経過を知るようなイメージです。
  • Rannala and Yang, Genetics, 2003
  • Mirarab et al., Bioinformatics, 2014
  • 速度行列(rate matrix)
    リンク先は「Transition rate matrix」です。推移速度行列とか推移率行列とよばれるものに相当します。本文中でも後述されていますが、入力が塩基配列のときはA, C, G, Tの4種類あるので4×4の行列、アミノ酸配列のときは20種類あるので20×20の行列になります。行列中の各要素の数値が、対応する行と列の分子間での置換しやすさを表す数値になります。
  • Kapli et al., Nat Rev Genet., 2020