page145

第5章 システム生物学とマルチオミックス

5.1 システム生物学

5.1.1 システム生物学のおこり

  • システム生物学(Systems Biology)
    システム工学の考え方や解析手法を生物学に導入し、生命現象をシステムとして理解することを目的とする学問分野のことです。
  • ヒトゲノム計画(Human Genome Project)
    ヒトのゲノムの全塩基配列を解析するプロジェクトです。ヒトゲノムの概要版(ドラフトとよばれます)の論文は2001年に(Lander et al., Nature, 2001)、そして完全版は2022年に(Nurk et al., Science, 2022)発表されています。
  • 微生物(microorganismまたはmicrobe)
    肉眼でその存在が判別できず、顕微鏡などによって観察できる程度以下の大きさの生物のことです。
  • 植物(plant)
    草や木などのように、根があって場所が固定されて生きているような生物のことです。対義語は動物です。
  • ゲノム計画
    リンク先は「ヒトゲノム計画」です。ゲノムの全塩基配列を解析するプロジェクトのことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 機能性RNA(functional RNAs)
    何らかの機能をもったリボ核酸(ribonucleic acid; RNA)です。具体的には、メッセンジャーRNA(mRNA)ノンコーディングRNA(non-coding RNA; ncRNA)のことです。しかし、前者は実質的にタンパク質と同義であり、かつ本文の文脈的にも後者を念頭において機能性RNAとよぶことが多いです。
  • エピジェネティクス(epigenetics)
    ゲノムの塩基配列自体は変わらないものの、その一部が化学的な修飾を受けて遺伝子の発現が制御され、それが維持される仕組みのことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 遺伝学(genetics)
    生物の遺伝現象を研究する生物学の一分野です。遺伝学は遺伝子という生物の基本的な要素につながっているため、現在ではあらゆる分野に結びついています。そのため、いわゆるメンデル遺伝的な事柄を指すべく、本文中では「古典的な遺伝学」と書かれています。
  • 遺伝子のネットワーク(gene regulatory network)
    リンク先は「ネットワーク」です。遺伝子どうしの発現の制御関係(つながり)をつなげた系(システム)のことです。

  • システム生物学(Systems Biology)
    システム工学の考え方や解析手法を生物学に導入し、生命現象をシステムとして理解することを目的とする学問分野のことです。
  • Hartwell et al., Nature, 1999
  • シグナル伝達(signal transduction)
    暑さや寒さや痛さといった周辺環境からの刺激(これをシグナルといいます)が皮膚から脳に伝わっていくようなことを指しますす。「この刺激(シグナル)であれば、このタンパク質が感知して、それが生体内のこの経路で情報が伝達される」といった具合で、定まった経路で情報が伝達されていくことで環境に適応しています。そのようなシステム全体のことを指す言葉がシグナル伝達です。具体的には、細胞間シグナル伝達とか細胞内シグナル伝達などがあり、たとえばそれを簡潔に示しているのがKEGG PATHWAY Databaseです。
  • モジュール(module)
    「いくつかの部品的機能を集め、まとまりのある機能を持った部品のこと」を指します。本文中ではシグナル伝達を例として挙げているように、タンパク質の一次構造(アミノ酸配列)のすべてがシグナル伝達に関与しているわけではなく、15残基程度の長さの特定の領域がその機能を果たしています。本文中でも述べられているように、ここでいうモジュールは、機能や表現型に関連する「まとまり」ぐらいの概念です。

  • Science誌のSpecial Issue “Systems Biology”
    リンク先で”Systems Biology”でページ内検索するとよいです。
  • システム生物学(Systems Biology)
    システム工学の考え方や解析手法を生物学に導入し、生命現象をシステムとして理解することを目的とする学問分野のことです。
  • 北野宏明(KITANO Hiroaki)
    日本の科学者、実業家です。
  • Kitano H., Science, 2002
  • 発生学(Embryology)
    胚の発生を研究する学問です。胚は、「動物では誕生や孵化の前、植物では発芽の段階にあるすべての組織」と定義されます。
  • Davidson et al., Science, 2002
  • 胚発生(embryogenesis)
    多細胞生物が受精卵から成体になるまでの過程のことです。広義には老化や再生も含まれます。
page146
  • 図5.1
    Davidsonらが現在も継続して記載するウニ胚発生のネットワーク図です。バイオタペストリー(BioTapestry)のトップページで見えているものと同じです。
  • バイオタペストリー(BioTapestry)
    遺伝子制御ネットワーク(gene regulatory network; GRN)の構築や可視化などをインタラクティブに行うWebツールです。原著論文は、おそらくLongabaugh et al., Dev Biol., 2005です。

  • ブレイクスルー(breakthrough)
    障壁の突破を意味する英単語。一般的には、進歩、前進、また一般にそれまで障壁となっていた事象の突破の事など肯定的な意味ですが、昨今のコロナのブレイクスルー感染のように障壁を突破されて問題が発生することも意味します。
  • パラダイムシフト(paradigm shift)
    その時代や分野において当然のことと考えられていた認識や思想、社会全体の価値観などが革命的にもしくは劇的に変化することです。
  • 生物学(biology)
    生命現象を研究する、自然科学の一分野です。
  • システム生物学(Systems Biology)
    システム工学の考え方や解析手法を生物学に導入し、生命現象をシステムとして理解することを目的とする学問分野のことです。

5.1.2 システム生物学の発展

page147
page148
  • 図5.4
    変数AがBに反応kで変化する現象を記載したCellMLの例(一部抜粋)です。

  • 識別子(identifier)
    ある実体の集合の中で、特定の元(げん、と読みますがこの場合は要素という理解でよいです)を他の元(げん、要素という理解でよいです)から曖昧さ無く区別することを可能とする、その実体に関連する属性の集合のことです。「ID」ともいいます。
  • 図5.4
    変数AがBに反応kで変化する現象を記載したCellMLの例(一部抜粋)です。
  • マークアップ言語(markup language)
    組版指定に使われる言語であり、視覚表現や文章構造などを記述するための形式言語です。たとえばhtmlもマークアップ言語の1つです。
  • セルイラストレータ(Cell Illustrator)Nagasaki et al., Appl Bioinformatics, 2003
    このソフトウェアは、Cell System Markup language (CSML)という言語を使っています。
  • 神経科学(neuroscience)
    神経系に関する研究を行う自然科学の一分野です。研究の対象として、神経系の構造、機能、発達、遺伝学、生化学、生理学、薬理学、栄養学および病理学などがあります。この分野は生物学の一部門ですが、近年になって生物学のみならず心理学、コンピュータ科学、統計学、物理学、医学など多様な学問分野からの注目を集めるようになっています。
  • NeuroMLGleeson et al., PLoS Comput Biol., 2010
  • BrainML:原著論文なし?!
  • Novère et al., BMC Neurosci., 2006

  • マークアップ言語(markup language)
    組版指定に使われる言語であり、視覚表現や文章構造などを記述するための形式言語です。たとえばhtmlもマークアップ言語の1つです。
  • 数理モデル(mathematical model)
    時間変化する現象の計測可能な主要な指標の動きを模倣する、微分方程式などの「数学の言葉で記述した系」のことです。
  • 図5.5
    バイオモデルズ(BioModels)は、欧州バイオインフォマティクス研究所(European Bioinformatics Institute; EBI)が提供する数理モデルのリポジトリです。
  • リポジトリ(repository)
    貯蔵庫とか保管場所という理解でよいです。
  • Systems Biology Markup Language (SBML)Hucka et al., Bioinformatics, 2003
    遺伝子制御の全体像や代謝経路といった生命モデルを記述し表現する言語の1つです。「バラバラではなく統一的な形式で記述して互換性を高め、たとえばセルデザイナーで開発した細胞モデル(記述形式)がサイトスケープでも読み込めるようにしたもの」だという理解でよいです。

  • システム生物学(Systems Biology)
    システム工学の考え方や解析手法を生物学に導入し、生命現象をシステムとして理解することを目的とする学問分野のことです。
  • 数理モデル(mathematical model)
    時間変化する現象の計測可能な主要な指標の動きを模倣する、微分方程式などの「数学の言葉で記述した系」のことです。
  • 論文誌(academic journal)
    リンク先は「学術雑誌」です。主として研究者の執筆した論文を掲載する雑誌のことです。学術分野に応じて極めて多くの雑誌が発行されているが、読者はそれぞれの分野の専門家が中心であるため、一般書店に置かれることはあまりありません。
  • 自然言語(natural language)
    、言語学や論理学、計算機科学の専門用語で、「英語」・「中国語」・「日本語」といった「○○語」の総称。つまり普通の「言語」のことです。人間が意思疎通のために日常的に用いる言語であり、文化的背景を持っておのずから発展してきた言語です。
  • 媒体(media) リンク先は「メディア (媒体)」です。情報の記録、伝達、保管などに用いられる物や装置のことです。媒体(ばいたい)などと訳されることもあります。記録・保管のための媒体とコミュニケーションのための媒体とに大別することができます。
  • 生物学(biology)
    生命現象を研究する、自然科学の一分野です。
page149

5.2 数理生物学とのかかわり

5.2.1 数理モデルのおこり

  • 生物学(biology)
    生命現象を研究する、自然科学の一分野です。
  • 数理モデル(mathematical model)
    時間変化する現象の計測可能な主要な指標の動きを模倣する、微分方程式などの「数学の言葉で記述した系」のことです。
  • システム生物学(Systems Biology)
    システム工学の考え方や解析手法を生物学に導入し、生命現象をシステムとして理解することを目的とする学問分野のことです。
  • ナチス・ドイツ(Nazi Germany)
    アドルフ・ヒトラーおよび国家社会主義ドイツ労働者党(NSDAP、ナチ党)による支配下の、1933年から1945年までのドイツ国に対する呼称です。
  • 暗号(cryptography)
    セキュア通信の手法の種類で、第三者が通信文を見ても特別な知識なしでは読めないように変換する、というような手法のことです。
  • チューリング(Alan Turing)
    リンク先は「アラン・チューリング」です。イギリスの数学者です。電子計算機の黎明期の研究に従事し、計算機械チューリングマシンとして計算を定式化して、その知性や思考に繋がりうる能力と限界の問題を議論するなど情報処理の基礎的・原理的分野において大きな貢献をしました。また、偏微分方程式におけるパターン形成の研究などでも先駆的な業績があります。新50ポンド紙幣は2021年6月23日に発行されているようです。
  • チューリングマシン(Turing machine)
    アラン・チューリングが「計算可能性」に関する議論のために提示した抽象機械のことです。
  • 反応拡散方程式(reaction-diffusion equation)
    リンク先は「反応拡散系」です。空間に分布された一種あるいは複数種の物質の濃度が、物質がお互いに変化し合うような局所的な化学反応と、空間全体に物質が広がる拡散の2つのプロセスの影響によって変化する様子を数式で表現したもののことです。
  • 偏微分方程式(partial differential equation)
    未知関数の偏微分を含む微分方程式のことです。
  • Turing AM., Philos. Trans. R. Soc. Lond. Ser. B Biol. Sci., 1952
  • 式(5.1)

  • 反応拡散方程式(reaction-diffusion equation)
    リンク先は「反応拡散系」です。空間に分布された一種あるいは複数種の物質の濃度が、物質がお互いに変化し合うような局所的な化学反応と、空間全体に物質が広がる拡散の2つのプロセスの影響によって変化する様子を数式で表現したもののことです。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。生命現象を説明するのに必要な”登場人物”に相当するのが”要素”で、その要素に掛ける”係数”のようなイメージで”パラメータ”を捉えるとよいと思います。
  • アクティベータ(activator)
    リンク先は「アクチベーター」です。本文中で「空間全域で自発的に発現する」と書かれていることからもイメージできますが、遺伝子の転写を増加させる分子(タンパク質など)です。代表例は転写因子です。エンハンサに結合して転写を活性化させるものです。本文中ではuという記号で示されています。
  • インヒビタ(inhibitor)
    アクティベータの反対で、転写を阻害する分子です。低分子やタンパク質などいろいろなものがあると思います。本文中ではvという記号で示されています。
page150
  • 拡散(diffusion)
    粒子、熱、運動量、等が、散らばり、広がる、物理的な現象です。この現象は着色した水を無色の水に滴下したとき、煙が空気中に広がるときなど、日常よく見られます。これらは、化学反応や外力ではなく、流体の乱雑な運動の結果として起こるものです。
  • ラプラス作用素(Laplace operator)
    ラプラシアン(Laplacian)ともいいます。ユークリッド空間上の函数の勾配の発散として与えられる微分作用素のことです。本文中では「空間における拡散を意味する記号」と述べています。
  • 斑点 表面にまばらに散らばった点のことです。
  • 縞模様(stripeまたはcheck)
    2色以上の異なる色または同色の濃淡を用いて複数の平行もしくは交差する線で構成された文様の総称です。
  • 望月敦史, 理論生物学概論, 2021
  • チューリング(Alan Turing)
    リンク先は「アラン・チューリング」です。イギリスの数学者です。電子計算機の黎明期の研究に従事し、計算機械チューリングマシンとして計算を定式化して、その知性や思考に繋がりうる能力と限界の問題を議論するなど情報処理の基礎的・原理的分野において大きな貢献をしました。また、偏微分方程式におけるパターン形成の研究などでも先駆的な業績があります。新50ポンド紙幣は2021年6月23日に発行されているようです。
  • 電卓
    計算機の一種で電子(式)卓上計算機(でんし(しき)たくじょうけいさんき)の略です。名前の通り、電子回路によって計算を行い、卓上で使用できる(ないし、より小さい)サイズで便利です。
  • 反応拡散方程式(reaction-diffusion equation)
    リンク先は「反応拡散系」です。空間に分布された一種あるいは複数種の物質の濃度が、物質がお互いに変化し合うような局所的な化学反応と、空間全体に物質が広がる拡散の2つのプロセスの影響によって変化する様子を数式で表現したもののことです。
  • タテジマキンチャクダイ(Pomacanthus imperator)
    スズキ目スズキ亜目キンチャクダイ科に属する全長40cmほどの大きさになる魚です。幼魚と成魚とでは、まるで別種のように色彩や模様が違うが、食性は変わらないようです。
  • 縞模様(stripeまたはcheck)
    2色以上の異なる色または同色の濃淡を用いて複数の平行もしくは交差する線で構成された文様の総称です。
  • Kondo and Asai, Nature, 1995
    筆頭著者は近藤滋博士です。

  • 反応拡散方程式(reaction-diffusion equation)
    リンク先は「反応拡散系」です。空間に分布された一種あるいは複数種の物質の濃度が、物質がお互いに変化し合うような局所的な化学反応と、空間全体に物質が広がる拡散の2つのプロセスの影響によって変化する様子を数式で表現したもののことです。
  • 近藤研究室
    正式な研究室名は「パターン形成研究室」です。
  • 反応拡散シミュレータ(Reaction-Diffusion System Simulator)
  • 図5.6
    リンク先は、ウィキペディアの「チューリング・パターン」です。テキストのオリジナルの図は、リンク先の右側に見えている「チューリングパターンの例」という図と同じです。近藤研究室反応拡散シミュレータにより、同様のパターンを自在に作成できます。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。生命現象を説明するのに必要な”登場人物”に相当するのが”要素”で、その要素に掛ける”係数”のようなイメージで”パラメータ”を捉えるとよいと思います。
  • 縞模様(stripeまたはcheck)
    2色以上の異なる色または同色の濃淡を用いて複数の平行もしくは交差する線で構成された文様の総称です。
  • チューリングパターン(Turing pattern)
    チューリング(Alan Turing)によって1952年に理論的存在が示された自発的に生じる空間的パターンのことです。式(5.1)のところでアクティベータ(activator)とインヒビタ(inhibitor)について解説されています。uが前者で、vが後者に対応します。
  • 細胞膜(cell membrane)
    細胞の内外を隔てる生体膜のことです。タンパク質が埋め込まれた脂質二重層によって構成されています。
  • 表皮細胞(epidermal cell)
    リンク先は「表皮」です。多細胞生物のもっとも外側を覆う組織が表皮であり、それを構成する細胞が表皮細胞です。
  • 微分方程式(differential equation)
    未知関数とその導関数の関係式として書かれている関数方程式のことです。
  • アクティベータ(activator)
    リンク先は「アクチベーター」です。本文中で「空間全域で自発的に発現する」と書かれていることからもイメージできますが、遺伝子の転写を増加させる分子(タンパク質など)です。代表例は転写因子です。エンハンサに結合して転写を活性化させるものです。本文中ではuという記号で示されています。
  • インヒビタ(inhibitor)
    アクティベータの反対で、転写を阻害する分子です。低分子やタンパク質などいろいろなものがあると思います。本文中ではvという記号で示されています。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 代謝物(metabolite)
    リンク先は「代謝物質」です。代謝の過程の中間生産物および最終生成物のことです。代謝物質、代謝産物、代謝生成物ともいいます。通常は小分子に限られるようです。生体内で生合成される低分子化合物という理解でもよいです。

  • 近藤滋
    日本の生命科学者です。
  • 反応拡散方程式(reaction-diffusion equation)
    リンク先は「反応拡散系」です。空間に分布された一種あるいは複数種の物質の濃度が、物質がお互いに変化し合うような局所的な化学反応と、空間全体に物質が広がる拡散の2つのプロセスの影響によって変化する様子を数式で表現したもののことです。
  • 昆虫(insect)
    六脚亜門の昆虫綱(学名:Insecta)に分類される節足動物の総称です。昆虫は多様な節足動物の中でも、特に陸上で進化したグループです。
  • 体節(segment)
    動物の体の構造に見られる体軸方向の繰り返し構造を指す生物学用語です。
  • Meinhardt H., J Cell Sci., 1977
    ンス・マインハルト(Hans Meinhardt)博士の、昆虫の体節形成を理解することを試みた論文です。Abstractの最後の文章(The individual experiments are simulated by solving these equations by use of a computer.)からも、1977年にPCを用いてシミュレーションしようとしていたことがわかります。
  • ショウジョウバエ(Drosophila melanogaster)
    ハエ目(双翅目)・ショウジョウバエ科 (Drosophilidae) に属するハエの総称です。科学の分野では、その一種であるキイロショウジョウバエ (Drosophila melanogaster) のことをこうよぶことが多いです。
  • ビコイド(bicoid)
    リンク先はFlyBase (Larkin et al., Nucleic Acids Res., 2021)です。ショウジョウバエの体節形成を決定づける重要な要素の1つです。転写因子(a homeodomain-containing transcription factor)だということがGene Summaryのところに書かれています。高校の生物の教科書でも出てきます。
  • ナノス(nanos)
    リンク先はFlyBase (Larkin et al., Nucleic Acids Res., 2021)です。ショウジョウバエの体節形成を決定づける重要な要素の1つです。RNA結合タンパク質(an RNA-binding protein)だということがGene Summaryのところに書かれています。高校の生物の教科書でも出てきます。
  • Lawrence PA. The making of a fly., Blackwell Scientific Publications, Cambridge USA, 1992
    大元のdoiが見つけられなかったため、とりあえず全文のpdfへのリンクを貼っています。
  • チューリングパターン(Turing pattern)
    チューリング(Alan Turing)によって1952年に理論的存在が示された自発的に生じる空間的パターンのことです。式(5.1)のところでアクティベータ(activator)とインヒビタ(inhibitor)について解説されています。uが前者で、vが後者に対応します。
  • 初期胚
    ショウジョウバエの場合は「受精後に細胞分裂を始めた直後の胚(はい)のこと」を指します。ヒトの場合は、受精後2-3日目までの胚のことを指します。なお、受精卵は細胞分裂前の卵子であり、受精卵が細胞分裂を始めたら、胚と呼ぶようです。
  • 細胞核(cell nucleus)
    真核生物の細胞を構成する細胞小器官の1つです。細胞の遺伝情報の保存と伝達を行い、ほぼすべての細胞に存在します。通常は単に核ということが多いです。
  • 卵母細胞(oocyte)
    雌性生殖細胞です。減数分裂により卵細胞となり、後に卵子へ分化します。
  • 表皮(epidermis)
    多細胞生物のもっとも外側を覆う組織のことです。皮膚は、体の一番外側から「表皮・真皮・皮下組織」の3層で構成されますが、その一番外側の層を指す言葉です。
  • 細胞膜(cell membrane)
    細胞の内外を隔てる生体膜のことです。タンパク質が埋め込まれた脂質二重層によって構成されています。
  • mRNA
    リンク先は「伝令RNA」です。メッセンジャーRNAのことです。タンパク質に翻訳されうる塩基配列情報と構造を持ったRNAのことです。
  • 図5.7
    ショウジョウバエの体節に沿ったビコイドおよびナノスタンパク質の発現量です。
  • 発生生物学(developmental biology)
    多細胞生物の個体発生を研究対象とする生物学の一分野のことです。個体発生とは、配偶子の融合(受精)から配偶子形成を行う成熟した個体になるまでの過程のことです。
  • アクティベータ(activator)
    リンク先は「アクチベーター」です。本文中で「空間全域で自発的に発現する」と書かれていることからもイメージできますが、遺伝子の転写を増加させる分子(タンパク質など)です。代表例は転写因子です。エンハンサに結合して転写を活性化させるものです。本文中ではuという記号で示されています。
  • インヒビタ(inhibitor)
    アクティベータの反対で、転写を阻害する分子です。低分子やタンパク質などいろいろなものがあると思います。本文中ではvという記号で示されています。
  • 形態(morph)
    組織だっている物事を外観からみた有り様のことです。
  • モルフォジェン(morphogen)
    リンク先は「モルフォゲン」です。濃度勾配によって形態(morph)を作る(generate)因子です。
  • ハンス・マインハルト(Hans Meinhardt)
    ドイツの数理生物学者、物理学者です。生物学のパターン形成分野における先駆的な研究で知られています。
  • 微分方程式(differential equation)
    未知関数とその導関数の関係式として書かれている関数方程式のことです。
  • 野生型(wildtype)
    生物の標準的な表現型のことです。
  • 遺伝子ノックアウト(gene knockout)
    ある生物に機能欠損型の遺伝子を導入するという、遺伝子工学の技法のことです。ノックアウトはしばしばKOと略されます。
  • 変異型(mutant)
    生物の標準的でない表現型のことです。野生型に遺伝子ノックアウトを行って標準的でないものにした表現型と理解すればよいです。
  • 図5.6
    オリジナルの図は、ウィキペディアのチューリング・パターンの右側に見えている「チューリングパターンの例」という図と同じです。近藤研究室反応拡散シミュレータにより、同様のパターンを自在に作成できます。
page151
  • 図5.7
    ショウジョウバエの体節に沿ったビコイドおよびナノスタンパク質の発現量です。

  • 微分方程式(differential equation)
    未知関数とその導関数の関係式として書かれている関数方程式のことです。
  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • 分化(differentiation)
    本来は単一(あるいは同一)であった細胞が、複雑化したり、異質化したりしていくさまのことです。
  • ショウジョウバエ(Drosophila melanogaster)
    ハエ目(双翅目)・ショウジョウバエ科 (Drosophilidae) に属するハエの総称です。科学の分野では、その一種であるキイロショウジョウバエ (Drosophila melanogaster) のことをこうよぶことが多いです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 体節(segment)
    動物の体の構造に見られる体軸方向の繰り返し構造を指す生物学用語です。
  • イブ(even-skipped; eve)
    リンク先はFlyBase (Larkin et al., Nucleic Acids Res., 2021)です。eveは転写抑制因子(a homeobox-containing transcriptional repressor)だということがGene Summaryのところに書かれています。
  • ビコイド(bicoid)
    リンク先はFlyBase (Larkin et al., Nucleic Acids Res., 2021)です。ショウジョウバエの体節形成を決定づける重要な要素の1つです。転写因子(a homeodomain-containing transcription factor)だということがGene Summaryのところに書かれています。高校の生物の教科書でも出てきます。
  • モルフォジェン(morphogen)
    リンク先は「モルフォゲン」です。濃度勾配によって形態(morph)を作る(generate)因子です。
  • チューリングパターン(Turing pattern)
    チューリング(Alan Turing)によって1952年に理論的存在が示された自発的に生じる空間的パターンのことです。式(5.1)のところでアクティベータ(activator)とインヒビタ(inhibitor)について解説されています。uが前者で、vが後者に対応します。

  • 分子生物学(molecular biology)
    生命現象を分子を使って説明(理解)することを目的とする学問です。
  • タンパク質間相互作用(protein-protein interaction; PPI)
    多くのタンパク質は他のタンパク質や生体高分子と相互作用することでその機能を果たしますが、そのような複数の異なるタンパク質分子が状態に応じて特異的複合体を形成する現象のことです。
  • バクテリア(bacteria)
    リンク先は「細菌」です。正確には真正細菌です。古細菌・真正細菌・真核生物という分類学上の3つのドメインの1つ、あるいはそこに含まれる生物のことです。
  • 走化性(chemotaxis)
    生物体(単一の細胞や多細胞の生物体を問わず、細胞や細菌など)の周囲に存在する特定の化学物質の濃度勾配に対して方向性を持った行動を起こす現象のことです。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • 鞭毛(flagella)
    「べんもう」と読みます。毛状の細胞小器官であり、その主な役目は遊泳に必要な推進力を生み出すことです。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 翻訳後修飾(post-translational modification; PTM)
    翻訳後のタンパク質の化学的な修飾のことです。これは多くのタンパク質生合成後のいくつかあるステップうちの1つです。
  • 適応(adaptation)
    進化という観点では「生物種がある環境のもとで生活するのに有利な形質を持っていること」を指しますが、この場合は「何らかの状況にふさわしいことや合致していること」を指します。

  • 微分方程式(differential equation)
    未知関数とその導関数の関係式として書かれている関数方程式のことです。
  • Bray et al., Mol Biol Cell, 1993
    筆頭著者はデニス・ブレイ(Dennis Bray)です。
  • 適応(adaptation)
    進化という観点では「生物種がある環境のもとで生活するのに有利な形質を持っていること」を指しますが、この場合は「何らかの状況にふさわしいことや合致していること」を指します。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • リン酸化(phosphorylation)
    各種の有機化合物、なかでも特にタンパク質にリン酸基を付加させる化学反応のことです。英語名からも想像できますが、ホスホリル化ともよばれます。
  • W5.2
    リンク先は、Bray et al., Mol Biol Cell, 1993のPDFです。この論文中のFigure 2が、本書のW5.2です。これは、Brayらが考えた鞭毛モーター回転とリン酸化の関係です。同じタンパク質Ypが複数モーターMに結合して動きを制御する仕組みを数式で記載しています。
  • THE CELL 細胞の分子生物学 第6版
    第3版までは、15章細胞シグナリングの末尾に取り上げられています。第4版以降では割愛されています。

  • 微分方程式(differential equation)
    未知関数とその導関数の関係式として書かれている関数方程式のことです。
  • 数理生物学(mathematical and theoretical biology)
    生物学、バイオテクノロジーおよび医学にまたがる学際的な研究分野の1つです。
  • システム生物学(Systems Biology)
    システム工学の考え方や解析手法を生物学に導入し、生命現象をシステムとして理解することを目的とする学問分野のことです。
  • 数理科学(mathematical sciences)
    数学・数学の応用分野、数理統計学を含む数学およびその周辺の学術分野のことです。
  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • mRNA
    リンク先は「伝令RNA」です。メッセンジャーRNAのことです。タンパク質に翻訳されうる塩基配列情報と構造を持ったRNAのことです。
  • 相互作用(interaction)
    分子やイオンなどの間にはたらく、共有結合ほど強くないものを相互作用といいます。分子どうしの間の相互作用は分子間相互作用ですし、イオンどうしの相互作用はイオン間相互作用です。
  • 連続モデル(continuous model)
    数量を解析的に記載するモデルのことです。
  • 離散モデル(discrete model)
    具体的な数値として記載するモデルのことです。確率モデル(stochastic model)ともいいます。分子の個数や細胞の数を具体的に設定して、変化を逐一計算できるのが特徴です。
page152

5.2.2 連続モデルと離散モデル

  • 化学反応(chemical reaction)
    1つ以上の化学物質が別の1つ以上の化学物質へと変化することです。
  • 生体分子(biomolecule)
    タンパク質や代謝産物などの生体内で働く様々な有機化合物の総称という理解でよいです。
  • 相互作用(interaction)
    分子やイオンなどの間にはたらく、共有結合ほど強くないものを相互作用といいます。分子どうしの間の相互作用は分子間相互作用ですし、イオンどうしの相互作用はイオン間相互作用です。
  • 解析的(analytic)
    方程式の解が、いろいろ式変形していけば得られるということです。
  • 連続モデル(continuous model)
    数量を解析的に記載するモデルのことです。
  • 離散モデル(discrete model)
    具体的な数値として記載するモデルのことです。確率モデル(stochastic model)ともいいます。分子の個数や細胞の数を具体的に設定して、変化を逐一計算できるのが特徴です。

  • 反応拡散方程式(reaction-diffusion equation)
    リンク先は「反応拡散系」です。空間に分布された一種あるいは複数種の物質の濃度が、物質がお互いに変化し合うような局所的な化学反応と、空間全体に物質が広がる拡散の2つのプロセスの影響によって変化する様子を数式で表現したもののことです。
  • アクティベータ(activator)
    リンク先は「アクチベーター」です。本文中で「空間全域で自発的に発現する」と書かれていることからもイメージできますが、遺伝子の転写を増加させる分子(タンパク質など)です。代表例は転写因子です。エンハンサに結合して転写を活性化させるものです。本文中ではuという記号で示されています。
  • インヒビタ(inhibitor)
    アクティベータの反対で、転写を阻害する分子です。低分子やタンパク質などいろいろなものがあると思います。本文中ではvという記号で示されています。
  • 微分方程式(differential equation)
    未知関数とその導関数の関係式として書かれている関数方程式のことです。
  • 連続モデル(continuous model)
    数量を解析的に記載するモデルのことです。
  • 電卓
    計算機の一種で電子(式)卓上計算機(でんし(しき)たくじょうけいさんき)の略です。名前の通り、電子回路によって計算を行い、卓上で使用できる(ないし、より小さい)サイズで便利です。
  • チューリング(Alan Turing)
    リンク先は「アラン・チューリング」です。イギリスの数学者です。電子計算機の黎明期の研究に従事し、計算機械チューリングマシンとして計算を定式化して、その知性や思考に繋がりうる能力と限界の問題を議論するなど情報処理の基礎的・原理的分野において大きな貢献をしました。また、偏微分方程式におけるパターン形成の研究などでも先駆的な業績があります。新50ポンド紙幣は2021年6月23日に発行されているようです。
  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • 離散モデル(discrete model)
    具体的な数値として記載するモデルのことです。確率モデル(stochastic model)ともいいます。分子の個数や細胞の数を具体的に設定して、変化を逐一計算できるのが特徴です。
  • 差分方程式(difference equation)
    リンク先は「差分法」です。微分方程式を解くために微分を有限差分近似(差分商)で置き換えて得られるもののことです。
  • 数理科学(mathematical sciences)
    数学・数学の応用分野、数理統計学を含む数学およびその周辺の学術分野のことです。
  • mRNA
    リンク先は「伝令RNA」です。メッセンジャーRNAのことです。タンパク質に翻訳されうる塩基配列情報と構造を持ったRNAのことです。
  • 微分方程式(differential equation)
    未知関数とその導関数の関係式として書かれている関数方程式のことです。
  • 相互作用(interaction)
    この場合はタンパク質と他の分子の間にはたらく、共有結合ほど強くないもの(または力)のことです。分子どうしの間の相互作用は分子間相互作用ですし、イオンどうしの相互作用はイオン間相互作用です。

  • 近藤滋
    日本の生命科学者です。
  • 反応拡散シミュレータ(Reaction-Diffusion System Simulator)
  • 微分方程式(differential equation)
    未知関数とその導関数の関係式として書かれている関数方程式のことです。
  • アクティベータ(activator)
    リンク先は「アクチベーター」です。本文中で「空間全域で自発的に発現する」と書かれていることからもイメージできますが、遺伝子の転写を増加させる分子(タンパク質など)です。代表例は転写因子です。エンハンサに結合して転写を活性化させるものです。本文中ではuという記号で示されています。
  • インヒビタ(inhibitor)
    アクティベータの反対で、転写を阻害する分子です。低分子やタンパク質などいろいろなものがあると思います。本文中ではvという記号で示されています。
  • 差分方程式(difference equation)
    リンク先は「差分法」です。微分方程式を解くために微分を有限差分近似(差分商)で置き換えて得られるもののことです。
  • 逐次計算
    この場合は、差分方程式に分子の個数や細胞の数を具体的に設定して、変化をその式が成り立つまで計算することです。
  • 決定的シミュレーション(deterministic simulation)
    リンク先は「決定的アルゴリズム」です。本文中の説明通り、「同じ初期値(入力)なら常に同じ結果が得られる」ようなシミュレーションの枠組みのことです。
  • ギレスピー法(Gillespie method)
    リンク先は「Gillespie algorithm」です。本文中の説明通り、「考慮する全反応の中で、次に反応が起こるまでの時間をサイコロにより決定し、さらに起きる反応をサイコロで決めて分子数を更新する方法」だと理解すればよいです。相互作用する分子の挙動を効率よく決定するために、1段階目の「次の反応が起こるまでの時間」と、2段階目の「どのような反応が起こるか(どの状態に遷移するか)」をランダムに決めるのがギレスピーアルゴリズムだと解釈してもよいと思います。
  • Gillespie DT., J Phys Chem., 1977
  • 図5.8
    (a)逐次計算と(b)ギレスピー法の違いです。ギレスピー法では、微小時間毎に各反応が起きるか起きないかをサイコロで判定する(それが逐次計算)のではなく、次に反応が起こるまでの時間をサイコロで決め、どの反応が起きるかを再びサイコロで決めます。

  • ギレスピー法(Gillespie method)
    リンク先は「Gillespie algorithm」です。本文中の説明通り、「考慮する全反応の中で、次に反応が起こるまでの時間をサイコロにより決定し、さらに起きる反応をサイコロで決めて分子数を更新する方法」だと理解すればよいです。相互作用する分子の挙動を効率よく決定するために、1段階目の「次の反応が起こるまでの時間」と、2段階目の「どのような反応が起こるか(どの状態に遷移するか)」をランダムに決めるのがギレスピーアルゴリズムだと解釈してもよいと思います。
  • ラムダファージ(lambda phage)
    リンク先は「ファージ」です。λファージとも書かれます。ファージは、細菌や古細菌に感染して複製するウイルスで、正式にはバクテリオファージ(bacteriophage)とよばれます。ラムダファージは、大腸菌に感染するウイルスです。「溶原化」もこのリンク先です。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • 溶菌(bacteriolysis)
    細菌の細胞が細胞壁の崩壊を伴って破壊され、死滅する現象のことです。単にlysisとも書かれます。
  • 分散(variance)
    リンク先は「分散 (統計学)」です。「データの標準偏差の二乗のこと」であり「平均値からの偏差の二乗の平均」です。
  • セルデザイナー(CellDesigner)Funahashi et al., BIOSILICO, 2003
    開発主体は、原著論文筆頭著者の舟橋研究室です。
  • 反応拡散シミュレータ(Reaction-Diffusion System Simulator)
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。生命現象を説明するのに必要な”登場人物”に相当するのが”要素”で、その要素に掛ける”係数”のようなイメージで”パラメータ”を捉えるとよいと思います。

  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。生命現象を説明するのに必要な”登場人物”に相当するのが”要素”で、その要素に掛ける”係数”のようなイメージで”パラメータ”を捉えるとよいと思います。
page153
  • 図5.8
    (a)逐次計算と(b)ギレスピー法の違いです。ギレスピー法では、微小時間毎に各反応が起きるか起きないかをサイコロで判定する(それが逐次計算)のではなく、次に反応が起こるまでの時間をサイコロで決め、どの反応が起きるかを再びサイコロで決めます。

  • ショウジョウバエ(Drosophila melanogaster)
    ハエ目(双翅目)・ショウジョウバエ科 (Drosophilidae) に属するハエの総称です。科学の分野では、その一種であるキイロショウジョウバエ (Drosophila melanogaster) のことをこうよぶことが多いです。
  • 体節(segment)
    動物の体の構造に見られる体軸方向の繰り返し構造を指す生物学用語です。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • 走化性(chemotaxis)
    生物体(単一の細胞や多細胞の生物体を問わず、細胞や細菌など)の周囲に存在する特定の化学物質の濃度勾配に対して方向性を持った行動を起こす現象のことです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 誘導体
    この場合は、元のタンパク質を母体として考えた時に、その一部が改変されたり、何か別のものが付加されたようなものだという理解でよいです。
  • 相互作用(interaction)
    この場合はタンパク質と他の分子の間にはたらく、共有結合ほど強くないもの(または力)のことです。分子どうしの間の相互作用は分子間相互作用ですし、イオンどうしの相互作用はイオン間相互作用です。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。
  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • 流体(fluid)
    静止状態においてせん断応力が発生しない連続体の総称です。流体に共通の性質は流動性です。これは体積一定で準静的な変形には力を要しないことであり、さらに言い換えると、静止状態において接触面に平行な内部の力が発生しない(せん断応力、接線応力が発生しない)となります。これより、上述の「静止状態においてせん断応力が発生しない連続体」という流体の定義が得られます。
  • 工学(engineering)
    基礎科学である数学・化学・物理学などを工業生産に応用する学問です。
  • ゲノム計画
    リンク先は「ヒトゲノム計画」です。ゲノムの全塩基配列を解析するプロジェクトのことです。

5.2.3 生命の理解とデザイン

  • 工学(engineering)
    基礎科学である数学・化学・物理学などを工業生産に応用する学問です。
  • 計算機科学(computer science)
    情報と計算の理論的基礎、およびそのコンピュータ上への実装と応用に関する研究分野です。「コンピュータ科学」ともよばれます。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。
  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • 微生物(microorganismまたはmicrobe)
    肉眼でその存在が判別できず、顕微鏡などによって観察できる程度以下の大きさの生物のことです。
  • ファインマン(Richard Feynman)
    リンク先は「リチャード・P・ファインマン」です。アメリカ合衆国出身の物理学者です。
  • 合成生物学(synthetic biology)
    生物学と工学の学際的な分野です。構成的生物学や構成生物学ともよばれます。幅広い研究領域を統合して生命を全体的に理解しようとする学問であったが、科学と工学の融合が進むにつれ、新しい生命機能あるいは生命システムをデザインして組み立てる分野も含むようになっています。
  • システム生物学(Systems Biology)
    システム工学の考え方や解析手法を生物学に導入し、生命現象をシステムとして理解することを目的とする学問分野のことです。
  • デザインパターン(design pattern)
    リンク先は「デザインパターン (ソフトウェア)」ですが、ここでのデザインパターンは、どの遺伝子とどの遺伝子が相互作用するかというパターンのことです(北野宏明, 人工知能学会誌, 2000)。本文中でも次の段落以降で詳述されています。

  • デザインパターン(design pattern)
    リンク先は「デザインパターン (ソフトウェア)」ですが、ここでのデザインパターンは、どの遺伝子とどの遺伝子が相互作用するかというパターンのことです(北野宏明, 人工知能学会誌, 2000)。本文中でも次の段落以降で詳述されています。
  • ソフトウェア工学(software engineering)
    ソフトウェアを対象とした工学である。すなわち、有用なソフトウェアが持つ特性・構造を探り、その構築・維持・管理に有用なプロセスを見出す学問です。
  • プログラミング(programming)
    ある特定の計算結果を得ることを目的として、実行可能なコンピュータープログラムを設計・構築するプロセスのことです。
  • 負のフィードバック(negative feedback)
    リンク先は「ネガティブフィードバック機構」です。生体恒常性を保つために働く調節機構の動作原理のことです。「ネガティブフィードバック」または「フィードバック阻害」ともよばれます。ホルモン分泌調節の例でいえば、ホルモンの量が多くなると、「ホルモン産生を抑制せよ」という指令がないと、延々と産生しつづけることになってしまいます。このように対象のホルモンの作用を不活性化し、抑制することが「負のフィードバック(またはネガティブフィードバック)」です。そのような機構のことを「負のフィードバック機構(またはネガティブフィードバック機構)」といいます。
  • 振動(oscillation)
    状態が一意に定まらず揺れ動く事象のことです。
page154
  • システム生物学(Systems Biology)
    システム工学の考え方や解析手法を生物学に導入し、生命現象をシステムとして理解することを目的とする学問分野のことです。

  • 例題5.2
    1ページ目が問題、2ページ目以降が解答例です。
    • 反応拡散シミュレータ(Reaction-Diffusion System Simulator)
    • チューリングパターン(Turing pattern)
      チューリング(Alan Turing)によって1952年に理論的存在が示された自発的に生じる空間的パターンのことです。式(5.1)のところでアクティベータ(activator)とインヒビタ(inhibitor)について解説されています。uが前者で、vが後者に対応します。
    • インヒビタ(inhibitor)
      アクティベータの反対で、転写を阻害する分子です。低分子やタンパク質などいろいろなものがあると思います。本文中ではvという記号で示されています。
    • アクティベータ(activator)
      リンク先は「アクチベーター」です。本文中で「空間全域で自発的に発現する」と書かれていることからもイメージできますが、遺伝子の転写を増加させる分子(タンパク質など)です。代表例は転写因子です。エンハンサに結合して転写を活性化させるものです。本文中ではuという記号で示されています。

5.3 細胞内の機能モジュール

5.3.1 フィードバック

  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • フィードバック(feedback)
    ある系の出力(結果)を入力(原因)側に戻す操作のことです。
  • 外界(outside world)
    自分をとりまく、周りの世界のことです。
  • 分子生物学(molecular biology)
    生命現象を分子を使って説明(理解)することを目的とする学問です。
  • 黎明期(れいめいき)
    リンク先は「黎明」です。ある事柄が形になる前の始まりの時期のことです。
  • ジャック・モノー(Jacques Monod)
    フランスの生物学者。生物における調節の分子メカニズムを中心として画期的な業績を挙げ、フランソワ・ジャコブとともにオペロン説を提出し、1965年のノーベル生理学・医学賞を受賞しています。
  • サイバネティックス(cybernetics)
    通信工学と制御工学を融合し,生理学,機械工学,システム工学,さらには人間,機械の相互関係(コミュニケーション)を統一的に扱うことを意図して作られ,発展した学問です。
  • ノーバート・ウィーナー(Norbert Wiener)
    アメリカ合衆国の数学者。サイバネティックスの提唱者として知られています。

  • 恒常性(homeostasis) 生物において、その内部環境を一定の状態に保ちつづけようとする傾向のことです。カタカナで「ホメオスタシス」と表現されることもあります。
  • 代謝(metabolism)
    生命の維持のために有機体が行う、外界から取り入れた無機物や有機化合物を素材として行う一連の合成や化学反応のことです。
  • 外界(outside world)
    自分をとりまく、周りの世界のことです。
  • 生理学(physiology)
    生命現象を機能の側面から研究する学問です。
  • 生化学(biochemistry)
    生命現象を化学的に研究する生物学または化学の一分野です。
  • 公理(axiom)
    その他の命題を導きだすための前提として導入される最も基本的な仮定のことでです。
  • 負のフィードバック(negative feedback)
    リンク先は「ネガティブフィードバック機構」です。生体恒常性を保つために働く調節機構の動作原理のことです。「ネガティブフィードバック」または「フィードバック阻害」ともよばれます。ホルモン分泌調節の例でいえば、ホルモンの量が多くなると、「ホルモン産生を抑制せよ」という指令がないと、延々と産生しつづけることになってしまいます。このように対象のホルモンの作用を不活性化し、抑制することが「負のフィードバック(またはネガティブフィードバック)」です。そのような機構のことを「負のフィードバック機構(またはネガティブフィードバック機構)」といいます。

  • ラムダファージ(lambda phage)
    リンク先は「ファージ」です。λファージとも書かれます。ファージは、細菌や古細菌に感染して複製するウイルスで、正式にはバクテリオファージ(bacteriophage)とよばれます。ラムダファージは、大腸菌に感染するウイルスです。「溶原化」もこのリンク先です。
  • 転写(transcription)
    一般に染色体またはオルガネラのDNAの塩基配列(遺伝子)を元に、RNAが合成されることです。
  • 遺伝子産物(gene product)
    遺伝子の発現によって生じるRNAまたはタンパク質の生化学的物質のことです。
  • 発現(expression)
    リンク先は「遺伝子発現」です。遺伝情報に基づいてRNAやタンパク質が合成されることを指します。
  • フィードバック(feedback)
    ある系の出力(結果)を入力(原因)側に戻す操作のことです。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • 宿主(host)
    寄生虫や菌類等が寄生、又は共生する相手の生物のことです。カマキリとハリガネムシの関係でいえば、カマキリが寄生される側(つまり宿主)となります。「しゅくしゅ」と読みます。
  • 溶原化(lysogenization)
    リンク先は「ファージ」です。細菌がファージによって感染(細菌ゲノムにファージゲノムが組み込まれること)することです。
  • 溶菌(bacteriolysis)
    細菌の細胞が細胞壁の崩壊を伴って破壊され、死滅する現象のことです。単にlysisとも書かれます。
  • 遺伝子スイッチ(genetic switch)
    トグルスイッチ(toggle switch)のように、スイッチ・ボタンなどで操作するたびに2つの状態(溶原化と溶菌)が交互に入れ替わるような機構です。具体的にはCIおよびCroとよばれる2つのタンパク質(元は遺伝子)のオン・オフが絡んでいることを踏まえれば、遺伝子スイッチとよばれる所以がわかるかと思います。
  • Ptashne M., CSH Press, 2004
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 図5.9
    ラムダファージにおけるCIとCroの関係の図です。取りうる発現量を0または1で表現すると、CIあるいはCroのみという状態で安定になります。両方とも全く発現しない場合も安定ですが、遺伝子発現がすべて0という状態は考慮しません。「CI Cro bistable switch」とか「CI-Cro epigenetic switch」のように表現されることもあるようですね(Schubert et al., Genes Dev., 2007)。
  • 双安定(bistability)
    リンク先は「双安定性」です。この場合は、溶原化または溶菌という2つの安定平衡状態を持つことです。

page155

5.3.1.1 負のフィードバックと振動現象

  • 負のフィードバック(negative feedback)
    リンク先は「ネガティブフィードバック機構」です。生体恒常性を保つために働く調節機構の動作原理のことです。「ネガティブフィードバック」または「フィードバック阻害」ともよばれます。ホルモン分泌調節の例でいえば、ホルモンの量が多くなると、「ホルモン産生を抑制せよ」という指令がないと、延々と産生しつづけることになってしまいます。このように対象のホルモンの作用を不活性化し、抑制することが「負のフィードバック(またはネガティブフィードバック)」です。そのような機構のことを「負のフィードバック機構(またはネガティブフィードバック機構)」といいます。
  • 振動(oscillation)
    状態が一意に定まらず揺れ動く事象のことです。
  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • カルシウム(calcium)
    原子番号20番の元素です。この中の「生理作用」のあたりが本文の内容と近いです。細胞内のカルシウムイオンは外より極端に濃度が低く、その差は3桁に達します。同様の濃度差はカリウムとナトリウムでも見られるが、カルシウムでは細胞内濃度が厳密に保たれています。これは、真核細胞内の情報伝達を担うカルシウムシグナリングのためと考えられており、細胞膜にカルシウムイオンを排出するカルシウムチャネルが備えられています。
  • 細胞周期(cell cycle)
    1つの細胞が2つの娘細胞を生み出す過程で起こる一連の事象、およびその周期のことです。細胞周期の代表的な事象として、ゲノムDNAの複製と分配、それに引き続く細胞質分裂(dh)があります。細胞周期は、光学顕微鏡での観察に基づき、間期(interphase)とM期(M phase)とに分けられます。間期はさらにG1期、S期、G2期に分けられます。M期は有糸分裂と細胞質分裂によって構成されます。有糸分裂では姉妹染色分体が細胞の両極に分かれ、引き続く細胞質分裂では細胞質が割れて2つの細胞が生み出されます。
  • 遺伝子発現(gene expression)
    遺伝子の情報が細胞における構造および機能に変換される過程のことです。
  • 図5.10(a)
  • 振動子(oscillator)
    微小な振動体を振動という性質にだけ着目したときに呼ぶ名称です。

  • 負のフィードバック(negative feedback)
    リンク先は「ネガティブフィードバック機構」です。生体恒常性を保つために働く調節機構の動作原理のことです。「ネガティブフィードバック」または「フィードバック阻害」ともよばれます。ホルモン分泌調節の例でいえば、ホルモンの量が多くなると、「ホルモン産生を抑制せよ」という指令がないと、延々と産生しつづけることになってしまいます。このように対象のホルモンの作用を不活性化し、抑制することが「負のフィードバック(またはネガティブフィードバック)」です。そのような機構のことを「負のフィードバック機構(またはネガティブフィードバック機構)」といいます。
  • 振動(oscillation)
    状態が一意に定まらず揺れ動く事象のことです。
  • フィードバック(feedback)
    ある系の出力(結果)を入力(原因)側に戻す操作のことです。
  • 恒常性(homeostasis) 生物において、その内部環境を一定の状態に保ちつづけようとする傾向のことです。カタカナで「ホメオスタシス」と表現されることもあります。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。

  • 合成生物学(synthetic biology)
    生物学と工学の学際的な分野です。構成的生物学や構成生物学ともよばれます。幅広い研究領域を統合して生命を全体的に理解しようとする学問であったが、科学と工学の融合が進むにつれ、新しい生命機能あるいは生命システムをデザインして組み立てる分野も含むようになっています。
  • 振動(oscillation)
    状態が一意に定まらず揺れ動く事象のことです。
  • リプレッサ(repressor)
    リンク先は「リプレッサー」です。サイレンサに結合して転写を抑制するものです。
  • 3すくみ(の関係)
    リンク先は「三すくみ」です。じゃんけんの関係だと思えばよいです。3つの者が互いに得意な相手と苦手な相手を1つずつ持つことで、3者とも身動きが取れなくなるような状態のことです。
  • プラスミド(plasmid)
    娘細胞に分配される染色体以外のDNA分子の総称です。細菌や酵母の細胞質内に存在し、核様体のDNAとは独立して自律的に複製を行います。一般に環状2本鎖構造をとります。遺伝子工学分野においては、遺伝子組み換えの際に多く用いられます。
  • リプレシレータ(repressilator)
    それぞれがループ内の次の遺伝子を抑制するタンパク質を発現する、少なくとも3つの遺伝子を持つ少なくとも1つのフィードバックループで構成される遺伝子調節ネットワークです。
  • 図5.10(b) Purcell et al., J R Soc Interface., 2010Figure 2aが対応します。
  • 振動子(oscillator)
    微小な振動体を振動という性質にだけ着目したときに呼ぶ名称です。この場合は、3すくみの関係を示す振動子(つまりリプレシレータ)のことを指します。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • ssrA
    small stable RNA Aの略で、10残基(程度)のペプチドです。ssrAタグとかssrA標識とよばれます(黒田章夫, 化学と生物, 2002)。このペプチドがC末端に付加されたタンパク質は、プロテアーゼ(タンパク質をより小さなポリペプチドや単一のアミノ酸への分解を触媒する加水分解酵素の総称)で分解されます。それゆえ、ssrAはプロテアーゼ分解シグナルとよばれます。上記の日本語総説では、ssrAタグとしてAALAYNEDNAというペプチド配列が示されています。また、別の総説では、AANDENYALAAというペプチドも示されています(Karzai et al., Nat Struct Biol., 2000)。
  • コドン(codon)
    塩基配列がアミノ酸配列に翻訳されるときの、各アミノ酸に対応する3つの塩基配列のことです。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • 減衰(attenuation)
    振動(態が一意に定まらず揺れ動く事象)の振幅(振動の大きさのこと)が次第に弱まることです。

  • 振動(oscillation)
    状態が一意に定まらず揺れ動く事象のことです。
  • 図5.10(c)
  • トポロジー(topology)
    リンク先は「位相幾何学」です。この場合は、全体的な関係性のことです。
  • チューリングパターン(Turing pattern)
    チューリング(Alan Turing)によって1952年に理論的存在が示された自発的に生じる空間的パターンのことです。式(5.1)のところでアクティベータ(activator)とインヒビタ(inhibitor)について解説されています。uが前者で、vが後者に対応します。
  • アクティベータ(activator)
    リンク先は「アクチベーター」です。本文中で「空間全域で自発的に発現する」と書かれていることからもイメージできますが、遺伝子の転写を増加させる分子(タンパク質など)です。代表例は転写因子です。エンハンサに結合して転写を活性化させるものです。本文中ではuという記号で示されています。
  • インヒビタ(inhibitor)
    アクティベータの反対で、転写を阻害する分子です。低分子やタンパク質などいろいろなものがあると思います。本文中ではvという記号で示されています。
  • プラスミド(plasmid)
    娘細胞に分配される染色体以外のDNA分子の総称です。細菌や酵母の細胞質内に存在し、核様体のDNAとは独立して自律的に複製を行います。一般に環状2本鎖構造をとります。遺伝子工学分野においては、遺伝子組み換えの際に多く用いられます。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • (振動の)周期
    リンク先は「振動」です。振動の一単位にかかる時間のことです。

  • 図5.10
    振動子の例です。
page156

5.3.1.2 正のフィードバックと双安定

  • 負のフィードバック(negative feedback)
    リンク先は「ネガティブフィードバック機構」です。生体恒常性を保つために働く調節機構の動作原理のことです。「ネガティブフィードバック」または「フィードバック阻害」ともよばれます。ホルモン分泌調節の例でいえば、ホルモンの量が多くなると、「ホルモン産生を抑制せよ」という指令がないと、延々と産生しつづけることになってしまいます。このように対象のホルモンの作用を不活性化し、抑制することが「負のフィードバック(またはネガティブフィードバック)」です。そのような機構のことを「負のフィードバック機構(またはネガティブフィードバック機構)」といいます。
  • 振動(oscillation)
    状態が一意に定まらず揺れ動く事象のことです。
  • 図5.9
    ラムダファージにおけるCIとCroの関係の図です。取りうる発現量を0または1で表現すると、CIあるいはCroのみという状態で安定になります。両方とも全く発現しない場合も安定ですが、遺伝子発現がすべて0という状態は考慮しません。「CI Cro bistable switch」とか「CI-Cro epigenetic switch」のように表現されることもあるようですね(Schubert et al., Genes Dev., 2007)。
  • ラムダファージ(lambda phage)
    リンク先は「ファージ」です。λファージとも書かれます。ファージは、細菌や古細菌に感染して複製するウイルスで、正式にはバクテリオファージ(bacteriophage)とよばれます。ラムダファージは、大腸菌に感染するウイルスです。「溶原化」もこのリンク先です。
  • 溶原化(lysogenization)
    リンク先は「ファージ」です。細菌がファージによって感染(細菌ゲノムにファージゲノムが組み込まれること)することです。
  • 溶菌(bacteriolysis)
    細菌の細胞が細胞壁の崩壊を伴って破壊され、死滅する現象のことです。単にlysisとも書かれます。
  • ヒルの式(Hill equation)
    生化学で用いられる方程式であり、1910年にアーチボルド・ヒルがヘモグロビンへの酸素の結合に関する協同効果を説明する経験式として導入したものです。「ヒル係数」もこのリンク先です。
  • 図5.11
    ヒルの式とそのふるまいです。Kは定数で、Lが濃度を表します。nが大きくなるとスイッチ効果を示すシグモイド状になります。
  • 酵素(enzyme)
    生体内外で起こる化学反応に対して触媒として機能する分子のことです。
  • 反応速度(reaction rate)
    化学反応の反応物あるいは生成物に関する各成分量の時間変化率を表す量のことです。
  • 結合部位(binding site)
    他の分子と特異的に結合するタンパク質などの高分子上の領域のことです。タンパク質高分子の結合相手は、リガンドとよばれます。
  • 飽和量(saturation amount or saturated amount)
    リンク先は「飽和」です。上述のヒルの式(Hill equation)のところで書かれていますが、ヘモグロビンに代表されるアロステリックタンパク質の一部では、リガンドの結合に関して、すでにそのリガンドが結合していれば、さらなる結合が促進される性質があります。ヒルの式は、リガンドで飽和したタンパク質の比率をリガンド濃度の関数として表すためのものでもあります。「タンパク質結合部位の飽和量」という書き方になっていることからも想像できますが、この場合の飽和量は、「リガンドが結合可能な限界量に達しているタンパク質の割合」という理解でよいです。
  • 基質(substrate)
    リンク先は「基質 (化学)」です。化学反応において他の試薬と反応して生成物を作る化学種の1つです。
  • リガンド(ligand)
    生体分子と複合体を形成して生物学的な目的を果たす物質のことです。 タンパク質-リガンド結合では、リガンドは通常、標的タンパク質上の結合部位に結合することでシグナルを生成する分子のことです。
  • ヘモグロビン(hemoglobin; Hb)
    ヒトを含むすべての脊椎動物や一部のその他の動物の血液中に見られる赤血球の中に存在するタンパク質です。1960年頃にはアミノ酸配列が決定されています。
  • 双安定(bistability)
    リンク先は「双安定性」です。この場合は、溶原化または溶菌という2つの安定平衡状態を持つことです。
  • 大気(atmosphere)
    リンク先は「地球の大気」です。地球の表面を層状に覆っている気体のことです。大気が存在する範囲を大気圏(たいきけん)、その外側を宇宙空間といいます。
  • 静脈血(venous blood)
    全身に酸素を供給した後の、二酸化炭素を多く含んだ血液のことです。
  • アロステリック効果(allosteric effect)
    タンパク質の機能が他の化合物(制御物質、エフェクター)によって調節されることを指します。主に酵素反応に関して用いられる用語です。「タンパク質と化合物が一対多の複合体を形成する際に、前の段階の複合体形成によって次以降の複合体形成反応が促進・抑制されること、あるいはその複合体による反応が加速・減速されること」です。「協同効果」ともよばれます。
  • 立体構造(tertiary structure)
    リンク先は「三次構造」です。タンパク質やその他の高分子が取る三次元構造のことであり、その空間配置は原子座標によって定義されます。
  • PDBBurley et al., Nucleic Acids Res., 2021
    PDBjの生体高分子学習ポータルサイト「41.ヘモグロビン」の解説が参考になります。著作権は「PDBjと文章の翻訳者」です。

5.3.2 フィードフォワード

page157
  • 図5.12
    要素Aによる要素Cへの直接および間接的制御に矛盾がないコヒーレントなFFLの例です。
  • 図5.13
    要素Aによる要素Cへの制御が矛盾するインコヒーレントなFFLの例です。(a) 要素Bは要素Cの発現に対して時間遅れのブレーキになっています。(b) 要素Aによるアクセルと要素Bによるブレーキを上手に組み合わせると、太い実線が示すように早く目標値に近づけます。これに対してフィードバック制御のみの場合、破線が示すように目標値に達するまで時間を要します。

  • 転写因子(transcription factor; TF)
    DNAに特異的に結合するタンパク質のことです。DNA上のプロモータ領域に、基本転写因子とよばれるものと、RNAポリメラーゼ(RNA合成酵素)が結合し、転写が開始します。DNAの遺伝情報をRNAに転写する過程を促進、あるいは逆に抑制します。転写因子はこの機能を単独で、または他のタンパク質と複合体を形成することによって実行します。ヒトのゲノム上には、転写因子をコードする遺伝子がおよそ1,800個程度存在するとの推定がなされています。
  • フィードバック(feedback)
    ある系の出力(結果)を入力(原因)側に戻す操作のことです。
  • カスケード(cascade)
    連続したもの、数珠つなぎになったものを意味する言葉です。
  • 転写調節(transcriptional regulation)
    リンク先は「遺伝子発現の調節」です。この中に「転写の調節」という項目があります。「いつ転写が起こるか、どれだけのRNAがつくられるかの制御」のことです。 Wikipediaの英語版には「Transcriptional regulation」があります。
  • Uri Alon
    イスラエルのシステム生物学者です。
  • RegulonDBHuerta et al., Nucleic Acids Res., 1998
  • 図5.12
    要素Aによる要素Cへの直接および間接的制御に矛盾がないコヒーレントなFFLの例です。
  • 図5.13
    要素Aによる要素Cへの制御が矛盾するインコヒーレントなFFLの例です。(a) 要素Bは要素Cの発現に対して時間遅れのブレーキになっています。(b) 要素Aによるアクセルと要素Bによるブレーキを上手に組み合わせると、太い実線が示すように早く目標値に近づけます。これに対してフィードバック制御のみの場合、破線が示すように目標値に達するまで時間を要します。
  • コヒーレント(coherent)
    リンク先は「コヒーレンス」です。この場合は、本文の説明どおり「矛盾がない」という意味で理解するとよいです。
  • フィードフォワードループ(feed forward loop; FFL)
    転写調節は基本的に上位から下位にカスケード状に働きますが、このような上流から下流という制御関係のことをフィードフォワードループといいます。図5.12に示すような直接的にも間接的にも正に制御するFFLのことを「コヒーレントなFFL」、図5.13に示すような直接的には正だが間接的には負に制御するFFLのことを「インコヒーレントなFFL」といいます。もちろん理論上は、後者は、直接的には負だが間接的には正に制御するようなものであってもよいです。
  • コヒーレントなFFL
    転写調節は基本的に上位から下位にカスケード状に働きますが、このような上流から下流という制御関係のことをフィードフォワードループ(feed forward loop; FFL)といいます。図5.12に示すような、直接的にも間接的にも正に制御するFFLのことです。
  • インコヒーレントなFFL
    転写調節は基本的に上位から下位にカスケード状に働きますが、このような上流から下流という制御関係のことをフィードフォワードループ(feed forward loop; FFL)といいます。図5.13に示すような、直接的には正だが間接的には負に制御するFFLのことです。もちろん理論上は、直接的には負だが間接的には正に制御するようなものであってもよいです。

  • FFL
    フィードフォワードループ(feed forward loop)の略です。転写調節は基本的に上位から下位にカスケード状に働きますが、このような上流から下流という制御関係のことをフィードフォワードループといいます。図5.12に示すような直接的にも間接的にも正に制御するFFLのことを「コヒーレントなFFL」、図5.13に示すような直接的には正だが間接的には負に制御するFFLのことを「インコヒーレントなFFL」といいます。もちろん理論上は、後者は、直接的には負だが間接的には正に制御するようなものであってもよいです。
  • Uri Alon
    イスラエルのシステム生物学者です。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
page158

5.3.2.1 コヒーレントなFFLによるノイズ除去

  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • グルコース(glucose)
    分子式 C6H12O6を持つ単純な糖です。ブドウ糖ともよばれます。
  • アラビノース(arabinose)
    五炭糖およびアルドースに分類される糖の一種です。他の単糖とは異なり、自然界にD体よりもL体の方が多いという特徴をもちます。
  • 糖(sugar)
    多価アルコールの最初の酸化生成物であり、ホルミル基(−CHO)またはカルボニル基(>C=O)を1つもちます。
  • コヒーレント(coherent)
    リンク先は「コヒーレンス」です。この場合は、本文の説明どおり「矛盾がない」という意味で理解するとよいです。
  • FFL
    フィードフォワードループ(feed forward loop)の略です。転写調節は基本的に上位から下位にカスケード状に働きますが、このような上流から下流という制御関係のことをフィードフォワードループといいます。図5.12に示すような直接的にも間接的にも正に制御するFFLのことを「コヒーレントなFFL」、図5.13に示すような直接的には正だが間接的には負に制御するFFLのことを「インコヒーレントなFFL」といいます。もちろん理論上は、後者は、直接的には負だが間接的には正に制御するようなものであってもよいです。
  • 図5.12(a)
  • サイクリックAMP(cyclic AMP; cAMP)
    リンク先は「環状アデノシン一リン酸」です。アデノシン三リン酸 (ATP) から合成され、リボースの3’ および5’ 位とリン酸基が環状になっている分子です。グルカゴンやアドレナリンといったホルモン伝達の際の細胞内シグナル伝達においてセカンドメッセンジャーとして働きます。
  • 転写因子(transcription factor; TF)
    DNAに特異的に結合するタンパク質のことです。DNA上のプロモータ領域に、基本転写因子とよばれるものと、RNAポリメラーゼ(RNA合成酵素)が結合し、転写が開始します。DNAの遺伝情報をRNAに転写する過程を促進、あるいは逆に抑制します。転写因子はこの機能を単独で、または他のタンパク質と複合体を形成することによって実行します。ヒトのゲノム上には、転写因子をコードする遺伝子がおよそ1,800個程度存在するとの推定がなされています。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 代謝系(metabolic system)
    リンク先は「代謝経路」です。「生化学において細胞の中で起きる連鎖的な化学反応のシステム」のことです。
  • 恒常性(homeostasis) 生物において、その内部環境を一定の状態に保ちつづけようとする傾向のことです。カタカナで「ホメオスタシス」と表現されることもあります。

  • FFL
    フィードフォワードループ(feed forward loop)の略です。転写調節は基本的に上位から下位にカスケード状に働きますが、このような上流から下流という制御関係のことをフィードフォワードループといいます。図5.12に示すような直接的にも間接的にも正に制御するFFLのことを「コヒーレントなFFL」、図5.13に示すような直接的には正だが間接的には負に制御するFFLのことを「インコヒーレントなFFL」といいます。もちろん理論上は、後者は、直接的には負だが間接的には正に制御するようなものであってもよいです。
  • 図5.12(b)
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • 鞭毛(flagella)
    「べんもう」と読みます。毛状の細胞小器官であり、その主な役目は遊泳に必要な推進力を生み出すことです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。

  • コヒーレントなFFL
    転写調節は基本的に上位から下位にカスケード状に働きますが、このような上流から下流という制御関係のことをフィードフォワードループ(feed forward loop; FFL)といいます。図5.12に示すような、直接的にも間接的にも正に制御するFFLのことです。
  • 転写因子(transcription factor; TF)
    DNAに特異的に結合するタンパク質のことです。DNA上のプロモータ領域に、基本転写因子とよばれるものと、RNAポリメラーゼ(RNA合成酵素)が結合し、転写が開始します。DNAの遺伝情報をRNAに転写する過程を促進、あるいは逆に抑制します。転写因子はこの機能を単独で、または他のタンパク質と複合体を形成することによって実行します。ヒトのゲノム上には、転写因子をコードする遺伝子がおよそ1,800個程度存在するとの推定がなされています。
  • パルス(pulse)
    短時間に急峻な変化をするシグナル(信号)の総称です。

5.3.2.2 インコヒーレントなFFLとパルス生成

  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • ガラクトース(galactose)
    アルドヘキソースに分類される単糖の一種です。乳製品や甜菜、ガム、および粘液で見出される他、ヒトの体内でも合成され各組織で糖脂質や糖タンパク質の一部を形成します。
  • 糖(sugar)
    多価アルコールの最初の酸化生成物であり、ホルミル基(−CHO)またはカルボニル基(>C=O)を1つもちます。
  • インコヒーレントなFFL
    転写調節は基本的に上位から下位にカスケード状に働きますが、このような上流から下流という制御関係のことをフィードフォワードループ(feed forward loop; FFL)といいます。図5.13に示すような、直接的には正だが間接的には負に制御するFFLのことです。もちろん理論上は、直接的には負だが間接的には正に制御するようなものであってもよいです。
  • 図5.13
    要素Aによる要素Cへの制御が矛盾するインコヒーレントなFFLの例です。(a) 要素Bは要素Cの発現に対して時間遅れのブレーキになっています。(b) 要素Aによるアクセルと要素Bによるブレーキを上手に組み合わせると、太い実線が示すように早く目標値に近づけます。これに対してフィードバック制御のみの場合、破線が示すように目標値に達するまで時間を要します。
  • cAMP
    リンク先は「環状アデノシン一リン酸」です。cAMP(さいくりっくえーえむぴー、と読みます)。アデノシン三リン酸(ATP)から合成され、リボースの3’および5’位とリン酸基が環状になっている分子です。グルカゴンやアドレナリンといったホルモン伝達の際の細胞内シグナル伝達においてセカンドメッセンジャーとして働きます。
  • 転写因子(transcription factor; TF)
    DNAに特異的に結合するタンパク質のことです。DNA上のプロモータ領域に、基本転写因子とよばれるものと、RNAポリメラーゼ(RNA合成酵素)が結合し、転写が開始します。DNAの遺伝情報をRNAに転写する過程を促進、あるいは逆に抑制します。転写因子はこの機能を単独で、または他のタンパク質と複合体を形成することによって実行します。ヒトのゲノム上には、転写因子をコードする遺伝子がおよそ1,800個程度存在するとの推定がなされています。
  • グルコース(glucose)
    分子式 C6H12O6を持つ単純な糖です。ブドウ糖ともよばれます。
  • 代謝(metabolism)
    生命の維持のために有機体が行う、外界から取り入れた無機物や有機化合物を素材として行う一連の合成や化学反応のことです。

  • ガラクトース(galactose)
    アルドヘキソースに分類される単糖の一種です。乳製品や甜菜、ガム、および粘液で見出される他、ヒトの体内でも合成され各組織で糖脂質や糖タンパク質の一部を形成します。
  • 代謝(metabolism)
    生命の維持のために有機体が行う、外界から取り入れた無機物や有機化合物を素材として行う一連の合成や化学反応のことです。

  • インコヒーレントなFFL
    転写調節は基本的に上位から下位にカスケード状に働きますが、このような上流から下流という制御関係のことをフィードフォワードループ(feed forward loop; FFL)といいます。図5.13に示すような、直接的には正だが間接的には負に制御するFFLのことです。もちろん理論上は、直接的には負だが間接的には正に制御するようなものであってもよいです。
  • 図5.14
    利用されないインコヒーレントなFFLの例です。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
page159

5.4 マルチオミックス

  • メタボロミクス(Metabolomics)
    細胞の活動によって生じる特異的な分子を網羅的に解析することです。メタボロームは、ある生物の持つすべての代謝産物(メタボライト)を 表します。メタボロームは、ある1つの組織に含まれる、代謝中間体、ホルモン、シグナル分子、二次代謝産物などを含む生体中のすべての小分子を集めてカタログ化したものです。これを解析するのがメタボローム解析(またはメタボロミクス)です。従って、メタボローム解析(metabolomic analysis)も同じ意味です。
  • プロテオミクス(Proteomics)
    リンク先は「プロテオーム解析(Proteomic analysis)」です。特に構造と機能を対象としたタンパク質の大規模な研究のことです。ある生物が持つすべてのタンパク質のセット、またはある細胞がある瞬間に発現しているすべてのタンパク質のセットを解析する学問です。
  • 質量分析法(mass spectrometry; MS)
    分子をイオン化し、そのm/zを測定することによってイオンや分子の質量を測定する分析法です。質量分析においては、試料はイオン化され、電界または磁界中で分離されます。このとき、イオンが受ける力は質量mと電荷zの比、m/zに比例します。したがって、マススペクトルの横軸は質量でなく、m/zの値になります。もう少し具体的に述べると、高電圧をかけた真空中で試料をイオン化すると、静電力によって試料は装置内を飛行します。飛行しているイオンを電気的・磁気的な作用等により質量電荷比に応じて分離し、その後それぞれを検出することで、m/zを横軸、検出強度を縦軸とするマススペクトルを得ることができるのです。
  • オミックス(omics)
    リンク先は「オーミクス」です。「研究対象+omics」という名称を持つ生物学の研究分野の非公式な総称です。生命の様々な層(クラスター)に存在する大量の生物学的情報の相互作用や機能を解析する科学・工学分野です。
  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • 化合物(chemical compound)
    化学反応を経て2種類以上の元素が結合することによって生成する物質のことです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • リポジトリ(repository)
    貯蔵庫とか保管場所という理解でよいです。
  • W5.3

    主要なメタボロームおよびプロテオームの公共リポジトリです。

    名称
    (実施者)
    対象
    (実験技術)
    MetaboLights
    (欧州EBI)
    メタボロミクス
    (質量分析NMR)
    Metabolomics Workbench
    (米国NIH)
    メタボロミクス
    (質量分析NMR)
    MassIVE
    (カリフォルニア大学)
    メタボロミクス・プロテオミクス
    (質量分析)
    PRIDE
    (欧州EBI)
    プロテオミクス
    (質量分析)

  • NGS
    次世代シーケンシング(next-generation sequencing)技術のことです。何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。2022年現在は、主に第2世代シーケンサ(2nd-generation sequencer)とよばれているシーケンシング技術に基づく機器のことを指します。2010~2015年頃はNGSとよくよばれていました。いわゆる第3世代シーケンサ(3rd generation sequencer)の技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。ちなみに、1.5節や1.6節で述べているロングリードが得られるシーケンス技術や機器が第3世代です。
  • トランスクリプトーム(transcriptome)
    特定の状況下において細胞中に存在するすべてのRNA(または一次転写産物; transcript)の総体のことです。ここでは、NGS機器を用いてすべてのRNA(実際にはmRNAのみだったりするので網羅的ではありません)の配列を決定することという意味で、RNAシーケンシング(RNA sequencing)の略称であるRNA-seqが用いられることが多いです。
  • クロマチン免疫沈降(chromatin immunoprecipitation; ChIP)
    リンク先は「クロマチン免疫沈降」です。タンパク質に対する抗体を用いてDNAとタンパク質との相互作用(結合)を研究する方法の1つで、特定のタンパク質(転写因子など)が結合するDNA上の部位とその配列を明らかにする方法です。特定のDNA結合タンパク質(DBP)や修飾されたヒストンに対する抗体を用いることで、DNA上の断片化された当該領域のクロマチンを免疫沈降によって選択的に分離・濃縮する技術です。
  • ChIP-seq
    リンク先は「クロマチン免疫沈降」です。クロマチン免疫沈降(chromatin immunoprecipitation)の略がChIPです。免疫沈降によって濃縮されたターゲットの塩基配列をNGS機器でシーケンスするのでChIP-seqです。
  • クロマチン(chromatin)
    真核細胞内に存在するDNAとタンパク質の複合体のことです。ヒト2倍体細胞に納められているDNAの総延長はおよそ2 mに達します。これを直径約10 μmの核に収納するための構造がクロマチンです。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソーム(nucleosome)です。クロマチンは凝集の度合いによりヘテロクロマチン(heterochromatin)とユークロマチン(euchromatin)に分類されます。遺伝子密度が低い領域や遺伝子発現が抑制されている領域は、強く折りたたまれてヘテロクロマチンを形成する傾向にあります。一方、遺伝子の転写が活発な領域のクロマチンは比較的緩んでおり、ユークロマチンとよばれます。
  • ATAC-seq
    Assay for Transposase-Accessible Chromatin using sequencingの略です。得られる情報自体はDNase-seqと基本的に同じで、オープンクロマチン領域由来のリードを得るための実験技術です。トランスポザーゼ(transposase)は、トランスポゾン(transposon)の末端に結合し、カットアンドペーストメカニズムまたは複製転移メカニズムによってゲノムの別の部分への移動を触媒する酵素です。ATAC-seqでは、「Tn5というトランスポゾン配列を認識してトランスポゾンをゲノム配列から切り出したのち、適当な箇所に再度挿入する”Tn5トランスポザーゼ”」を改良して、オープンクロマチン領域中の2本鎖DNAを切断し(これが断片化)、得られた断片配列の両端にアダプター配列を挿入する(これがタグ付け)高活性・変異型のTn5トランスポザーゼを利用しているのが特徴です。得られるライブラリ中のインサート(ライブラリ調製後のDNA断片のこと)は、オープンクロマチン領域由来DNA断片であり、既にアダプター配列の付加まで終わっているというのも特徴です。この断片化とタグ付けを行う一連のプロセスが、タグ付け(tagging)と断片化(fragmentation)の造語としてタグメンテーション(tagmentation)とよばれよばれるものです。YoutubeのATAC Sequencingという動画も理解しやすいと思います。

  • 国際塩基配列データベース(International Nucleotide Sequence Database; INSD)
    リンク先は「国際塩基配列データベース連携(International Nucleotide Sequence Database Collaboration; INSDC) 」です。CollaborationのCを意図的に抜いているのは、ここではデータベースにフォーカスしているためだと理解すればよいです。
page160
  • 表5.1

    塩基配列の主要データセンターです。各センターが様々なリポジトリを運用してます。

    名称 URL 解説
    National Center for Biotechnology Information (NCBI) https://www.ncbi.nlm.nih.gov/
    (GenBankなど)
    GenBank/ENA/DDBJの3極は情報を日々交換しており、データをどこに登録しても3箇所から検索できます。ヒトゲノムについては各国で扱いが異なりますが、公開配列は3極で管理しています。
    European Bioinformatics Institute (EBI) https://www.ebi.ac.uk/
    (ENAなど)
    同上
    DNA Data Bank of Japan (DDBJ) https://www.ddbj.nig.ac.jp/
    (DDBJなど)
    同上
    National Genomics Data Center (NGDC) https://ngdc.cncb.ac.cn/ 中国版のNGS用アーカイブを提供し、急速に拡大しています。

  • 学術誌(academic journal)
    リンク先は「学術雑誌」です。主として研究者の執筆した論文を掲載する雑誌のことです。学術分野に応じて極めて多くの雑誌が発行されているが、読者はそれぞれの分野の専門家が中心であるため、一般書店に置かれることはあまりありません。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • RNA
    リボ核酸(ribonucleic acid)のことです。リボースを糖成分とする核酸です。リボヌクレオチドが多数重合したもので、1本鎖をなし、アデニン(A)、グアニン(G)、シトシン(C)、ウラシル(U)の4種の塩基を含みます。一般にDNA(デオキシリボ核酸)を鋳型として合成され、その遺伝情報の伝達やタンパク質の合成を行います。
  • GenBankSayers et al., Nucleic Acids Res., 2021
    NCBIが提供する塩基配列DBです。
  • ENAToribio et al., Nucleic Acids Res., 2017
    European Nucleotide Archiveの略で、欧州のEMBL-EBIという組織が提供する塩基配列DBです。
  • INSD
    リンク先は「国際塩基配列データベース連携(International Nucleotide Sequence Database Collaboration; INSDC) 」です。INSDは、国際塩基配列データベース(International Nucleotide Sequence Database)の略です。CollaborationのCを意図的に抜いているのは、ここではデータベースにフォーカスしているためだと理解すればよいです。
  • ゲノム配列(genome sequence)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • NGS
    次世代シーケンシング(next-generation sequencing)技術のことです。何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。2022年現在は、主に第2世代シーケンサ(2nd-generation sequencer)とよばれているシーケンシング技術に基づく機器のことを指します。2010~2015年頃はNGSとよくよばれていました。いわゆる第3世代シーケンサ(3rd generation sequencer)の技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。ちなみに、1.5節や1.6節で述べているロングリードが得られるシーケンス技術や機器が第3世代です。
  • シーケンサ(sequencer)
    DNA分子の塩基配列を決定する機器のことです。
  • リポジトリ(repository)
    貯蔵庫とか保管場所という理解でよいです。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。
  • ボトルネック(bottleneck)
    この場合は、制約部分という理解でよいです。

  • ビッグデータ(big data)
    一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語です。
  • 検索エンジン(search engine)
    狭義にはインターネットに存在する情報(Webページ、Webサイト、画像ファイル、ネットニュースなど)を検索する機能およびそのプログラムのことです。
  • HTML
    HyperText Markup Languageの略です。リンク先は「HyperText Markup Language」です。ハイパーテキストを記述するためのマークアップ言語の1つです。略してHTML(エイチティーエムエル)とよばれることが多いです。World Wide Web (WWW)において、Webページを表現するために用いられます。
  • 計算機科学(computer science)
    情報と計算の理論的基礎、およびそのコンピュータ上への実装と応用に関する研究分野です。「コンピュータ科学」ともよばれます。
  • 厳密解
    式変形だけで計算した解のことです。
  • 次元圧縮(dimensionality reduction)
    高次元空間から低次元空間へデータを変換しながら、低次元表現が元データの何らかの意味ある特性を保持することです。多次元の情報をなるべく情報量を落とさずに低次元の情報に落とし込む作業のことを指します。次元削減ともよばれます。
  • ネットワーク解析(network analysis)
    遺伝子発現制御やタンパク質間相互作用の関係性などを、たとえば遺伝子またはタンパク質を頂点(node)、そして制御関係または相互作用するものどうしに辺(edge)で結んで示したものをグラフ(またはネットワーク)で表現して解析することを指します。
  • メタボロミクス(Metabolomics)
    細胞の活動によって生じる特異的な分子を網羅的に解析することです。メタボロームは、ある生物の持つすべての代謝産物(メタボライト)を 表します。メタボロームは、ある1つの組織に含まれる、代謝中間体、ホルモン、シグナル分子、二次代謝産物などを含む生体中のすべての小分子を集めてカタログ化したものです。これを解析するのがメタボローム解析(またはメタボロミクス)です。従って、メタボローム解析(metabolomic analysis)も同じ意味です。
  • プロテオミクス(Proteomics)
    リンク先は「プロテオーム解析(Proteomic analysis)」です。特に構造と機能を対象としたタンパク質の大規模な研究のことです。ある生物が持つすべてのタンパク質のセット、またはある細胞がある瞬間に発現しているすべてのタンパク質のセットを解析する学問です。

5.4.1 主成分による次元圧縮

  • スカラー(scalar)
  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • シーケンサ(sequencer)
    DNA分子の塩基配列を決定する機器のことです。
  • 質量分析法(mass spectrometry; MS)
    分子をイオン化し、そのm/zを測定することによってイオンや分子の質量を測定する分析法です。質量分析においては、試料はイオン化され、電界または磁界中で分離されます。このとき、イオンが受ける力は質量mと電荷zの比、m/zに比例します。したがって、マススペクトルの横軸は質量でなく、m/zの値になります。もう少し具体的に述べると、高電圧をかけた真空中で試料をイオン化すると、静電力によって試料は装置内を飛行します。飛行しているイオンを電気的・磁気的な作用等により質量電荷比に応じて分離し、その後それぞれを検出することで、m/zを横軸、検出強度を縦軸とするマススペクトルを得ることができるのです。
  • ベクトル(vector)
    集合を構成する個々の数学的対象のことを数学の世界では「元(げん)」といいます。ベクトルは、この元(element)からなる集まりの成す数学的構造です。厳密に説明するとかえってややこしいですが、たとえば空間上のある位置を表現したいときは、\(x\)軸・\(y\)軸・\(z\)軸という\(3\)つ組の数値を提示せねばならないと考えればよいです。これは\((x, y, z)\)のように表現できますが、これがベクトルです。
  • 遺伝子変異パターン
    この場合は、p個ある遺伝子のどれに一塩基多型(single nucleotide polymorphism; SNP)のような変異(variation)があるかないかといったp次元ベクトルの情報が得られるようなイメージです。
  • 化合物(chemical compound)
    化学反応を経て2種類以上の元素が結合することによって生成する物質のことです。
  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • 正方行列(square matrix)
    行数と列数が同じ行列のことです。行数と列数がともにnの正方形の形をした行列をn次の正方行列といいます。
  • 線形回帰(linear regression)
    「説明変数(explanatory variables)」も「目的変数(response variables)」もこのリンク先です。説明変数に対して目的変数が線形(グラフとして表した時に直線となるような数学的関係のこと)またはそれから近い値で表される状態のことです。たとえば、「葉っぱに含まれる様々な化合物の量から、その植物の草丈を予測したい」という問題設定の場合、説明変数は葉っぱに含まれる様々な化合物の量、目的変数は測定した植物の草丈ということになります。
  • 図5.15
    逆行列計算による回帰式です。ε(イプシロン)は誤差項を表し、ここでは無視して考えます。
  • 目的変数(response variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、f(x)またはyに相当するものです。応答変数ともよばれます。
  • 草丈(くさたけ)
    草の背の高さのことです。正確には地上面から最も高い葉っぱの先端までの長さのことです。

page161
  • 図5.15
    逆行列計算による回帰式です。ε(イプシロン)は誤差項を表し、ここでは無視して考えます。

  • 添字(subscriptまたはindex)
    リンク先は「添え字」です。文字の右上、左上、右下、左下のいずれかに書かれる文字のことです。上記の例だと様々な化合物の種類があったときに、1番目の化合物、2番目の化合物、…、i番目の化合物といった具体でどの化合物かを指し示す目的で添字をつけます。
  • 転置(transpose)
    リンク先は「転置行列」です。n行×p列の行列Aに対して Aの(i, j)要素と(j, i)要素を入れ替える作業のことです。この作業の結果としてできるp行×n列の行列のことを転置行列といいます。
  • 植物(plant)
    草や木などのように、根があって場所が固定されて生きているような生物のことです。対義語は動物です。
  • 化合物(chemical compound)
    化学反応を経て2種類以上の元素が結合することによって生成する物質のことです。
  • 説明変数(explanatory variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、xに相当するものです。
  • 線形結合(linear combination)
    本文中の該当する数式の右辺からもある程度想像がつきますが、複数ある化合物の量を、たとえば1番目の化合物(化合物1)にはb1という重みを掛けることで右辺の1番目の項(つまりb1×化合物1のこと)が形成されていることがわかります。同様にして、2番目の項は、2番目の化合物(化合物2)にb2という重みを掛けてできたものになります。線形結合というのは、これらの各項を「足す(記号でいうと+)」という操作やそれによってできたものを指す言葉です。なお、本文中では「植物iで測定したj番目の化合物」という書き方をしていますが、ここでは説明の簡略化のために実際には複数の個体(つまり植物)のデータが取得されているという事実を無視しています。
  • 目的変数(response variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、f(x)またはyに相当するものです。応答変数ともよばれます。
  • 草丈(くさたけ)
    草の背の高さのことです。正確には地上面から最も高い葉っぱの先端までの長さのことです。
  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • 逆行列(inverse matrix)
    リンク先は「正則行列」です。まずn次の正方行列(ここではAと表現します)とは、行数と列数がともにnの正方形の形をした行列のことです。Aと同じ次数の単位行列(左上から右下の対角線上の要素のみが1でそれ以外が0の行列のこと)をEとすると、XA = AX = Eを満たすn次の正方行列Xを「Aの逆行列」といいます。そして、このような逆行列が存在するAのことを正則行列といいます。「正則行列が正方行列である」ことは間違いないですが、「正方行列が正則行列であるとは限りません」のでご注意ください。
  • 最小二乗法(least squares method)
    測定で得られた数値の組を、適当なモデルから想定される1次関数、対数曲線など特定の関数を用いて近似するときに、想定する関数が測定値に対してよい近似となるように、残差の二乗和を最小とするような係数を決定する方法、あるいはそのような方法によって近似を行うことです。

  • 連立方程式(simultaneous equation)
    リンク先は「方程式」です。同時に成立する複数本の方程式の組のことです。
  • 誤差(error)
    測定や計算などで得られた値(M)と、指定値あるいは理論的に正しい値あるいは真値(T)の差のことです。この差のことをイプシロン(ε)といい、ε = M - Tと表現することができます。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。この場合は測定された化合物数のことです。
  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • 正方行列(square matrix)
    行数と列数が同じ行列のことです。行数と列数がともにnの正方形の形をした行列をn次の正方行列といいます。
  • 逆行列(inverse matrix)
    リンク先は「正則行列」です。まずn次の正方行列(ここではAと表現します)とは、行数と列数がともにnの正方形の形をした行列のことです。Aと同じ次数の単位行列(左上から右下の対角線上の要素のみが1でそれ以外が0の行列のこと)をEとすると、XA = AX = Eを満たすn次の正方行列Xを「Aの逆行列」といいます。そして、このような逆行列が存在するAのことを正則行列といいます。「正則行列が正方行列である」ことは間違いないですが、「正方行列が正則行列であるとは限りません」のでご注意ください。
  • 転置(transpose)
    リンク先は「転置行列」です。n行×p列の行列Aに対して Aの(i, j)要素と(j, i)要素を入れ替える作業のことです。この作業の結果としてできるp行×n列の行列のことを転置行列といいます。
  • 一般逆行列(generalized inverse matrix)
    リンク先は「擬似逆行列」です。線型代数学における逆行列の概念を一般化したものです。
  • 回帰分析(regression analysis)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめて分析することです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。
  • 行列のランク(rank)
    リンク先は「行列の階数」です。行列の最も基本的な特性数 (characteristic) の1つで、その行列が表す線型方程式系および線型変換がどのくらい「非退化」であるかを示すものです。n行p列の行列Xの場合は、そのランクはrank(X) <= min(n, p)と表せます。「ランクは最大でも行数nか列数pのどちらか小さいほう」ということですね。
  • 特異値(singular values)
    行列X(とXの随伴行列X*との積であるXX*)の固有値の非負の平方根のことです。
  • 分散(variance)
    リンク先は「分散 (統計学)」です。「データの標準偏差の二乗のこと」であり「平均値からの偏差の二乗の平均」です。
  • 主成分(principal component)
    多数の変数の中から、入力データ行列の特徴を最もよく表す少数の変数のことです。本文中の説明のほうがわかりやすいと思いますが、我々が興味があるのは、多数の目的変数(代謝物)の中から、説明変数(この場合は草丈)との関連性が高いもの(この場合は代謝物)を見つけ出し、できるだけ少数の代謝物のデータのみを用いてうまく草丈を言い当てることです。説明変数(この場合は草丈)との関連性が高い目的変数(この場合は代謝物)が主成分、関連性が低い目的変数(代謝物)は主成分ではない、という風に解釈するとよいです。
  • 植物(plant)
    草や木などのように、根があって場所が固定されて生きているような生物のことです。対義語は動物です。
  • 代謝物(metabolite)
    リンク先は「代謝物質」です。代謝の過程の中間生産物および最終生成物のことです。代謝物質、代謝産物、代謝生成物ともいいます。通常は小分子に限られるようです。生体内で生合成される低分子化合物という理解でもよいです。
  • 草丈(くさたけ)
    草の背の高さのことです。正確には地上面から最も高い葉っぱの先端までの長さのことです。

  • ビッグデータ(big data)
    一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語です。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • 変異(mutation)
    リンク先は「突然変異」です。DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 化合物(chemical compound)
    化学反応を経て2種類以上の元素が結合することによって生成する物質のことです。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。この場合は「塩基の変異数」や「測定された化合物ピーク数」のことです。
  • 目的変数(response variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、f(x)またはyに相当するものです。応答変数ともよばれます。
  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • 正方行列(square matrix)
    行数と列数が同じ行列のことです。行数と列数がともにnの正方形の形をした行列をn次の正方行列といいます。
  • 特異値(singular values)
    行列X(とXの随伴行列X*との積であるXX*)の固有値の非負の平方根のことです。
  • 行列のランク(rank)
    リンク先は「行列の階数」です。行列の最も基本的な特性数 (characteristic) の1つで、その行列が表す線型方程式系および線型変換がどのくらい「非退化」であるかを示すものです。n行p列の行列Xの場合は、そのランクはrank(X) <= min(n, p)と表せます。「ランクは最大でも行数nか列数pのどちらか小さいほう」ということですね。
  • ランク落ち
    行列のランク(rank)」の説明のところで、「n行p列の行列Xの場合は、そのランクはrank(X) <= min(n, p)と表せる」と書きました。本文中では、n次元正方行列で考えていて、「rank(X) < n」という状態のことをランク落ちと述べています。
  • 逆行列(inverse matrix)
    リンク先は「正則行列」です。まずn次の正方行列(ここではAと表現します)とは、行数と列数がともにnの正方形の形をした行列のことです。Aと同じ次数の単位行列(左上から右下の対角線上の要素のみが1でそれ以外が0の行列のこと)をEとすると、XA = AX = Eを満たすn次の正方行列Xを「Aの逆行列」といいます。そして、このような逆行列が存在するAのことを正則行列といいます。「正則行列が正方行列である」ことは間違いないですが、「正方行列が正則行列であるとは限りません」のでご注意ください。
  • 共線性(collinearity)
    リンク先は「多重共線性」です。「重回帰分析(multiple regression analysis)」の中にも多重共線性の項目がありますが、説明変数の中に相関係数が高い組み合わせがあることです。目的変数(測定した植物の草丈)と連動している説明変数(代謝物)が3個あったとして、そのうちの2つが非常に似た値を示しているような状態のことを指します。
  • 回帰分析(regression analysis)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめて分析することです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。

  • 主成分回帰(principal component regression; PCR)
    リンク先は「Principal component regression」です。データ行列Xの主成分分析を行って、高次元のデータをk個の主成分で近似するのがポイントです。それが図5.16の右辺に相当するものです。次に、この右辺左側のスコア行列に対して回帰分析を実施します。図5.17の説明部分と被りますが、このような手順で行うことで上述のような共線性の問題を回避することができます。
  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • 主成分分析(principal component analysis; PCA)
    相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分とよばれる変数を合成する多変量解析の一種です。多数の変数の中から、入力データ行列の特徴を最もよく表す少数の変数を見つける分析法の1つです。
  • 主成分(principal component)
    多数の変数の中から、入力データ行列の特徴を最もよく表す少数の変数のことです。本文中の説明のほうがわかりやすいと思いますが、我々が興味があるのは、多数の目的変数(代謝物)の中から、説明変数(この場合は草丈)との関連性が高いもの(この場合は代謝物)を見つけ出し、できるだけ少数の代謝物のデータのみを用いてうまく草丈を言い当てることです。説明変数(この場合は草丈)との関連性が高い目的変数(この場合は代謝物)が主成分、関連性が低い目的変数(代謝物)は主成分ではない、という風に解釈するとよいです。
  • 図5.16
    行列の分解です。主成分分析は特異値分解とよばれる手法に基づいています。
  • 特異値分解(singular value decomposition; SVD)
    線形代数学における複素数あるいは実数を成分とする行列に対する行列分解の1手法です。行列に対するスペクトル定理の一般化とも考えられ、正方行列に限らず任意の形の行列を分解できます。

  • ローディング(loading)
    行列[tex:{ displaystyle oldsymbol{x} }]に含まれるn測定のばらつき(分散)を最も大きく捉える方向に設定した軸成分のことです。
  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • 主成分(principal component)
    多数の変数の中から、入力データ行列の特徴を最もよく表す少数の変数のことです。本文中の説明のほうがわかりやすいと思いますが、我々が興味があるのは、多数の目的変数(代謝物)の中から、説明変数(この場合は草丈)との関連性が高いもの(この場合は代謝物)を見つけ出し、できるだけ少数の代謝物のデータのみを用いてうまく草丈を言い当てることです。説明変数(この場合は草丈)との関連性が高い目的変数(この場合は代謝物)が主成分、関連性が低い目的変数(代謝物)は主成分ではない、という風に解釈するとよいです。
page162
  • 図5.16
    行列の分解です。主成分分析は特異値分解とよばれる手法に基づいています。
  • 図5.17
    主成分回帰の考え方です。\(n\)\(p\)列の情報を、\(n\)\(k\)列のスコア行列で近似してから回帰分析します。

  • 固有ベクトル(eigen vector)
    「固有値(eigenvalue)」もこのリンク先です。\(n\)次の正方行列\(A\)\(n\)個の0でない要素からなる\(n\)次ベクトル\(\boldsymbol{x}\)、スカラー\(\lambda\)が存在しており、「\(A\boldsymbol{x}\) = \(\lambda\)\(\boldsymbol{x}\)」という式が成立するときの\(\lambda\)を「\(A\)の固有値」といいます。そして\(\boldsymbol{x}\)を「\(A\)の固有値\(\lambda\)に対応する固有ベクトル」といいます。PCAとの関連でいうと、固有値を降順(大 → 小)に並べると\(\lambda_1\), \(\lambda_2\), …, \(\lambda_n\)のように表せますが、\(\lambda_1\)が第1主成分軸、\(\lambda_2\)が第2主成分軸といった具合になります。
  • 固有値(eigenvalue)
    「固有ベクトル(eigen vector)」もこのリンク先です。\(n\)次の正方行列\(A\)\(n\)個の0でない要素からなる\(n\)次ベクトル\(\boldsymbol{x}\)、スカラー\(\lambda\)が存在しており、「\(A\boldsymbol{x}\) = \(\lambda\)\(\boldsymbol{x}\)」という式が成立するときの\(\lambda\)を「\(A\)の固有値」といいます。そして\(\boldsymbol{x}\)を「\(A\)の固有値\(\lambda\)に対応する固有ベクトル」といいます。PCAとの関連でいうと、固有値を降順(大 → 小)に並べると\(\lambda_1\), \(\lambda_2\), …, \(\lambda_n\)のように表せますが、\(\lambda_1\)が第1主成分軸、\(\lambda_2\)が第2主成分軸といった具合になります。
  • 分散(variance)
    リンク先は「分散 (統計学)」です。「データの標準偏差の二乗のこと」であり「平均値からの偏差の二乗の平均」です。
  • ビッグデータ(big data)
    一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語です。

  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • 主成分(principal component)
    多数の変数の中から、入力データ行列の特徴を最もよく表す少数の変数のことです。本文中の説明のほうがわかりやすいと思いますが、我々が興味があるのは、多数の目的変数(代謝物)の中から、説明変数(この場合は草丈)との関連性が高いもの(この場合は代謝物)を見つけ出し、できるだけ少数の代謝物のデータのみを用いてうまく草丈を言い当てることです。説明変数(この場合は草丈)との関連性が高い目的変数(この場合は代謝物)が主成分、関連性が低い目的変数(代謝物)は主成分ではない、という風に解釈するとよいです。
  • 説明変数(explanatory variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、xに相当するものです。
  • ランク落ち
    行列のランク(rank)」の説明のところで、「n行p列の行列Xの場合は、そのランクはrank(X) min(n, p)と表せる」と書きました。本文中では、n次元正方行列で考えていて、「rank(X) < n」という状態のことをランク落ちと述べています。
  • 座標(coordinates)
    点の位置を指定するために与えられる数の組(coordinates)、あるいはその各数(coordinate)のことです。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。
  • 分散(variance)
    リンク先は「分散 (統計学)」です。「データの標準偏差の二乗のこと」であり「平均値からの偏差の二乗の平均」です。
  • 特異値(singular values)
    行列X(とXの随伴行列X*との積であるXX*)の固有値の非負の平方根のことです。

  • 植物(plant)
    草や木などのように、根があって場所が固定されて生きているような生物のことです。対義語は動物です。
  • 化合物(chemical compound)
    化学反応を経て2種類以上の元素が結合することによって生成する物質のことです。
  • 有機酸(organic acid)
    酸性を示す有機化合物の総称です。たとえば、酢酸やクエン酸などがあげられます。
  • 脂質(lipid)
    リンク先は「脂肪」です。炭水化物、タンパク質と共に「三大栄養素」と総称され、多くの生物種の栄養素です。脂肪のカロリーは9kcal/gであり、炭水化物、タンパク質の4kcal/gよりも単位重量あたりの熱量が大きく、哺乳類をはじめとして動物の栄養の摂取や貯蔵方法として多く利用されています。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • 主成分分析(principal component analysis; PCA)
    相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分とよばれる変数を合成する多変量解析の一種です。多数の変数の中から、入力データ行列の特徴を最もよく表す少数の変数を見つける分析法の1つです。
  • 主成分(principal component)
    多数の変数の中から、入力データ行列の特徴を最もよく表す少数の変数のことです。本文中の説明のほうがわかりやすいと思いますが、我々が興味があるのは、多数の目的変数(代謝物)の中から、説明変数(この場合は草丈)との関連性が高いもの(この場合は代謝物)を見つけ出し、できるだけ少数の代謝物のデータのみを用いてうまく草丈を言い当てることです。説明変数(この場合は草丈)との関連性が高い目的変数(この場合は代謝物)が主成分、関連性が低い目的変数(代謝物)は主成分ではない、という風に解釈するとよいです。
  • 代謝(metabolism)
    生命の維持のために有機体が行う、外界から取り入れた無機物や有機化合物を素材として行う一連の合成や化学反応のことです。
  • 主成分回帰(principal component regression; PCR)
    リンク先は「Principal component regression」です。データ行列Xの主成分分析を行って、高次元のデータをk個の主成分で近似するのがポイントです。それが図5.16の右辺に相当するものです。次に、この右辺左側のスコア行列に対して回帰分析を実施します。図5.17の説明部分と被りますが、このような手順で行うことで上述のような共線性の問題を回避することができます。
  • 回帰分析(regression analysis)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめて分析することです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。
  • 共線性(collinearity)
    リンク先は「多重共線性」です。「重回帰分析(multiple regression analysis)」の中にも多重共線性の項目がありますが、説明変数の中に相関係数が高い組み合わせがあることです。目的変数(測定した植物の草丈)と連動している説明変数(代謝物)が3個あったとして、そのうちの2つが非常に似た値を示しているような状態のことを指します。
  • 図5.17
    主成分回帰の考え方です。np列の情報を、nk列のスコア行列で近似してから回帰分析します。

  • 目的変数(response variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、f(x)またはyに相当するものです。応答変数ともよばれます。
  • 説明変数(explanatory variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、xに相当するものです。
  • 主成分(principal component)
    多数の変数の中から、入力データ行列の特徴を最もよく表す少数の変数のことです。本文中の説明のほうがわかりやすいと思いますが、我々が興味があるのは、多数の目的変数(代謝物)の中から、説明変数(この場合は草丈)との関連性が高いもの(この場合は代謝物)を見つけ出し、できるだけ少数の代謝物のデータのみを用いてうまく草丈を言い当てることです。説明変数(この場合は草丈)との関連性が高い目的変数(この場合は代謝物)が主成分、関連性が低い目的変数(代謝物)は主成分ではない、という風に解釈するとよいです。
  • 植物(plant)
    草や木などのように、根があって場所が固定されて生きているような生物のことです。対義語は動物です。
  • 草丈(くさたけ)
    草の背の高さのことです。正確には地上面から最も高い葉っぱの先端までの長さのことです。
  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • PLS(partial least squares)
    次節で解説されていますが、2つの行列間の基本的関係を探すために用いられる手法です。

5.4.2 目的変数も次元圧縮するPLS

  • PLS回帰(partial least squares regression)
    リンク先は「部分的最小二乗回帰」です。「Projection to Latent Structures(潜在構造への射影)」の頭文字ともいわれます。主成分回帰(principal component regression; PCR)といくらかの関係を持つ統計的手法の1つです。PLS回帰は、目的変数と説明変数との間の最大分散の超平面を探す代わりに、予測変数と観測可能な変数を新たな空間に射影することによって線形回帰モデルを探ります。PLSは、2つの行列(XおよびY)間の基本的関係を探すために用いられます。
  • ケモメトリックス(chemometrics)
    リンク先は「計量化学」です。数理科学、統計学、機械学習、パターン認識、データマイニングなどの手法により、(広義の)化学分野における諸問題を解決しようとする分野です。
page163
  • 図5.18
    PLS回帰の手順です。番号は本文にあるステップを表します。目的変数の行列\(\boldsymbol{Y}\)と説明変数の行列\(\boldsymbol{X}\)の間で、交互に主成分に回帰する作業を繰り返します。

  • ヘルマン・ウォルド(Herman Wold)
    リンク先は「Herman Wold」です。スウェーデンの統計学者でPLSの開発者です。Wold親子の親のほうです。
  • スヴァンテ・ウォルド(‪Svante Wold)
    リンク先は「‪Svante Wold」です。スウェーデンの統計学者でPLSを親とともに発展させたヒトです。Wold親子の子のほうです。
  • 目的変数(response variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、f(x)またはyに相当するものです。応答変数ともよばれます。
  • 説明変数(explanatory variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、xに相当するものです。
  • 主成分(principal component)
    多数の変数の中から、入力データ行列の特徴を最もよく表す少数の変数のことです。本文中の説明のほうがわかりやすいと思いますが、我々が興味があるのは、多数の目的変数(代謝物)の中から、説明変数(この場合は草丈)との関連性が高いもの(この場合は代謝物)を見つけ出し、できるだけ少数の代謝物のデータのみを用いてうまく草丈を言い当てることです。説明変数(この場合は草丈)との関連性が高い目的変数(この場合は代謝物)が主成分、関連性が低い目的変数(代謝物)は主成分ではない、という風に解釈するとよいです。
  • 共分散(covariance)
    2組の対応するデータ(要素数が同じ2つのベクトル)間での、平均からの偏差の積の平均値のことです。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。
  • 図5.18
    PLS回帰の手順です。番号は本文にあるステップを表します。目的変数の行列\(\boldsymbol{Y}\)と説明変数の行列\(\boldsymbol{X}\)の間で、交互に主成分に回帰する作業を繰り返します。
  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • 植物(plant)
    草や木などのように、根があって場所が固定されて生きているような生物のことです。対義語は動物です。
  • 有機酸(organic acid)
    酸性を示す有機化合物の総称です。たとえば、酢酸やクエン酸などがあげられます。
  • 脂質(lipid)
    リンク先は「脂肪」です。炭水化物、タンパク質と共に「三大栄養素」と総称され、多くの生物種の栄養素です。脂肪のカロリーは9kcal/gであり、炭水化物、タンパク質の4kcal/gよりも単位重量あたりの熱量が大きく、哺乳類をはじめとして動物の栄養の摂取や貯蔵方法として多く利用されています。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • 代謝物(metabolite)
    リンク先は「代謝物質」です。代謝の過程の中間生産物および最終生成物のことです。代謝物質、代謝産物、代謝生成物ともいいます。通常は小分子に限られるようです。生体内で生合成される低分子化合物という理解でもよいです。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。

  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
  • 回帰(regression)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめることです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。
  • 主成分(principal component)
    多数の変数の中から、入力データ行列の特徴を最もよく表す少数の変数のことです。本文中の説明のほうがわかりやすいと思いますが、我々が興味があるのは、多数の目的変数(代謝物)の中から、説明変数(この場合は草丈)との関連性が高いもの(この場合は代謝物)を見つけ出し、できるだけ少数の代謝物のデータのみを用いてうまく草丈を言い当てることです。説明変数(この場合は草丈)との関連性が高い目的変数(この場合は代謝物)が主成分、関連性が低い目的変数(代謝物)は主成分ではない、という風に解釈するとよいです。
  • 射影(projection)
    物体に光を当ててその影を映すこと、またその影のことです。この場合は、行列Xをローディングに基づく軸上に投影すること、というイメージで捉えるとよいです。

  • 主成分回帰(principal component regression; PCR)
    リンク先は「Principal component regression」です。データ行列Xの主成分分析を行って、高次元のデータをk個の主成分で近似するのがポイントです。それが図5.16の右辺に相当するものです。次に、この右辺左側のスコア行列に対して回帰分析を実施します。図5.17の説明部分と被りますが、このような手順で行うことで上述のような共線性の問題を回避することができます。
  • 目的変数(response variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、f(x)またはyに相当するものです。応答変数ともよばれます。
  • 主成分(principal component)
    多数の変数の中から、入力データ行列の特徴を最もよく表す少数の変数のことです。本文中の説明のほうがわかりやすいと思いますが、我々が興味があるのは、多数の目的変数(代謝物)の中から、説明変数(この場合は草丈)との関連性が高いもの(この場合は代謝物)を見つけ出し、できるだけ少数の代謝物のデータのみを用いてうまく草丈を言い当てることです。説明変数(この場合は草丈)との関連性が高い目的変数(この場合は代謝物)が主成分、関連性が低い目的変数(代謝物)は主成分ではない、という風に解釈するとよいです。
  • PLS回帰(partial least squares regression)
    リンク先は「部分的最小二乗回帰」です。「Projection to Latent Structures(潜在構造への射影)」の頭文字ともいわれます。主成分回帰(principal component regression; PCR)といくらかの関係を持つ統計的手法の1つです。PLS回帰は、目的変数と説明変数との間の最大分散の超平面を探す代わりに、予測変数と観測可能な変数を新たな空間に射影することによって線形回帰モデルを探ります。PLSは、2つの行列(XおよびY)間の基本的関係を探すために用いられます。
  • 説明変数(explanatory variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、xに相当するものです。
  • オミックス(omics)
    リンク先は「オーミクス」です。「研究対象+omics」という名称を持つ生物学の研究分野の非公式な総称です。生命の様々な層(クラスター)に存在する大量の生物学的情報の相互作用や機能を解析する科学・工学分野です。
  • 共線性(collinearity)
    リンク先は「多重共線性」です。「重回帰分析(multiple regression analysis)」の中にも多重共線性の項目がありますが、説明変数の中に相関係数が高い組み合わせがあることです。目的変数(測定した植物の草丈)と連動している説明変数(代謝物)が3個あったとして、そのうちの2つが非常に似た値を示しているような状態のことを指します。

page164
  • 例題5.4
    1ページ目が問題、2ページ目以降が解答例です。
    • RStudio
      オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語およびその開発実行環境であるRの機能拡張版という理解でよいです。RStudioは、内部的にRを動かしています。
    • pls PLS解析を行うためのパッケージです。

5.5 ネットワーク解析

  • 主成分分析(principal component analysis; PCA)
    相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分とよばれる変数を合成する多変量解析の一種です。多数の変数の中から、入力データ行列の特徴を最もよく表す少数の変数を見つける分析法の1つです。
  • バイプロット(biplot)
    リンク先は「Biplot」です。この場合は、x軸を第1主成分、y軸を第2主成分として2次元平面上にプロットした図のことです。
  • クラスタリング(clustering)
    リンク先は「データ・クラスタリング」です。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法、またそのアルゴリズムのことです。データの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法に大別できます。
  • ヒートマップ(heatmap)
    2次元データ(行列)の個々の値を色や濃淡として表現した可視化グラフの一種です。
  • トランスクリプトーム(transcriptome)
    特定の状況下において細胞中に存在するすべてのRNA(または一次転写産物; transcript)の総体のことです。ここでは、NGS機器を用いてすべてのRNA(実際にはmRNAのみだったりするので網羅的ではありません)の配列を決定することという意味で、RNAシーケンシング(RNA sequencing)の略称であるRNA-seqが用いられることが多いです。
  • 発現(expression)
    リンク先は「遺伝子発現」です。遺伝情報に基づいてRNAやタンパク質が合成されることを指します。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • ネットワーク解析(network analysis)
    遺伝子発現制御やタンパク質間相互作用の関係性などを、たとえば遺伝子またはタンパク質を頂点(node)、そして制御関係または相互作用するものどうしに辺(edge)で結んで示したものをグラフ(またはネットワーク)で表現して解析することを指します。
  • 相互作用(interaction)
    この場合はタンパク質と他の分子の間にはたらく、共有結合ほど強くないもの(または力)のことです。分子どうしの間の相互作用は分子間相互作用ですし、イオンどうしの相互作用はイオン間相互作用です。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。

  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
  • 離散数学(discrete mathematics)
    原則として離散的な(言い換えると連続でない、とびとびの)対象を扱う数学のことです。
  • グラフ理論(graph theory)
    頂点(node)の集合と辺(edge)の集合で構成されるグラフに関する数学の理論のことです。頂点(node)と辺(edge)もこのリンク先です。頂点はノード、辺はエッジとも表現されます。たとえば駅の路線図の場合は、駅が頂点、路線が辺としてグラフで表すことができます。このように、「つながり方」に着目して抽象化された「点とそれらをむすぶ線」の概念がグラフであり、グラフがもつ様々な性質を探求するのがグラフ理論です。
  • ポール・エルデシュ(Paul Erdős)
    ハンガリー・ブダペスト出身のユダヤ系ハンガリー人の数学者です。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 閾値(threshold)
    境目となる値のことです。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。
  • サイトスケープ(Cytoscape)Shannon et al., Genome Res., 2003
    上記のISBで開発されたネットワーク視覚化ソフトウェアです。原著論文の責任著者であるIdeker研究室で開発が継続されています。

5.5.1 自然界におけるネットワークの特徴

  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
  • SNS
    リンク先は「ソーシャル・ネットワーキング・サービス」です。Web上で社会的ネットワーク(ソーシャル・ネットワーク)を構築可能にするサービスのことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。
  • 数理モデル(mathematical model)
    時間変化する現象の計測可能な主要な指標の動きを模倣する、微分方程式などの「数学の言葉で記述した系」のことです。
  • 図5.19
    代表的なネットワークモデルにより生成した例です。

  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
  • 数理モデル(mathematical model)
    時間変化する現象の計測可能な主要な指標の動きを模倣する、微分方程式などの「数学の言葉で記述した系」のことです。
  • エルデシュ・レニイモデル(Erdős–Rényi model)
    リンク先は「複雑ネットワーク」です。この中で、「エルデシュ=レーニィモデル」という名前で言及されています。頂点間に固定確率で辺をひくランダムなグラフのことを指します。本書では、以降「ランダムネットワーク」と記載しています。
  • ポアソン分布(Poisson distribution)
    ある時間間隔で発生する事象の回数を表す離散確率分布です。
  • 正規分布(normal distribution)
    確率論や統計学で用いられる連続的な変数に関する確率分布の1つです。データが平均値の付近に集積するような分布を表します。ガウス分布(Gaussian distribution)ともよばれます。中心極限定理(central limit theorem)により、独立な多数の因子の和として表される確率変数は正規分布に従います。
  • 次数(degree)
    ある頂点がもつ辺の数のことです。
  • ハブ(hub)
    (他に比べて)辺数の多い頂点のことです。羽田や成田のようなハブ空港をイメージすればよいです。
  • 格子(lattice)
    リンク先は「格子 (数学)」です。「周期的に並んだ区切り、または仕切りのこと」だという理解でよいです。図5.20(a)に例示されているように、そのような周期的に並んだ区切りのところに頂点を配置して、頂点間を辺で結んだネットワークが格子ネットワークです。
  • 碁盤
    囲碁の用具の一つで碁石を打つ板のことです。
  • 面心立方格子(face-centered cubic)
    リンク先は「面心立方格子構造」です。(原子配置の場合は)単位格子の各頂点および各面の中心に原子が位置するような結晶格子のことです。
  • 格子(lattice)
    リンク先は「格子 (数学)」です。「周期的に並んだ区切り、または仕切りのこと」だという理解でよいです。図5.20(a)に例示されているように、そのような周期的に並んだ区切りのところに頂点を配置して、頂点間を辺で結んだネットワークが格子ネットワークです。
page165
  • 図5.19
    代表的なネットワークモデルにより生成した例です。
  • 図5.20
    (a)規則性のある格子ネットワーク(三角格子)、(b)同じ頂点数のランダムネットワークです。数字は0の頂点を起点とした最短のステップ数です。

  • 一様分布(uniform distribution)
    離散型あるいは連続型の確率分布です。 サイコロを振ったときのそれぞれの目の出る確率など、すべての事象の起こる確率が等しい現象のモデルです。
  • 頂点間距離
    ある頂点(node)Aを出発点として別のある頂点Bまでいくときに、それ以外の頂点をいくつ通らねばならないかというのが基本的なイメージです。たとえばAとBの間に頂点Cのみがある場合は、A-C-Bというルートを渡り歩いていくことになります。ここで見えているハイフン(-)の数のことをステップ数といいます。別の例として、AとBの間に2つのルート(A-G-H-Y-B、A-G-Y-B)があったとすると、最短のもので評価するのでA-G-Y-Bのステップ数である3がAとBの頂点間距離ということになります。
  • クラスター(cluster)
    リンク先は「クラスター (疫学)」です。基本的にはこのリンク先の説明と似たようなイメージ(特に地理的な意味合いのみ)で捉えればよいです。図5.19(b)で示されているように、頂点から張られている辺の数に偏りがある、張られている辺がランダムではなく有意に特定の頂点に偏っている(そのおかげで、少ないステップ数である頂点から別の頂点にいくことができる)ことを「クラスターをなす」と表現しているのだと理解すればよいです。

  • 頂点間距離
    ある頂点(node)Aを出発点として別のある頂点Bまでいくときに、それ以外の頂点をいくつ通らねばならないかというのが基本的なイメージです。たとえばAとBの間に頂点Cのみがある場合は、A-C-Bというルートを渡り歩いていくことになります。ここで見えているハイフン(-)の数のことをステップ数といいます。別の例として、AとBの間に2つのルート(A-G-H-Y-B、A-G-Y-B)があったとすると、最短のもので評価するのでA-G-Y-Bのステップ数である3がAとBの頂点間距離ということになります。
  • 格子(lattice)
    リンク先は「格子 (数学)」です。「周期的に並んだ区切り、または仕切りのこと」だという理解でよいです。図5.20(a)に例示されているように、そのような周期的に並んだ区切りのところに頂点を配置して、頂点間を辺で結んだネットワークが格子ネットワークです。
  • ランダムネットワーク(random network)
    リンク先は「複雑ネットワーク」です。この中で「エルデシュ=レーニィモデル」という名前で言及されていますが、頂点間に固定確率で辺をひくランダムなグラフのことです。
  • 図5.20
    (a)規則性のある格子ネットワーク(三角格子)、(b)同じ頂点数のランダムネットワークです。数字は0の頂点を起点とした最短のステップ数です。
  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
  • 格子ネットワーク(lattice network)
    図5.20(a)や図5.21(a)に例示されているように、そのような周期的に並んだ区切りのところに頂点を配置して、頂点間を辺で結んだネットワークが格子ネットワークです。
  • ランダムネットワーク(random network)
    リンク先は「複雑ネットワーク」です。この中で「エルデシュ=レーニィモデル」という名前で言及されていますが、頂点間に固定確率で辺をひくランダムなグラフのことです。

  • クラスター(cluster)
    リンク先は「クラスター (疫学)」です。基本的にはこのリンク先の説明と似たようなイメージ(特に地理的な意味合いのみ)で捉えればよいです。図5.19(b)で示されているように、頂点から張られている辺の数に偏りがある、張られている辺がランダムではなく有意に特定の頂点に偏っている(そのおかげで、少ないステップ数である頂点から別の頂点にいくことができる)ことを「クラスターをなす」と表現しているのだと理解すればよいです。
  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
page166
  • 図5.21
    (a)は格子ネットワークにおける黒点の隣接点(灰色)。隣接点どうしが辺で結ばれます。(b)はランダムネットワークの場合で、隣接点の間に辺は少ないです。初刷では[カラーについてはWeb資料を参照]と書いていますが、オリジナルもモノクロですm(_ _)m

  • 格子ネットワーク(lattice network)
    図5.20(a)や図5.21(a)に例示されているように、そのような周期的に並んだ区切りのところに頂点を配置して、頂点間を辺で結んだネットワークが格子ネットワークです。
  • ランダムネットワーク(random network)
    リンク先は「複雑ネットワーク」です。この中で「エルデシュ=レーニィモデル」という名前で言及されていますが、頂点間に固定確率で辺をひくランダムなグラフのことです。
  • クラスター係数
    与えられたネットワークに対し、全頂点について隣接点との間に三角形ができる割合を計算して求めた平均値のことです。

  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
  • 格子(lattice)
    リンク先は「格子 (数学)」です。「周期的に並んだ区切り、または仕切りのこと」だという理解でよいです。図5.20(a)に例示されているように、そのような周期的に並んだ区切りのところに頂点を配置して、頂点間を辺で結んだネットワークが格子ネットワークです。
  • 食物連鎖(food chain)
    生物群集内での生物の捕食(食べる)・被食(食べられる)という点に着目し、それぞれの生物群集における生物種間の関係を表すことです。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 相互作用(interaction)
    この場合は、「関係をもちやすい」のようなイメージで捉えるとよいと思います。
  • クラスター係数
    与えられたネットワークに対し、全頂点について隣接点との間に三角形ができる割合を計算して求めた平均値のことです。
  • 格子ネットワーク(lattice network)
    図5.20(a)や図5.21(a)に例示されているように、そのような周期的に並んだ区切りのところに頂点を配置して、頂点間を辺で結んだネットワークが格子ネットワークです。
  • ランダムネットワーク(random network)
    リンク先は「複雑ネットワーク」です。この中で「エルデシュ=レーニィモデル」という名前で言及されていますが、頂点間に固定確率で辺をひくランダムなグラフのことです。
  • スモールワールド(small world)
    リンク先は「複雑ネットワーク」です。この中の「スモールワールド性」という項目に書かれていますが、「任意の2つの頂点が、中間にわずかな数の頂点を介するだけで接続されるという性質」のことです。現実世界のネットワークが持つ性質の1つです。
  • Watts D.(著), 栗原 聡 ほか(訳), スモールワールド ネットワークの構造とダイナミクス, 2006, 東京電機大学出版局ISBN:9784501540708
  • クラスター(cluster)
    リンク先は「クラスター (疫学)」です。基本的にはこのリンク先の説明と似たようなイメージ(特に地理的な意味合いのみ)で捉えればよいです。図5.19(b)で示されているように、頂点から張られている辺の数に偏りがある、張られている辺がランダムではなく有意に特定の頂点に偏っている(そのおかげで、少ないステップ数である頂点から別の頂点にいくことができる)ことを「クラスターをなす」と表現しているのだと理解すればよいです。
  • 頂点間距離
    ある頂点(node)Aを出発点として別のある頂点Bまでいくときに、それ以外の頂点をいくつ通らねばならないかというのが基本的なイメージです。たとえばAとBの間に頂点Cのみがある場合は、A-C-Bというルートを渡り歩いていくことになります。ここで見えているハイフン(-)の数のことをステップ数といいます。別の例として、AとBの間に2つのルート(A-G-H-Y-B、A-G-Y-B)があったとすると、最短のもので評価するのでA-G-Y-Bのステップ数である3がAとBの頂点間距離ということになります。

  • クラスター(cluster)
    リンク先は「クラスター (疫学)」です。基本的にはこのリンク先の説明と似たようなイメージ(特に地理的な意味合いのみ)で捉えればよいです。図5.19(b)で示されているように、頂点から張られている辺の数に偏りがある、張られている辺がランダムではなく有意に特定の頂点に偏っている(そのおかげで、少ないステップ数である頂点から別の頂点にいくことができる)ことを「クラスターをなす」と表現しているのだと理解すればよいです。
  • 頂点間距離
    ある頂点(node)Aを出発点として別のある頂点Bまでいくときに、それ以外の頂点をいくつ通らねばならないかというのが基本的なイメージです。たとえばAとBの間に頂点Cのみがある場合は、A-C-Bというルートを渡り歩いていくことになります。ここで見えているハイフン(-)の数のことをステップ数といいます。別の例として、AとBの間に2つのルート(A-G-H-Y-B、A-G-Y-B)があったとすると、最短のもので評価するのでA-G-Y-Bのステップ数である3がAとBの頂点間距離ということになります。
  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
  • 格子ネットワーク(lattice network)
    図5.20(a)や図5.21(a)に例示されているように、そのような周期的に並んだ区切りのところに頂点を配置して、頂点間を辺で結んだネットワークが格子ネットワークです。
  • ランダムネットワーク(random network)
    リンク先は「複雑ネットワーク」です。この中で「エルデシュ=レーニィモデル」という名前で言及されていますが、頂点間に固定確率で辺をひくランダムなグラフのことです。

5.5.2 ネットワークの指標

  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
page167
  • 図5.22
    中心性の指標です。次数が最大のものを選ぶ指標を次数中心といいます。この例では次数4の頂点は1つしかありません。すべての点に少ないステップ数で到達できるのが近接中心です。この例では4ステップで全点に到達できます。全頂点間の最短経路に含まれる割合を基準に選ぶのが媒介中心です。この例では左右のクラスターを結ぶボトルネックに対応します。

  • ハブ(hub)
    (他に比べて)辺数の多い頂点のことです。羽田や成田のようなハブ空港をイメージすればよいです。
  • 次数(degree)
    ある頂点がもつ辺の数のことです。
  • 中心性(centrality)
    リンク先は「Centrality」です。中心と呼べる頂点を選び出す指標のことです。セントラリティともいいます。よく使われる中心性には以下のものがあり、詳細については本文中で述べられています。
    • 次数中心性 (degree)
      最多の辺数をもつ頂点を中心とする考え方です。
    • 近接中心性 (closeness)
      他のすべての頂点までのステップ数が最も少ない頂点を中心とする考え方です。
    • 媒介中心性 (betweenness)
      自分以外の頂点間の最短経路に含まれる割合が最も高い頂点を中心とする考え方です。
  • 図5.22
    中心性の指標です。次数が最大のものを選ぶ指標を次数中心といいます。この例では次数4の頂点は1つしかありません。すべての点に少ないステップ数で到達できるのが近接中心です。この例では4ステップで全点に到達できます。全頂点間の最短経路に含まれる割合を基準に選ぶのが媒介中心です。この例では左右のクラスターを結ぶボトルネックに対応します。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。

  • 次数中心性 (degree)
    最多の辺数をもつ頂点を中心とする考え方です。ハブがネットワークの中心とする考え方だという理解でよいです。
  • ハブ(hub)
    (他に比べて)辺数の多い頂点のことです。羽田や成田のようなハブ空港をイメージすればよいです。
  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
  • 正規化(normalization)
    この場合は、数値の範囲を0-1の範囲に変換する作業のことです。
  • 次数(degree)
    ある頂点がもつ辺の数のことです。
  • 中心性(centrality)
    リンク先は「Centrality」です。中心と呼べる頂点を選び出す指標のことです。セントラリティともいいます。
  • タンパク質間相互作用(protein-protein interaction; PPI)
    多くのタンパク質は他のタンパク質や生体高分子と相互作用することでその機能を果たしますが、そのような複数の異なるタンパク質分子が状態に応じて特異的複合体を形成する現象のことです。
  • PPIネットワーク
    タンパク質間相互作用(protein-protein interaction)のネットワークのことです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 必須遺伝子(essential gene)
    生物が特定の環境下で子孫を成長させ繁殖させるために不可欠な遺伝子のことです。
  • PPI解析
    タンパク質間相互作用(protein-protein interaction)を解析することです。ここでは、タンパク質複合体を見出す手法という意味で用いています。
  • タンパク質複合体(protein complex)
    タンパク質の四次構造の一種です。タンパク質複合体の中のタンパク質は、非共有結合的なタンパク質-タンパク質相互作用(PPI)によって連結されています。つまり、PPIによって空間上近接したタンパク質の集合体がタンパク質複合体だという理解でよいです。
  • 細胞骨格(cytoskeleton)
    細胞質内に存在し、細胞の形態を維持し、また細胞内外の運動に必要な物理的力を発生させる細胞内の繊維状構造のことです。
  • アクチン(actin)
    らせん状の多量体を形成してマイクロフィラメントの1種であるアクチンフィラメントを形作る球形のタンパク質です。アクチンフィラメントは、真核生物の細胞内部で3次元の繊維状構造を作る3つの細胞骨格のうちの1つです(他は微小管と中間径フィラメントです)。

  • 近接中心性 (closeness)
    他のすべての頂点までのステップ数が最も少ない頂点を中心とする考え方です。
  • 最短経路(shortest path)
    リンク先は「最短経路問題」です。たとえばAとBの間に2つのルート(A-G-H-Y-B、A-G-Y-B)があったとすると、最短のステップ数でたどり着くのはA-G-Y-Bであり、これがA-Bの最短経路だということです。回り道をすればステップ数を多くできますが、最短のステップ数(つまり最短経路)でいろいろと評価していくのが基本です。
  • 格子(lattice)
    リンク先は「格子 (数学)」です。「周期的に並んだ区切り、または仕切りのこと」だという理解でよいです。図5.20(a)に例示されているように、そのような周期的に並んだ区切りのところに頂点を配置して、頂点間を辺で結んだネットワークが格子ネットワークです。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。
  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。

  • 次数中心性 (degree)
    最多の辺数をもつ頂点を中心とする考え方です。ハブがネットワークの中心とする考え方だという理解でよいです。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。
  • 媒介中心性 (betweenness)
    自分以外の頂点間の最短経路に含まれる割合が最も高い頂点を中心とする考え方です。
  • 定義(definition)
    一般にコミュニケーションを円滑に行うために、ある言葉の正確な意味や用法について、人々の間で共通認識を抱くために行われる作業のことです。
  • 最短経路(shortest path)
    リンク先は「最短経路問題」です。たとえばAとBの間に2つのルート(A-G-H-Y-B、A-G-Y-B)があったとすると、最短のステップ数でたどり着くのはA-G-Y-Bであり、これがA-Bの最短経路だということです。回り道をすればステップ数を多くできますが、最短のステップ数(つまり最短経路)でいろいろと評価していくのが基本です。
  • ボトルネック(bottleneck)
    この場合は、クラスターとクラスターを結ぶ橋渡し部分のことを指します。
  • クラスター(cluster)
    リンク先は「クラスター (疫学)」です。基本的にはこのリンク先の説明と似たようなイメージ(特に地理的な意味合いのみ)で捉えればよいです。図5.19(b)で示されているように、頂点から張られている辺の数に偏りがある、張られている辺がランダムではなく有意に特定の頂点に偏っている(そのおかげで、少ないステップ数である頂点から別の頂点にいくことができる)ことを「クラスターをなす」と表現しているのだと理解すればよいです。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。
  • シグナル伝達(signal transduction)
    暑さや寒さや痛さといった周辺環境からの刺激(これをシグナルといいます)が皮膚から脳に伝わっていくようなことを指しますす。「この刺激(シグナル)であれば、このタンパク質が感知して、それが生体内のこの経路で情報が伝達される」といった具合で、定まった経路で情報が伝達されていくことで環境に適応しています。そのようなシステム全体のことを指す言葉がシグナル伝達です。具体的には、細胞間シグナル伝達とか細胞内シグナル伝達などがあり、たとえばそれを簡潔に示しているのがKEGG PATHWAY Databaseです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 転写制御因子(transcriptional regulation factor)
    リンク先は「転写因子(transcription factor)」です。DNAに特異的に結合するタンパク質のことです。
  • 有向ネットワーク
    重み付き有向グラフのことです。頂点間を結ぶ辺に向きがある(矢印)グラフが「有向グラフ」で、発現量の違いを重みの違いとして表現するようなイメージです。
page168
  • タンパク質複合体(protein complex)
    タンパク質の四次構造の一種です。タンパク質複合体の中のタンパク質は、非共有結合的なタンパク質-タンパク質相互作用(PPI)によって連結されています。つまり、PPIによって空間上近接したタンパク質の集合体がタンパク質複合体だという理解でよいです。

  • 近接中心性 (closeness)
    他のすべての頂点までのステップ数が最も少ない頂点を中心とする考え方です。
  • 媒介中心性 (betweenness)
    自分以外の頂点間の最短経路に含まれる割合が最も高い頂点を中心とする考え方です。
  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。

5.5.3 スケールフリー・ネットワーク

  • スケールフリー(scale-free)
    リンク先は「複雑ネットワーク」です。この中の「スケールフリー性」という項目に書かれていますが、「一部の頂点が他のたくさんの頂点と辺で繋がっており、大きな次数を持っている一方で、その他の大部分はわずかな頂点としか繋がっておらず、次数は小さいという性質」のことです。
  • 次数(degree)
    ある頂点がもつ辺の数のことです。
  • べき則(power law)
    リンク先は「冪乗則(べきじょうそく)」です。べき乗則とも書かれます。「べき分布(power law distribution)」もこのリンク先です。統計モデルの1つであり、f(x) = axkのような形で表されることが多いです(aとkは定数)。xに相当する説明変数のスケールが変わる(単位がmmからcmに変わるとかそういうイメージ)と、aやkの値も変わるが、関数自体の形は変わらないのが特徴です。両対数プロットをとると直線性を示すという説明もよくなされます。
  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
  • 統計(statistic)
    現象を調査することによって数量で把握すること、または、調査によって得られた数量データ(統計量)のことです。統計の性質を調べる学問は統計学です。
  • Barabási AL.(著), 池田裕一ほか(監訳) (2019) ネットワーク科学, 共立出版, ISBN:9784320124479
  • Albert-László Barabási
    リンク先は「バラバーシ・アルベルト・ラースロー」です。ハンガリーの理論物理学者です。インターネットから細胞内化学反応まで、複雑なネットワークに共通して見られるつながりの構造発見で有名なヒトです。
  • べき分布(power law distribution)
    リンク先は「冪乗則(べきじょうそく)」です。べき乗則とも書かれます。統計モデルの1つであり、f(x) = axkのような形で表されることが多いです(aとkは定数)。xに相当する説明変数のスケールが変わる(単位がmmからcmに変わるとかそういうイメージ)と、aやkの値も変わるが、関数自体の形は変わらないのが特徴です。両対数プロットをとると直線性を示すという説明もよくなされます。このような数式に従う分布がべき分布です。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。
  • log-logプロット(log-log plot)
    リンク先は「両対数グラフ」です。グラフの両方の軸が対数スケールになっているプロットのことです。極端に範囲の広いデータを扱えるという利点があります。

  • Albert-László Barabási
    リンク先は「バラバーシ・アルベルト・ラースロー」です。ハンガリーの理論物理学者です。インターネットから細胞内化学反応まで、複雑なネットワークに共通して見られるつながりの構造発見で有名なヒトです。
  • 優先的選択
    ネットワーク上には様々な次数の頂点が存在しますが、そこに新しい頂点がつながる際に、「次数が少ない頂点」よりも「次数が多い頂点」のほうが優先的に選択されることです。
  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
  • インターネット(internet)
    インターネット・プロトコル・スイートを使用し、複数のコンピュータネットワークを相互接続した、地球規模の情報通信網のことです。省略してネットともよばれます。インターネット・プロトコル・スイートとは、インターネットを含む多くのコンピュータネットワークにおいて、標準的に利用されている通信プロトコルのセットのことで、TCP/IPともよばれます。
  • HTTP
    リンク先は「Hypertext Transfer Protocol」です。HTTPはこの略です。WebブラウザがWebサーバと通信する際に主として使用する通信プロトコルであり、インターネット・プロトコル・スイートのメンバです。HTMLなどのテキストによって記述されたWebページ等のコンテンツの送受信に用いられます。
  • 次数(degree)
    ある頂点がもつ辺の数のことです。
  • トポロジー(topology)
    リンク先は「位相幾何学」です。この場合は、全体的な関係性のことです。この場合は、次数分布が全く同じネットワークでも、頂点どうしの接続法が異なるネットワークが多数存在しうるという意味で用いています。
  • クラスター(cluster)
    リンク先は「クラスター (疫学)」です。基本的にはこのリンク先の説明と似たようなイメージ(特に地理的な意味合いのみ)で捉えればよいです。図5.19(b)で示されているように、頂点から張られている辺の数に偏りがある、張られている辺がランダムではなく有意に特定の頂点に偏っている(そのおかげで、少ないステップ数である頂点から別の頂点にいくことができる)ことを「クラスターをなす」と表現しているのだと理解すればよいです。
  • 中心性(centrality)
    リンク先は「Centrality」です。中心と呼べる頂点を選び出す指標のことです。セントラリティともいいます。
  • スケールフリー・ネットワーク(scale-free network)
    リンク先は「複雑ネットワーク」です。この中の「スケールフリー性」という項目に書かれていますが、スケールフリーとは、「一部の頂点が他のたくさんの頂点と辺で繋がっており、大きな次数を持っている一方で、その他の大部分はわずかな頂点としか繋がっておらず、次数は小さいという性質」のことです。そのような性質をもったネットワークが、スケールフリー・ネットワークです。

  • べき分布(power law distribution)
    リンク先は「冪乗則(べきじょうそく)」です。べき乗則とも書かれます。統計モデルの1つであり、f(x) = axkのような形で表されることが多いです(aとkは定数)。xに相当する説明変数のスケールが変わる(単位がmmからcmに変わるとかそういうイメージ)と、aやkの値も変わるが、関数自体の形は変わらないのが特徴です。両対数プロットをとると直線性を示すという説明もよくなされます。このような数式に従う分布がべき分布です。
  • 乗算過程
    掛け算的な過程のことです。
  • 漸近的
    「近似的に成り立つ」という理解でよいです。
  • 正規分布(normal distribution)
    確率論や統計学で用いられる連続的な変数に関する確率分布の1つです。データが平均値の付近に集積するような分布を表します。ガウス分布(Gaussian distribution)ともよばれます。中心極限定理(central limit theorem)により、独立な多数の因子の和として表される確率変数は正規分布に従います。
  • 中心極限定理(central limit theorem)
    標本平均と母平均との誤差を論ずるもので、「多くの場合、母集団の分布がどんな分布であっても、その誤差は標本の大きさを大きくしたとき近似的に正規分布に従う」という定理です。
  • 対数正規分布(log-normal distribution)
    連続確率分布の一種です。この分布に従う確率変数の対数をとったとき、対応する分布が正規分布に従うものとして定義されます。そのため中心極限定理の乗法的な類似が成り立ち、独立同分布に従う確率変数の積は漸近的に対数正規分布に従います。
  • 図5.23
    中央値がネイピア数eになる対数正規分布です。中央値がネイピア数eになる対数正規分布にすべく、dlnorm関数のオプションとしてmeanlog=1を与えています。これが中央値がe\(^1\)になる対数正規分布を作成せよという指令に相当します。対数正規分布は2つのパラメータ(定数μと定数σ)をもちますが、これらは正規分布とは異なり平均と標準偏差には対応しないのでご注意ください(ウィキペディアのリンク先にも書かれています)。なお、この定数μに相当するdlnorm関数のオプションがmeanlogになります。 以下のRスクリプトのコピペで作成できます。
curve(dlnorm(x, meanlog=1, sdlog=0.3), xlim=c(0, 10), col="black")
curve(dlnorm(x, meanlog=1, sdlog=0.7), xlim=c(0, 10), col="red", add=T)
curve(dlnorm(x, meanlog=1, sdlog=1.0), xlim=c(0, 10), col="blue", add=T)
curve(dlnorm(x, meanlog=1, sdlog=2.0), xlim=c(0, 10), col="green", add=T)

  • 松下貢 (2020) 統計分布を知れば世界が分かる, 中公新書, ISBN: 9784121025647
  • Limpert et al., BioScience, 2001
  • べき則(power law)
    リンク先は「冪乗則(べきじょうそく)」です。べき乗則とも書かれます。「べき分布(power law distribution)」もこのリンク先です。統計モデルの1つであり、f(x) = axkのような形で表されることが多いです(aとkは定数)。xに相当する説明変数のスケールが変わる(単位がmmからcmに変わるとかそういうイメージ)と、aやkの値も変わるが、関数自体の形は変わらないのが特徴です。両対数プロットをとると直線性を示すという説明もよくなされます。
  • インターネット(internet)
    インターネット・プロトコル・スイートを使用し、複数のコンピュータネットワークを相互接続した、地球規模の情報通信網のことです。省略してネットともよばれます。インターネット・プロトコル・スイートとは、インターネットを含む多くのコンピュータネットワークにおいて、標準的に利用されている通信プロトコルのセットのことで、TCP/IPともよばれます。

  • 図5.19
    代表的なネットワークモデルにより生成した例です。
  • 図5.20
    (a)規則性のある格子ネットワーク(三角格子)、(b)同じ頂点数のランダムネットワークです。数字は0の頂点を起点とした最短のステップ数です。
  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
  • 数理モデル(mathematical model)
    時間変化する現象の計測可能な主要な指標の動きを模倣する、微分方程式などの「数学の言葉で記述した系」のことです。

page169
  • 図5.23
    中央値がネイピア数eになる対数正規分布(確率密度関数)の例です。
  • 表5.2

    各種ネットワークモデルの比較です。

    ネットワークの特徴 格子 スモールワールド ランダム スケールフリー
    次数の分布とハブの存在 次数が一定で、ハブは存在しない 次数がほぼ一定で、ハブは存在しない ポアソン分布をとり、ハブはきわめて少ない べき分布をとり、ハブは比較的多い
    頂点間距離の平均値 長い 短い 短い ハブが多く、とても短い
    クラスター(三角形の密度) 一様に密 大部分が密 一様に疎 一様に疎

  • 格子(lattice)
    リンク先は「格子 (数学)」です。「周期的に並んだ区切り、または仕切りのこと」だという理解でよいです。図5.20(a)に例示されているように、そのような周期的に並んだ区切りのところに頂点を配置して、頂点間を辺で結んだネットワークが格子ネットワークです。
  • スモールワールド(small world)
    リンク先は「複雑ネットワーク」です。この中の「スモールワールド性」という項目に書かれていますが、「任意の2つの頂点が、中間にわずかな数の頂点を介するだけで接続されるという性質」のことです。現実世界のネットワークが持つ性質の1つです。
  • 乗算過程
    掛け算的な過程のことです。
  • べき分布(power law distribution)
    リンク先は「冪乗則(べきじょうそく)」です。べき乗則とも書かれます。統計モデルの1つであり、f(x) = axkのような形で表されることが多いです(aとkは定数)。xに相当する説明変数のスケールが変わる(単位がmmからcmに変わるとかそういうイメージ)と、aやkの値も変わるが、関数自体の形は変わらないのが特徴です。両対数プロットをとると直線性を示すという説明もよくなされます。このような数式に従う分布がべき分布です。
  • スケールフリー(scale-free)
    リンク先は「複雑ネットワーク」です。この中の「スケールフリー性」という項目に書かれていますが、「一部の頂点が他のたくさんの頂点と辺で繋がっており、大きな次数を持っている一方で、その他の大部分はわずかな頂点としか繋がっておらず、次数は小さいという性質」のことです。

  • 例題5.5
    1ページ目が問題、2ページ目以降が解答例です。PDFファイル中のRコマンドのコピペ実行は不具合が生じやすいため、実際にコピペする際は以下のスクリプトをご利用ください。両方とも基本的に中身は同じで、igraphパッケージのインストールから含めています。
    • E5.5.R
      Rスクリプトファイルです。
    • E5.5.Rmd
      Rmdファイルです。
    • E5.5.html
      上のRmdファイルからhtmlレポートを作成した結果ファイルです。

  • 例題5.6
    1ページ目が問題、2ページ目以降が解答例です。PDFファイル中のRコマンドのコピペ実行は不具合が生じやすいため、実際にコピペする際は以下のどちらかをご利用ください。dlnorm関数を用いてmeanlogsdlogという2つのオプションで確率密度関数を定義しています。たとえば黒色の分布ではmeanlog=1sdlog=0.3を与えていますが、これは対数化前の平均がe1、標準偏差(standard deviation)がe0.3というパラメータを与えていることに相当します。なお、xlimオプションは、x軸の範囲を指定するものです。ltyオプションは線の種類を指定するものであり、lty=1は実線、lty=2は破線に相当します。
    • E5.6.R
      Rスクリプトファイルです。
    • E5.6.Rmd
      Rmdファイルです。
    • E5.6.html
      上のRmdファイルからhtmlレポートを作成した結果ファイルです。
page170

5.6 システム生物学の今後

  • システム生物学(Systems Biology)
    システム工学の考え方や解析手法を生物学に導入し、生命現象をシステムとして理解することを目的とする学問分野のことです。
  • 分子生物学(molecular biology)
    生命現象を分子を使って説明(理解)することを目的とする学問です。
  • 複雑系科学(complex system science)
    複雑な自然界の現象を記述するモデル(系)を用いた研究を行う分野という理解でよいと思います。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。
  • 数理モデル(mathematical model)
    時間変化する現象の計測可能な主要な指標の動きを模倣する、微分方程式などの「数学の言葉で記述した系」のことです。
  • 多変量解析(multivariate analysis)
    統計学において、複数の説明変数(独立変数)からなる多変量データを統計的に扱う手法のことです。主成分分析(PCA)、因子分析、クラスター分析などがあります。
  • ネットワーク(network)
    もの(遺伝子)どうしの制御関係(つながり)をつなげた系(システム)のことです。
  • 天文学(astronomy)
    天体や天文現象など、地球外で生起する自然現象の観測、法則の発見などを行う自然科学の一分野です。
  • 宇宙望遠鏡(space telescope)
    地球の衛星軌道上などの宇宙空間に打ち上げられた天体望遠鏡のことです。地上に設置された望遠鏡に対して多額の費用がかかることと、打ち上げを要する困難さはあるが、地球大気に邪魔されず観測できるため、現代観測天文学の重要な設備となっています。
  • 生物学(biology)
    生命現象を研究する、自然科学の一分野です。
  • 顕微鏡(microscope)
    光学的もしくは電子的な技術を用いることによって、微小な物体を投影し、肉眼で見える大きさの像を得る装置のことです。単に顕微鏡というと、光学顕微鏡を指すことが多いです。
  • オミックス(omics)
    リンク先は「オーミクス」です。「研究対象+omics」という名称を持つ生物学の研究分野の非公式な総称です。生命の様々な層(クラスター)に存在する大量の生物学的情報の相互作用や機能を解析する科学・工学分野です。
  • コンソーシアム(consortium)
    2つ以上の個人、企業、団体、政府(あるいはこれらの任意の組み合わせ)から成る団体のことです。共同で何らかの目的に沿った活動を行ったり、共通の目標に向かって資源を蓄える目的で結成されます。