集団の分化

ハーディ・ワインベルグの法則では集団が一様かつ十分に大きいことを仮定している。しかし、現実の多くの集団はハーディ・ワインベルグ平衡からずれていると考えられる。その理由として、現実の集団は多くの場合、有限である。また、集団の中にさらに小さな分集団に分かれていることが多い。例えば、日本人の集団を見ると、これは有限である。また、日本人集団として考えたときに、北海道と沖縄の間の転出・転入が少なく、北海道や沖縄が小さな分集団を形成していると考えらる。小さな分集団においてホモ接合体の割合が大きくなることがある。そのため、実際の生物の集団は、ハーディ・ワインベルグ平衡で計算されたホモ接合体の割合より大きくなることがある。このような現象をワーランド効果 (Whalund effect) とよぶ。

分集団は地理的隔離などの原因で形成されることが多い。もともと一つの集団が複数の分集団に分化し、それぞれの分集団において遺伝的浮動によりアレル頻度が変化することが予測される。とくに、分集団のサイズが小さいと、アレル頻度の変化も速い。そして、分集団間の分化が進めば、いずれ種分化につながると考えられている。

ワーランド効果

ワーランド効果について数式でみていく。あるアレル A の頻度が p であるとき、そのアレル頻度 A の分散 Var(p) を考える。分散 Var(p) を定義に基づいて期待値で書き表すと、次のようになる。

\[ Var(p) = E(p^{2}) - \left(E(p)\right)^{2} \]

E(p2) はハーディ・ワインベルグ平衡で計算されたアレル A のホモ接合度(AA の割合)である。ある集団の中にいくつかの分集団が見られるとき、E(p2) は各分集団のアレル A のホモ接合度の平均となる。また、同様に E(p) は各分集団におけるアレル A の頻度の、集団間の平均値である。この (E(p))2 は集団全体のアレル A のホモ接合度をも表している。このとき、Var(p) が大きくなることを考える。Var(p) が大きくなると、アレル A の頻度の増加したり、減少したりして、その変動が大きくなる。つまり、遺伝子浮動が進む。上式から遺伝子浮動が進むと(Var(p) が大きくなると)、E(p2) と (E(p))2 の差が大きくなる。つまり、分集団のホモ接合度は、集団全体のホモ接合度よりも大きくなる。

次に特定のアレルについて見ずに、すべてのアレルについて考えてみる。このとき、分散の式は次のように書ける。

\[ \sum Var(p) = \sum E(p^{2}) - \sum\left(E(p)\right)^{2} \]

ここで、ある頻度 p のアレルについての集団の分化を測る尺度を FST を次のように定義する。p の分散は 0 以上で p(1 - p) 以下であるから、FST は、アレル頻度の分散が、最大値の何割になっているのかを指標として定義していることになる。

\[ F_{ST} \equiv \frac{Var(p)}{p(1-p)} \]

ここで \( \sum Var(p) \) を FST で表すように式変形を行う。

\[ \begin{eqnarray} \sum Var(p) &=& F_{ST}\sum p(1-p) \\ &=& F_{ST} \sum \left(p - p^{2}\right) \\ &=& F_{ST} \left(\sum p - \sum p^{2}\right) \\ &=& F_{ST} \left( 1 - \sum p^{2} \right) \end{eqnarray} \]

\(\sum p^{2}\) は集団全体のホモ接合度とみなせるので、\( 1 - \sum p^{2} \) は集団全体のヘテロ接合度である。これを HT とおく。したがって、\( Var(p) = F_{ST}F_{T} \) と表せる。

次に、\( \sum E(p^{2}) - \sum\left(E(p)\right)^{2} \) において、\( \sum E(p^{2}) \) は各分集団のホモ接合度の平均値であるのでる。ここで各分集団のヘテロ接合度の平均値を \( H_{S} \) とおくと、各分集団のホモ接合度の平均値は\( 1 - H_{S} \) となる。また、\(\sum\left(E(p)\right)^{2} \) は秋雨団全体のホモ接合度であるので、\(1 - H_{T}\) と書ける。よって、

\[ \sum E(p^{2}) - \sum\left(E(p)\right)^{2} = H_{T} - H_{S} \]

となる。以上により、\( F_{ST} \equiv \frac{Var(p)}{p(1-p)} \) は次のように書ける。

\[ H_{T}F_{ST} = H_{T} - H_{S} \]

これにより、集団の分化の尺度は次のようにも書ける。

\[ F_{ST} = \frac{H_{T} - H_{S}}{H_{T}} = 1 - \frac{H_{S}}{H_{T}} \]

塩基配列を利用して集団の違いを定量

複数の集団があったときに、これら集団間で遺伝的分化がどれぐらい異なっているのかを定量する統計量として FST がある。FST は各集団から得られた塩基配列で計算する。Hw を同じ集団に属するサンプル間の平均的な塩基配列の違いの数とし、Hb を異なる集団に属するサンプル間の平均的な塩基の違いの数とすると、FST は次のように求める。

\[ F_{ST} = 1 - \frac{H_{W}}{H_{b}} \]

集団内で塩基の違いがほとんどなく、集団間で大きな違いが見られる場合(Hw << Hb)、つまり集団が分化している場合、Hw/Hb は 0 に近い値をとり、FST が 1 に近い値をとるようになる。逆に、集団内および集団間の塩基の違いがほぼ同じ(Hw = Hb)であれば、つまり、集団があまり分化していない場合、Hw/Hb は 1 に近い値をとり、FST は 0 に近い値をとる。なお、集団ごとのサンプル数に偏りがある場合、FST は計算上負の値をとることもある。

SNP を利用して集団の違いを定量

SNP を利用して集団の違いを定量する場合、FST をアレル頻度の分散として定義することが多い。平均アレル頻度を \(\bar{p}\) とおくと、FST は、

\[ F_{ST} = \frac{Var(p)}{\bar{p}(1-\bar{p})} \]

となる。さらにこれにサンプル数の偏りの効果を加えた、ウィアー・コッカーハムの方法がよく用いられる。