塩基多様度 | ランダムに抽出した 2 つの配列間で異なっている塩基の割合

塩基多様度 (nucleotide diversity) は、ランダムに抽出した 2 つの配列間で異なっている塩基の割合である。計算方法として、2 つの配列間で異なる塩基の割合を計算する操作を、すべの組み合わせに対して行い、最後に平均をとる。

例えば、配列が 3 本ある場合を考えてみる。10 塩基からなる 3 本の塩基配列は次のようになっているものとする。

1 CCTCGAAAGG
2 CCCCGAAAGG
3 CCTCGAAAAA

配列 1 と配列 2 の間で 3 番目の塩基（T/C）だけ異なっている。このとき、配列 1 と配列 2 の塩基多様度 π₁₂ は 1/10 = 0.1 と計算できる。配列 2 と配列 3 の間で 3 番目の塩基（C/T）、9 番目の塩基（G/A）、10 番目の塩基（G/A）が異なっている。このとき π₂₃ = 3/10 = 0.3 である。最後に、配列 3 と配列 1 の間では 9 番目の塩基と 10 番目の塩基が異なっているので、π₃₁ = 2/10 = 0.2 である。このとき、このアラインメントから計算される塩基多様度 π は、

\[ \pi = \frac{\pi_{12} + \pi_{23} + \pi_{31}}{3} = 0.2 \]

となる。これを数式で書き表すと次のようになる。長さ L の n 本の配列の中から取り出した 2 本のサンプル i と j の塩基の相違数を d_ij とおくと、

\[ \pi = \frac{\sum_{i \lt j} \frac{d_{ij}}{L}}{\begin{pmatrix} n \\ 2 \end{pmatrix}} \]

となる。N 個のサンプルは集団を代表するサンプルであるとき、π は集団にあける各サイトのヘテロ接合度の平均を意味する。

限サイトモデルの塩基多様度

無限サイトモデル (infinite site model) の塩基多様度を考えてみる。無限サイトモデルは、世代ごとに塩基配列に突然変異が確率 u で起こり、かつこの確率 u は非常に小さいために、突然変異が 2 回起きて元の塩基配列にもどることができないと仮定したモデルである。このモデルにおいて、N 個体の 2 倍体集団からランダムに 2 つのアレルを選んだときに、両者が異なっている確率、すなわちヘテロ接合度は次のように計算できる（詳細）。

\[ \hat{H} = \frac{4Nu}{4Nu+1} \]

この確率は、個々の塩基サイトでも成立する。塩基サイトあたりの突然変異率を μ とすると、配列全体の塩基多様度は次のように推定される。

\[ \hat{\pi} = \frac{4N\mu}{4N\mu + 1} \approx 4N\mu \]

分離サイト数

塩基多様度と似た指標として、分離サイト数 (number of segregating sites) というものがある。分離サイト数はサンプル間で一つでも異なっているサイトの数のことである。例えば次のような 3 つの配列が与えられたとき、分離サイト数は 3 になる。

1 CCTCGAAAGG
2 CCCCGAAAGG
3 CCTCGAAAAA

一般に集団サイズ N が一定ので、すべての変異が中立であるとき、長さ L bp からなる n 本の配列から、次のように分離サイト数 S を計算できる。

\[ S = 4a_{n}N\mu L \\ a_{n} = \sum_{i=1}^{n-1}\frac{1}{i} \]

集団変異率 θ = 4Nμ であることに注意すると、上式は次のように書き換えることができる。

\[ \theta = 4N\mu = \frac{S}{a_{n}L} \]

また、集団サイズ N を推定したいときは、次式にデータから計算された分離サイト数 S や L を代入し、さらにすでに知られている突然変異率 μ を代すればよい。

\[ N = \frac{S}{4\mu a_{n}L} \]