ゲノム解析におけるランダム配列の使用について

2010.08.25

ゲノムの解析をしている研究で、特定の傾向を示すためにランダム配列と比較して有意であると示す例をしばしば見にする。が、これは複数の意味で間違っていると僕は思う。うちのラボにいる人は僕がこのランダム配列との比較を好まないことを知っていると思うが、明確に説明したことがない(発表の質疑応答ではその時間がない)ため、ここに一度記しておこうと思う。

手短にまとめておくと、僕が考える大きな問題とは、1. 「統計」や「有意」の考え方を間違えている、2. ゲノムの配列はそもそもランダムではない、3. ランダム配列ではなく、ランダムサンプリングの方が適切、という点にまとめられると思う。

まず一番間違えていると思えるのは、残念ながら非常に良く見るが、ある事象とランダム配列におけるその事象のグラフを示し、それらの有意差をt検定ないしZ検定で見ている例。そもそも統計検定とは、観測事象がランダムな分布におけるどのあたりの位置に存在するかを見るもの。Z検定であれば、ランダムなふるまいは正規分布に従うという仮定のもと、観測事象が標準偏差の何倍の位置にあるかを見る。t検定やZ検定は分散や分布を等分散や正規分布などに仮定するものであり、本来ここでやるべきは、ランダム配列の分布における、観測事象の位置とそのp値の算出である。観測事象がある程度のデータポイントを持つ場合は、例えばコルモゴロフ・スミルノフ検定を用いるべきだし、そうしないと有意差の議論は成り立たない。ランダム配列における結果というのは母分布であるべきで、観測事象と(t検定やZ検定などで)直接比較可能な事象ではない。

次に、ゲノムの配列はランダムではない、という当たり前な前提を無視している点。遺伝子上流下流の構造、コドンの3文字周期性(同義コドン使用頻度により、さらにランダムさは少なくなっている)、ヒストンによる250bp程度の周期性、リーディング鎖・ラギング鎖の傾向など、ゲノムには非常に多階層の配列上の規則があり、ランダムにした配列はこれらを全て崩すのだから、そんなあり得ない仮定と有意差の比較をしたところで何ら生物学的に意味があることを示せるとは思えない。2塩基頻度、3塩基頻度、などを固定してランダム配列を作り、8塩基頻度くらいまで同様の有意差が見えることを示すことも一つの方法だが、後述するように多塩基頻度を固定して本当にランダムな配列を作成することは数学的に難しい問題であり、これをちゃんと考慮している仕事も少なく、他に良い方法も存在する。また、いずれにしてもオリゴ配列レベル以上、つまり遺伝子上流下流の構造、オペロン構造、複製構造などはランダム配列を使用する以上壊れてしまい、それはもはやゲノムではなくなってしまう。ゲノムの進化は連続的に起こっているものなのだから、例えばある転写因子の傾向を考える上では、ランダムなゲノムにその転写因子が生じる確率を議論しても意味がなく、その転写因子が生じる以前の、現在のゲノムに比較的近いゲノムにおいてそれが生じうる確率などを考えるのが自然である。

ではどうすれば良いか。一応断りをいれておくと、in vitroでプラスミドなどをデザインする場合など、ランダム配列を使うべき場合というのも存在はする。ただし、ゲノムにおける特定の配列などの傾向を見たい場合は、ランダム配列を使わずに、そのゲノムの傾向をもとに議論するべきだ。もし配列が計算可能な範囲で短いものであれば、それに関連する配列全ての傾向を母分布として、そこから観測事象の統計的有意性を計算すれば良い。もし観測したい事象が全通り計算不可能な場合(例えば100kbp領域に存在する確率など)は、ゲノムの配列からランダムサンプリングを計算可能な範囲で繰り返すべきである。

参考までに、バクテリアのオリゴ配列の解析で、ゲノムの傾向を考慮しなければ間違ってしまう例を僕の論文から紹介しておく。Arakawa K, Uno R, Nakayama Y, Tomita M, "Significance of the genomic properties of Chi sites validated from the distribution of all octamers in Escherichia coli", Gene, 2007, 392(1-2):239-246.
また、ランダム配列とは少し違うけれど、ゲノムのアノテーションのレベルによって解析結果がどれくらい揺らぐかを評価する手法も紹介しておく。Arakawa K, Nakayama Y, Tomita M, "GPAC: Benchmarking the sensitivity of genome informatics analysis to genome annotation completeness", In Silico Biology, 2006, 6:0006.

k-merの頻度を維持して数学的に完全にランダムな配列を作る場合、マルコフ性を考慮して作った全域木をEularian random walkによって辿る必要がある。現在最も速くこのアルゴリズムを実装しているのがG-language GAEのshuffleseq関数である。詳細なアルゴリズムに関する関連論文などはshuffleseqのマニュアル(http://rest.g-language.org/help/shuffleseqを参照いただきたい。

ビギナー

by Spitz

2010.08.10

また一つ歳をとった。うだる暑さの毎日に、全然まともに仕事ができない忙しさがストレスになってしまっている。でも、それも結局は言い訳。まだまだ人間が小さい自分にさらに苛立つ。やっぱりレベルが足りていない。手持ちの仕事をさっさと片付けて、本気で経験値稼ぎをした方がいいんだろうな。

気持ちを入れ換えよう。そして、追いかけよう。本気で走っていれば、転んだり迷ったりして、結局望んだ場所に届かなかったとして、見える景色があると思うから。きっと。


 懲りずにあこがれ 練り上げた嘘が
 いつかは形を持つと信じている

 だけど追いかける 君に届くまで
 慣れないフォームで走りつづけるよ

                    by 草野正宗

つぐみ

by Spitz

2010.07.22

例えば1万年生きなければいけないとして、そのパートナーに選んでもいいと思う人であればそれは伴侶にすべきだと思う。果たしてその逆は真か偽か。

何が言いたいかというと、Chaos Rings非常に面白かった:)

ソラニン

by ASIAN KUNG-FU GENERATION

2010.06.30

今までのアルバムからはまたちょっと違う新しさを盛り込んでいる「マジックディスク」、相変わらず最高。ただ、新しさとはいっても「サーフ ブンガク カマクラ」の時の迷いのある感じのサウンドではない。アルバム曲の中ではシングル曲が比較的浮く構成になってはいるけれど、やはりソラニンが何度も聴く度に良くなっていく気がする。十代後半から二十代前半の刹那と焦燥感剥き出しな、ストレートなサウンド。スピッツにとっての「隼」的な存在の「ワールド ワールド ワールド」。さしずめこのアルバムはスピッツで言うところの「三日月ロック」。年末から来年春にかけてのアジカンツアー、ぜったいチケットとるぞ!

さて、仕事の進みがイマイチ思わしくないまま終わる2010年前半。ま、ワールドカップやってるのに仕事やってる場合じゃないでしょ!後半戦頑張ろう。

butterfly swimmer

by school food punishment

2010.06.11

school food punishmentのライブ。ラストのButterfly swimmerは彼らのポテンシャルが全て凝縮された、彼らの中でも歴史に残る演奏になっていたと思う。初めてのツアーのファイナル。あのエネルギーと勢いは、彼ら自身もう超えるものは出せないかもしない。

それは、それが「若さ」起因するからだ。MCで語られた迷いや、全力の恋。メジャーデビューから一年という時間。「若さ」をロックに乗せた彼らはその「若さ」故に、まだバンドとしてのバランスの悪さも見せた。中盤は全体的にピースの調和が全然取れていなかった。 恵比須リキッドルームは中型の箱の中ではかなり音響が悪いほうだと思う。また、照明もあまりセンスがなかった。その辺を差し引いても、中盤の演奏は残念だった。対バンの短い枠や、野外ではあり得る演り方だと思う。でもそれも「若さ」。 アンコール後にアンプとピースのバランスを直した後は最高だっただけにもったいない。思うに、ベースはかなりボーカルのレベルに近いが、ドラムがちゃんと追いつけていない。ボーカルの良さは想像以上だったので、ちゃんとバンドとしては彼女についていかないといけない。彼女も中盤迷いがあったが。

だから今後に期待するよ。今日は最高レベルの演奏だったbutterfly swimmerとflowなどだけで十分の価値があった。lightprayerやfuturistic imaginationはちょっと残念だったけど次のレベルを今度また見せて欲しい。 インディーズから聴いているからそんな感じがしないけど、まだメジャーデビューから一年。ファーストアルバム。初めてのツアー。まだまだ若い。