« 10.05 久米島の サンゴ サンゴ サンゴ サンゴ | ココ | 10.08 構造式が見たいんだ! »

2010年10月 6日

MEME - Motif-based sequence analysis tools  このエントリーを含むはてなブックマーク 

サンゴ礁の話にちなんで、遺伝子情報に基づいて遺伝子の機能を推定したり分類するのに役立つツールを1つ。DNA配列とかAA配列をもとに相同性検索を行うBLAST以外にも、AA配列の並びが高次構造をとって機能するのに重要な配列=モチーフについて解析を行うMEME(ミーム)。

The MEME Suite - Motif-based sequence analysis tools

原典:
Timothy L. Bailey and Charles Elkan, "Fitting a mixture model by expectation maximization to discover motifs in biopolymers", Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology, pp. 28-36, AAAI Press, Menlo Park, California, 1994.

ABSTRACT

The algorithm described in this paper discovers one or more motifs in a collection of DNA or protein sequences by using the technique of expectation maximization to fit a two-component finite mixture model to the set of sequences. Multiple motifs are found by fitting a mixture model to the data, probabilistically erasing the occurrences of the motif thus found, and repeating the process to find successive motifs. The algorithm requires only a set of unaligned sequences and a number specifying the width of the motifs as input. It returns a model of each motif and a threshold which together can be used as a Bayes-optimal classifier for searching for occurrences of the motif in other databases. The algorithm estimates how many times each motif occurs in each sequence in the dataset and outputs an alignment of the occurrences of the motif. The algorithm is capable of discovering several different motifs with differing numbers of occurrences in a single dataset.

パッケージされている各種ツールの文献:
http://meme.nbcr.net/meme4_4_0/doc/cite.html

MEMEの原理としてはEMアルゴリズムを使ってテキストが一番似ているところを探し出すんやけど…これはまた今度詳しく見よう。とりあえず使ってみる。

インストールは上のドキュメントを参考に。

$ ./configure --prefix=$HOME/local --with-url="http://www.nbcr.net/"
$ patch -p0 < meme_4.4.0.patch_{1..7}
$ make
$ make install

これでインストールできる。makeの前にパッチをソースを展開した先のディレクトリトップにコピーしておいて、パッチを充てる作業があるけどドキュメントにはないからそこだけ気を付ける。データベースも同様に展開とコピー・makeをやって、memeのドキュメント見てコマンド実行。

$ wget "http://meme.nbcr.net/meme4_4_0/doc/lipo.fasta"
$ meme lipo.fasta

サンプルとして使ったFASTA以外でやりたかったけど…手抜きしてごめん。

meme_out/meme.htmlに結果がHTML形式で、meme_out/meme.txtにテキストで出力される。しかしコマンドオプションも奥が深そうなんよなー。

あと、memeの実行にはcsh(Cシェル)が必要なのでbashしか入ってないときは yum install tcsh (Fedora/CentOS)で cshを入れる。

By ただ at 22:44 カテゴリー ; 生命科学

« 10.05 久米島の サンゴ サンゴ サンゴ サンゴ | 10月の記事 | 10.08 構造式が見たいんだ! »




トラックバック

このエントリーのトラックバックURL:
http://pinmarch.sakura.ne.jp/mt/mt-tb.cgi/1675