« 05.21 EMBOSSを試す その3 | ココ | 05.24 EMBOSSを試す その5 »
2009年5月22日
EMBOSSを試す その4
今度は、アラインメント(ref. Wikipedia)してみます。stretcherコマンドは、Needleman-Wunsch法を使った大域的アライメントの実装です。NCBIの相同遺伝子配列の検索で有名なBLASTは配列の相同性をスコアリングするのに局所的アライメントのSmith-Waterman法を使っています。
以前参考にした、genbank:GQ149630(Influenza A virus (A/Mexico/4603/2009(H1N1)) segment 4 hemagglutinin (HA) gene, complete cds.)と、genbank:GQ169382(Influenza A virus (A/Thailand/104/2009(H1N1)) segment 4 hemagglutinin (HA) gene, complete cds.)を比べてみます。どちらも、豚インフルのHAタンパクをコードしている遺伝子で、違いはメキシコで採れたものかタイで採れたものか、です。
$ stretcher genbank:GQ169382 genbank:GQ149630
Needleman-Wunsch rapid global alignment of two sequences
Output alignment [gq169382.stretcher]: stdout
########################################
# Program: stretcher
# Rundate: Sun 24 May 2009 00:23:40
# Commandline: stretcher
# [-asequence] genbank:GQ169382
# [-bsequence] genbank:GQ149630
# -outfile stdout
# Align_format: markx0
# Report_file: stdout
#########################################=======================================
#
# Aligned_sequences: 2
# 1: GQ169382
# 2: GQ149630
# Matrix: EDNAFULL
# Gap_penalty: 16
# Extend_penalty: 4
#
# Length: 1741
# Identity: 1699/1741 (97.6%)
# Similarity: 1699/1741 (97.6%)
# Gaps: 40/1741 ( 2.3%)
# Score: 8303
#
#
#=======================================10 20 30 40 50
GQ1693 GCAAAAGCAGGGGAAAACAAAAGCACAAAATGAAGGCAATACTAGTAGTT
:::::::::::::::::::::
GQ1496 -----------------------------ATGAAGGCAATACTAGTAGTT
10 20..(略)..
1660 1670 1680 1690 1700
GQ1693 TGGTACTGGTAGTCTCCCTGGGGGCAATCAGTTTCTGGATGTGCTCTAAT
::::::::::::::::::::::::::::::::::::::::::::::::::
GQ1496 TGGTACTGGTAGTCTCCCTGGGGGCAATCAGTTTCTGGATGTGCTCTAAT
1630 1640 1650 1660 16701710 1720 1730 1740
GQ1693 GGGTCTCTACAGTGTAGAATATGTATTTAACCATAGGATTC
::::::::::::::::::::::::::::::
GQ1496 GGGTCTCTACAGTGTAGAATATGTATTTAA-----------
1680 1690 1700
#---------------------------------------
#---------------------------------------
ほとんど一緒、というか前後に余分なところがあるだけで重なるところは全部同じですね。ある意味当然の結果なんですが(でないと遺伝子検査とかできないしね)。HAタンパクではない、別のタンパクをコードしている遺伝子と比較します。genbank:GQ169382と比較する、genbank:GQ169385(Influenza A virus (A/Thailand/104/2009(H1N1)) segment 5 nucleocapsid protein (NP) gene, complete cds.)は、採った検体は同じで、コードしているタンパクが違います。見た感じが明らかに違って、スコアも低いです。
$ stretcher genbank:GQ169382 genbank:GQ169385
Needleman-Wunsch rapid global alignment of two sequences
Output alignment [gq169382.stretcher]: stdout
########################################
# Program: stretcher
# Rundate: Sun 24 May 2009 00:48:51
# Commandline: stretcher
# [-asequence] genbank:GQ169382
# [-bsequence] genbank:GQ169385
# -outfile stdout
# Align_format: markx0
# Report_file: stdout
#########################################=======================================
#
# Aligned_sequences: 2
# 1: GQ169382
# 2: GQ169385
# Matrix: EDNAFULL
# Gap_penalty: 16
# Extend_penalty: 4
#
# Length: 1779
# Identity: 840/1779 (47.2%)
# Similarity: 840/1779 (47.2%)
# Gaps: 260/1779 (14.6%)
# Score: -732
#
#
#=======================================10 20 30 40 50
GQ1693 GCAAAAGCAGGGGAAAACAAAAGCACAAAATGAAGGCAATACTAGTAGTT
:::: : : :: ::: : ::: : :: ::
GQ1693 --------AGGGTAGA---TAATCACTCACTGAGTGACATCGAAG-----
10 20 3060 70 80 90 100
GQ1693 CTGCTATATACATTTGCAACCGCAAATGCAGACACATTATGTATAGGTTA
: : :: : :: ::: : : :
GQ1693 ----------------CCATGGCGTCTCAAGGCACCAAACG--------A
40 50 60..(中略)..
1670 1680 1690 1700 1710
GQ1693 TCCCTGGGGGCAATCAGTTTCT--GGATGTGCTCTAATGGGTCTCTACAG
:: :: : : ::::: ::: : : :: ::::
GQ1693 --AATGAAGGGTCTTA-TTTCTTCGGAGACAATGCAGAGGAGTATGACAG
1490 1500 1510 15201720 1730 1740
GQ1693 TGTAGAATATGTATTTAACCATAGGATTC
: :: : : :: : : :
GQ1693 TTGAGGAAAAATACCCTTGTTTCT-ACTA
1530 1540 1550
#---------------------------------------
#---------------------------------------
これだけでは何のことやら、かもしれませんが。新型インフルエンザA(H1N1)の流行状況-更新4(ref. 国立感染症研究所 感染症情報センター)を見ると、豚インフルの遺伝子の特徴を調べるのに使っているのが分かるでしょう。もっとも、こんなのは総当りで調べてたら見る方もしんどいのでまとめて調べてるんでしょうけど。
ウイルス学的状況
今回の新型インフルエンザ(Swine-origin influenza A/H1N1)のウイルス学的な解析においては、本ウイルスは、1930年代以降に発見された米国由来のブタインフルエンザウイルス、ヒトインフルエンザウイルス(H3N2)、トリインフルエンザウイルスの3つのウイルスの内部遺伝子が遺伝子再集合をおこしたTriple Reassortantに、更にアジア-ユーラシア由来のブタインフルエンザウイルスの遺伝子分節が含まれている。この遺伝子がどのようにメキシコまで到達したかは不明である。現在のすべての遺伝子分節はブタ型の特徴を表しており、ヒト型への適応はみられていないとされている。3月以降に分離された30株ほどのウイルス遺伝子を調べた結果、99%の遺伝子が同一であったことから、変異の速度が速いRNAウイルスとしての性質を考えた場合、最近発生したウイルスであると推定されている。これまでに複数の国の患者から分離されたウイルスは現時点では非常に類似していると考えられ、引き続きノイラミニダーゼ阻害剤に対する感受性を維持している。
By ただ at 23:15 カテゴリー ; 生命科学
« 05.21 EMBOSSを試す その3 |
05月の記事
| 05.24 EMBOSSを試す その5 »
トラックバック
このエントリーのトラックバックURL:
http://pinmarch.sakura.ne.jp/mt/mt-tb.cgi/1418
このリストは、次のエントリーを参照しています: EMBOSSを試す その4:
There is apparently a lot to realize about this. I think you made various ni...
トラックバック時刻: 2015年7月24日 16:03