« 05.21 EMBOSSを試す その3 | ココ | 05.24 EMBOSSを試す その5 »

2009年5月22日

EMBOSSを試す その4   このエントリーを含むはてなブックマーク 

今度は、アラインメント(ref. Wikipedia)してみます。stretcherコマンドは、Needleman-Wunsch法を使った大域的アライメントの実装です。NCBIの相同遺伝子配列の検索で有名なBLASTは配列の相同性をスコアリングするのに局所的アライメントのSmith-Waterman法を使っています。

以前参考にした、genbank:GQ149630(Influenza A virus (A/Mexico/4603/2009(H1N1)) segment 4 hemagglutinin (HA) gene, complete cds.)と、genbank:GQ169382(Influenza A virus (A/Thailand/104/2009(H1N1)) segment 4 hemagglutinin (HA) gene, complete cds.)を比べてみます。どちらも、豚インフルのHAタンパクをコードしている遺伝子で、違いはメキシコで採れたものかタイで採れたものか、です。


$ stretcher genbank:GQ169382 genbank:GQ149630
Needleman-Wunsch rapid global alignment of two sequences
Output alignment [gq169382.stretcher]: stdout
########################################
# Program: stretcher
# Rundate: Sun 24 May 2009 00:23:40
# Commandline: stretcher
#    [-asequence] genbank:GQ169382
#    [-bsequence] genbank:GQ149630
#    -outfile stdout
# Align_format: markx0
# Report_file: stdout
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: GQ169382
# 2: GQ149630
# Matrix: EDNAFULL
# Gap_penalty: 16
# Extend_penalty: 4
#
# Length: 1741
# Identity:    1699/1741 (97.6%)
# Similarity:  1699/1741 (97.6%)
# Gaps:          40/1741 ( 2.3%)
# Score: 8303
#
#
#=======================================

               10        20        30        40        50
GQ1693 GCAAAAGCAGGGGAAAACAAAAGCACAAAATGAAGGCAATACTAGTAGTT
                                    :::::::::::::::::::::
GQ1496 -----------------------------ATGAAGGCAATACTAGTAGTT
                                            10        20

..(略)..

             1660      1670      1680      1690      1700
GQ1693 TGGTACTGGTAGTCTCCCTGGGGGCAATCAGTTTCTGGATGTGCTCTAAT
       ::::::::::::::::::::::::::::::::::::::::::::::::::
GQ1496 TGGTACTGGTAGTCTCCCTGGGGGCAATCAGTTTCTGGATGTGCTCTAAT
            1630      1640      1650      1660      1670

             1710      1720      1730      1740
GQ1693 GGGTCTCTACAGTGTAGAATATGTATTTAACCATAGGATTC
       ::::::::::::::::::::::::::::::
GQ1496 GGGTCTCTACAGTGTAGAATATGTATTTAA-----------
            1680      1690      1700


#---------------------------------------
#---------------------------------------

ほとんど一緒、というか前後に余分なところがあるだけで重なるところは全部同じですね。ある意味当然の結果なんですが(でないと遺伝子検査とかできないしね)。HAタンパクではない、別のタンパクをコードしている遺伝子と比較します。genbank:GQ169382と比較する、genbank:GQ169385(Influenza A virus (A/Thailand/104/2009(H1N1)) segment 5 nucleocapsid protein (NP) gene, complete cds.)は、採った検体は同じで、コードしているタンパクが違います。見た感じが明らかに違って、スコアも低いです。

$ stretcher genbank:GQ169382 genbank:GQ169385
Needleman-Wunsch rapid global alignment of two sequences
Output alignment [gq169382.stretcher]: stdout
########################################
# Program: stretcher
# Rundate: Sun 24 May 2009 00:48:51
# Commandline: stretcher
#    [-asequence] genbank:GQ169382
#    [-bsequence] genbank:GQ169385
#    -outfile stdout
# Align_format: markx0
# Report_file: stdout
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: GQ169382
# 2: GQ169385
# Matrix: EDNAFULL
# Gap_penalty: 16
# Extend_penalty: 4
#
# Length: 1779
# Identity:     840/1779 (47.2%)
# Similarity:   840/1779 (47.2%)
# Gaps:         260/1779 (14.6%)
# Score: -732
#
#
#=======================================

               10        20        30        40        50
GQ1693 GCAAAAGCAGGGGAAAACAAAAGCACAAAATGAAGGCAATACTAGTAGTT
               :::: : :    :: :::  : :::  :  ::   ::
GQ1693 --------AGGGTAGA---TAATCACTCACTGAGTGACATCGAAG-----
                          10        20        30

               60        70        80        90       100
GQ1693 CTGCTATATACATTTGCAACCGCAAATGCAGACACATTATGTATAGGTTA
                       : :  ::   :  :: :::   : :        :
GQ1693 ----------------CCATGGCGTCTCAAGGCACCAAACG--------A
                           40        50                60

..(中略)..

         1670      1680        1690      1700      1710
GQ1693 TCCCTGGGGGCAATCAGTTTCT--GGATGTGCTCTAATGGGTCTCTACAG
           ::  ::   : : :::::  :::     :  :  ::      ::::
GQ1693 --AATGAAGGGTCTTA-TTTCTTCGGAGACAATGCAGAGGAGTATGACAG
             1490       1500      1510      1520

           1720      1730      1740
GQ1693 TGTAGAATATGTATTTAACCATAGGATTC
       :  :: : :  ::        :   : :
GQ1693 TTGAGGAAAAATACCCTTGTTTCT-ACTA
    1530      1540      1550


#---------------------------------------
#---------------------------------------

これだけでは何のことやら、かもしれませんが。新型インフルエンザA(H1N1)の流行状況-更新4(ref. 国立感染症研究所 感染症情報センター)を見ると、豚インフルの遺伝子の特徴を調べるのに使っているのが分かるでしょう。もっとも、こんなのは総当りで調べてたら見る方もしんどいのでまとめて調べてるんでしょうけど。

ウイルス学的状況

今回の新型インフルエンザ(Swine-origin influenza A/H1N1)のウイルス学的な解析においては、本ウイルスは、1930年代以降に発見された米国由来のブタインフルエンザウイルス、ヒトインフルエンザウイルス(H3N2)、トリインフルエンザウイルスの3つのウイルスの内部遺伝子が遺伝子再集合をおこしたTriple Reassortantに、更にアジア-ユーラシア由来のブタインフルエンザウイルスの遺伝子分節が含まれている。この遺伝子がどのようにメキシコまで到達したかは不明である。現在のすべての遺伝子分節はブタ型の特徴を表しており、ヒト型への適応はみられていないとされている。3月以降に分離された30株ほどのウイルス遺伝子を調べた結果、99%の遺伝子が同一であったことから、変異の速度が速いRNAウイルスとしての性質を考えた場合、最近発生したウイルスであると推定されている。これまでに複数の国の患者から分離されたウイルスは現時点では非常に類似していると考えられ、引き続きノイラミニダーゼ阻害剤に対する感受性を維持している。

By ただ at 23:15 カテゴリー ; 生命科学

« 05.21 EMBOSSを試す その3 | 05月の記事 | 05.24 EMBOSSを試す その5 »




トラックバック

このエントリーのトラックバックURL:
http://pinmarch.sakura.ne.jp/mt/mt-tb.cgi/1418

このリストは、次のエントリーを参照しています: EMBOSSを試す その4:

» フェンディ アウトレットモール from フェンディ アウトレットモール
There is apparently a lot to realize about this. I think you made various ni...

トラックバック時刻: 2015年7月24日 16:03