モチーフ検索

１．１モチーフとは

◎基本となるモチーフの知識について確認を行います

モチーフとは各種のタンパク質のアミノ酸配列中に認められる小さい構造部分を指す言葉です。一般的なタンパク質は構造として球状を取りますが、タンパク質を球状にするための２次構造の結び付け方は限られています。そのため、互いに関係のないタンパク質間でヘリックス・ターン・へリックス等の一定の構造が良く出現し、そのような構造のことを構造モチーフと呼びます。また、それをコードするアミノ酸配列には特徴的なパターンがあり、その局所的に保存されたブロックにより定義されるものを配列モチーフと呼びます。代表的なモチーフとしては先ほどあげたへリックス・ターン・へリックス、ジンクフィンガー、ロイシンジッパーなどがあります。これらはDNAに結合するという共通の機能をもつタンパク質に見られる特徴的なモチーフで、DNA結合の際の機能部位もここに存在します。ロイシンジッパーはアミノ酸配列の７残基ごとにアミノ酸の一つであるロイシンが出現するという特徴的なパターンが存在する為、アミノ酸配列を調べることでモチーフを探し出すことができます。

１．２モチーフ検索の目的

◎なぜモチーフの検索を行うかを理解しましょう

タンパク質のモチーフを検索する目的は大きく２つあります。

◇機能、および機能部位の予測

保存された配列から共通のモチーフを見つけ出すことでタンパク質間での機能の類似を見つけだし、未知のタンパク質の機能や機能部位を推定することができます。

例えば、ある未知のタンパク質のアミノ酸配列が得られたとき、モチーフの検索をおこない、上の例に挙げたロイシンジッパーが見つかったとしたらそのタンパク質はDNA結合タンパク質であり、その際の機能部位はそのモチーフであるという推測が可能になります。

◇構造の予測

タンパク質の全体の構造がわからない場合、各モチーフの構造を調べ、それを組み合わせることで全体の構造を予測する際の手助けとすることができます。

１．３モチーフ検索プログラムの種類と特徴

◎各モチーフ検索プログラムのアルゴリズムなどの特徴を理解しましょう

一般的なモチーフデータベースライブラリとそこで用いられているサーチエンジン、アルゴリズムは以下の通りです。

モチーフライブラリ	サーチエンジン	開発団体	アルゴリズム
PROSITE PROFILE	Profilefind	ICR, Kyoto Univ.	ダイナミックプログラミング
ProDom	Blastp	NCBI	BLAST2(Gapped BLAST)
Pfam	Hmmpfam (HMMER)	Washington Univ.	隠れマルコフモデル

１．４ Pfamデータベース

◎ 今回使用するモチーフデ－タベースのPfamについて理解しましょう

上で述べた通り、現在インターネット上で公開されているモチーフデータベース、モチーフ検索プログラムはいくつかありますが、今回はその中でPfamデータベースとその上で動いているモチーフ検索プログラムを使用します。

Pfamは現在最もよく整備されたモチーフデータベースの一つで、膨大な数のタンパク質ファミリーのコレクションを保持しており、その数は現在も増えつづけています。最大の特徴は検索システムとしてHMMERというプログラムを利用している点であり、これにより高速で精度の高いモチーフの検索を可能にしています。

１．５ HMMER

◎Pfamデータベース上の検索システムとして用いられているHMMERについて理解しましょう。

HMMERはワシントン大学で開発されたHMM（Hidden Markov Model：隠れマルコフモデル）を利用して特徴の抽出と検索を行うシステムです。PVMやthreadを用いた並列処理に対応するなどしている先進的なシステムで、GPLにしたがって配布されているため自由に利用することが可能です。

１．６隠れマルコフ連鎖

◎ HMMERで用いられている隠れマルコフ連鎖モデルについて理解しましょう

最も重要な特徴は、単にコンセンサス配列を検索する場合と違って、配列上の弱いパターンを検出することが可能であり、ノイズが存在するときの配列のパターン認識に非常に有効であるという点です。

上のことを理解しておけばHMMERを利用する上では問題はありませんが、詳しくは以下のようなものです。

Ø 有限オートマトンを拡張して状態遷移に確率の概念を加えた確率オートマトンの一種

Ø マルコフ連鎖の各状態に記号の出力確率を与えたもの

Ø 通常のマルコフ連鎖とはことなり、状態遷移の様子は直接には見えず、隠れ層として扱われるため、“隠れ”マルコフ連鎖と呼ばれる

Ø 従来は音声認識の分野でよく利用されてきた

２．１ Pfamのホームページを開く

◎ インターネットエクスプローラーを使って、Pfamのホームページにアクセスしてみましょう

現在公開されているフリーのPfamデータベースはいくつか存在しますが、今回はワシントン大学が公開しているデータベースを利用します。使用できる機能としてはSangerのホームページから利用できるもののほうが優れているのですが、今回は検索にかかる時間を重要視して、一番高速なワシントン大学のものを使用します。

管理組織	リンク	Pfamのバージョン	タンパク質ファミリーの数
ワシントン大学	Pfam (St. Louis)	６．４	２８６６
Sanger	Pfam (Cambridge)	６．４	２８６６
CGR-KI	Pfam (Stockholm)	６．１	２７２７
INRA	Pfam (France)	６．２	２７７３

表．Pfamデータベースのバージョンと含まれるタンパク質ファミリー(２００１年６月現在)

では、実際にアクセスしてみましょう。

②　URLの入力

アドレス欄にhttp://pfam.wustl.edu/ と入力

③ リターンキーを押して接続

接続に成功すると下図のトップページが表示されます。

（１）ワシントン大学以外のPfamデータベースサーバーとHMMER、そして内部へのリンクです。

（２）現在のPfamのバージョンと更新された日時、そして現在登録されているタンパク質ファミリーの数が表示されています。サーバーによってPfamのバージョンが異なっていることがあるので、最新のものを使うよう気をつけましょう。

（３）アミノ酸配列によるモチーフ検索ページへのリンク

④ アミノ酸配列によるモチーフ検索ページを開く

図中の丸でかこったPROTEIN SEARCHのリンクをクリックして検索ページを開きます。

２．２　アミノ酸配列の取得

◎ ゲノムネットのデータベースで検索を行い、モチーフ検索を行うタンパク質のアミノ酸配列を取得します。

① SwissProtで検索

新しく作成したウィンドウからゲノムネットに接続してSwissProtでアミノ酸配列の検索をおこないます。調べるタンパク質はマウスのGPCR21ですので、キーワードにはmouse”, “GPCR21”を入力します。

② アミノ酸配列のコピー

検索の結果得られたタンパク質のアミノ酸配列をモチーフ検索を行う為にコピーします。ページの一番下までスクロールを行い、アミノ酸配列のみを選択し、[編集]-[コピー]を行います。

２．３モチーフの検索

◎ 取得したアミノ酸配列に対してモチーフ検索を行います

（１）配列入力領域

FASTAフォーマット、もしくは単なる配列データを入力可能。異常なデータが含まれていると、検索実行後にエラーが返されます。

① アミノ酸配列の入力

先ほどコピーしたアミノ酸配列を、配列入力領域を選択した後、[編集]-[ペースト]を行って入力

② 検索の実行

アミノ酸配列を入力した後「クエリ送信」をクリック

２．４オプションの設定

◎検索の際のオプション設定について理解しましょう。

　今回は、通常の設定のままで検索をおこないましたが、検索の際にいくつかのオプションを設定することができます。

(1)E-value cutoffの入力

配列のE-valueの切捨てレベルを設定します。この値を大きくすればより多くのモチーフが検索結果として得られますが、あまり大きな値を使うとモチーフでないものをモチーフとして認識してしまう可能性が高くなります。逆にこの値を小さくすれば確かなモチーフのみを検索することができます。

通常は初期値の1．0を利用します。検索の結果、モチーフが何も見つからないときには、この値を10程度に増やして再検索をおこないます。

(2)Search Typeの設定

Standard Pram searchとFragment Pfam searchを選択します。Standard Pfam searchのほうがより多くの検索を得られますが、Fragment Pfam searchのほうが部分的なモチーフに対して高い感度を持っています。通常はStandard Pfam searchを用います。

２．５検索結果の見方

◎検索結果の見方を理解しましょう

　検索結果の表示画面は大きく３つの部分に分けられます。

（１）スコア表示部

（２）モチーフ位置表示部

（３）アライメント表示部

◇ スコア表示部の見方

左端のマークはスコアの比較がどのようになされたかを示しています。マークのついた列のモチーフは非常に良い適合を示したので、自動的にfull alignmentを含めた比較が行われたことを示します。また、この場所にマークがある場合はスコアが良好で、おそらく良い適合を示してはいるものの、通常の比較しか行っていないことを示します。

◆Model

検索に適合したモチーフのモデル名です。クリックするとそのモチーフのより詳しい情報を得ることができます。

◆Seq-from, Seq-to

そのモチーフが配列上のどの位置にあるかを示します。例えば、一番下の列の

7tm_1であれば配列の５７番目のアミノ酸から２９７番目のアミノ酸までがこのモチーフを構成していることがわかります。スコアの高いモチーフについては下でグラフィカルに表示されます。

◆HMM-from, HMM-to

この値が赤で示されているときには、アライメントがモチーフの途中から始まっていることを示しています。

◆Score

適合を示すスコアです。値が大きければ大きいほどよく適合しています。

◆E-Value

Expectation Value（期待値）の略で、偶然適合してしまう際の期待値を表しています。値が低ければ低いほどいい値であり、よい値になると１よりもかなり小さな値になります。E-Valueが優秀な時には（E<0.05）、値は緑で表示されます。

◆Description

そのモチーフの特徴の説明です。

◇ モチーフ位置表示部

もっともスコアの高かったモチーフの配列上の位置をグラフィカルに表示します。スコア表示部のModelと同様に、画像のモチーフ部分をクリックすると、そのモチーフの詳細な情報を得ることができます。

◇ アライメント表示部

テキスト形式で適合したモチーフの情報とそのアライメントを表示します。

2.6 同じモチーフを持つタンパク質を調べる

◎ 同じモチーフを持ったタンパク質を検索して比較して見ましょう。

モチーフの詳細表示画面の中ほどにあるドメイン構造の画像表示検索機能を使います。アライメントのタイプは今までと同様に”Seed alignment”を用います。Retrieve domain structureをクリックすると、以下の画面が表示されます。

これは同じ7tm_1というモチーフをもつタンパク質の一覧です。タンパク質の名前をクリックすることで、そのタンパク質の詳細な情報を表示することができます。この中で上から二番目にある、OL15_MOUSEをクリックしてみましょう。

より詳細な表示が表示されますので、これを見ればこのタンパク質がいったいどんなタンパク質なのかを知ることができます。

実際に下のほうへスクロールしていくと様々な情報が記述されています。

いろいろな情報が記述されていますが、ここで見てほしい情報は、一番下にあるSIMILARITYの欄です。ここの記述を見ると”BELONGS TO FAMILY 1OF G-PROTEIN COUPLED RECEPTORS”とあります。つまり、ここからこのモチーフを持つものの中にはGPCRが存在することがわかります。

今回は最初から調べるタンパク質がGPCRであるとわかっていましたが、通常モチーフ検索を行うアミノ酸配列のタンパク質はその機能や構造がほとんどわかっていないものです。そのため、その未知のタンパク質で今日のような結果が得られれば、そのタンパク質はGPCR、もしくはその類似のタンパク質であるという予測を立てることが可能になるのです。