平成14年4月17日
遺伝子情報やタンパク質の配列・構造に関する情報は日々蓄積され、巨大なデータベースが形成され、インターネットを介して公開されている。2類に進学したみんなが、これからの学習、研究において、こうしたデータベースを利用する機会は多いはずである。また一方で、コンピュータにより、こうした膨大なデータを処理して、有用な情報を引き出し、それを用いて、例えば、タンパク質の構造や機能の予測・解析に利用する研究が進められている。とくに、生物学では、物理学や化学のように原理から出発して計算を行うのではなく、蓄積されたデータの中から知識や経験則を見いだすことが中心であり、データベースがそのための主要な役割を果たしている。 この実習では、生物学でよく用いられるデータベースの概要と、その簡単な利用法、さらに、タンパク質の立体構造のグラフィックス表示、ホモロジー検索の利用法について学ぶ。
2.1 塩基配列データベース
塩基配列データベースは、DNA、RNAの塩基配列とその説明、文献情報などを記載したデータベースである。米国、欧州、日本でそれぞれGenBank,
EMBL, DDBJ(DNA Database of Japan)というデータベースが構築されており、これらは協力関係により、日々更新されている。基本的に3つのデータベースがすべてのデータを保持し、地理的に分担するような方式になっている。当初は、論文発表されたものを手作業で入力するのが一般的であったが、アノテーション(遺伝子等の機能に関する注釈)を含むデータ作成を著者に任せ、論文発表と同時にデータベースに登録することが義務づけられるようになった。最近は、ゲノム解読プロジェクトの進展とともに、生物種ごとのゲノムデータベースが誕生し、個々のデータはいったんこれらのデータベースに登録され、そこから大量のデータが一括して、GenBank、EMBL、DDBJに送られるケースが多くなってきている。
2.2 アミノ酸配列データベース
アミノ酸配列データベースは、アミノ酸の配列情報とその説明、文献情報などを記載したデータベースである。PIR(Protein Information Resources)、機能に関する情報を詳しく記載したSWISS-PROTなどがある。
2.3 タンパク質機能データベース
タンパク質の機能は他の分子との相互作用に基づいている。相互作用に関与する部位は、配列や立体構造上の特徴的なパターン、すなわちモチーフを形成する。配列全体のホモロジーが低くても、特定の機能を実現するモチーフは強く保存されていることが多い。配列上のモチーフは、関連するアミノ酸配列を集めて、マルチプルアラインメント(複数の配列を要素ごとに対応づけて並べること)を行うことにより見いだすことができる。こうしたモチーフを登録し、与えられた配列から検索できるようにしたデータベースがモチーフデータベース(モチーフライブラリともいう)である。モチーフデータベースは、配列パターンに対応する生物学的な意味が書かれた辞書とみなすことができる。モチーフデータベースには次のようなものがある。
タンパク質機能データベースとしては、そのほか、酵素に関する情報を登録したデータベースが挙げられる。酵素専門のデータベースとしてENZYMEがある。
2.4 タンパク質構造データベース
タンパク質の構造情報は、タンパク質の機能を生化学的に理解するという学術的な観点のみならず、薬剤や食品の設計を支援するといった応用面からも非常に重要である。タンパク質構造データベースには、構造データそのものを登録した一次データベースと、構造を分類・比較した結果を登録した二次データベースがある。前者については、PDB(Protein Data Bank)が実際にその役割を担っている。PDBには、タンパク質のX線結晶構造解析、NMRで得られた3次元座標データ、アミノ酸配列と二次構造の情報、文献情報、そのほか、熱ゆらぎに関する情報や解像度なども記載されている。
タンパク質の機能を予測・解析するのに、タンパク質の構造の分類は重要である。このため、タンパク質のフォールド(主鎖の折りたたみパターン)で分類する試みがいくつかなされている。
2.5 パスウェイデータベース
生体内において、機能は一般に複数の分子の統合によって実現される。酵素と基質のように、こうした複数の分子の間の相互作用のネットワークを系統的に集積し、データベース化したものが存在する。代表的なものに、KEGG(Kyoto Encycropedia of Genes and Genomes)、WIT(What Is There)がある。
2.6 文献データベース検索
文献調査は、研究では不可欠の作業である。生物学・医学の文献調査で欠かせないものにMEDLINEがある。MEDLINE (MEDlars onLINE) とは、NLM(National Library of Medicine, 国立医学図書館)が作成する医療文献データベースである。70カ国で出版された4,600誌を越える最新の生物医学系ジャーナルからの要約が収められている。1966年以降の約1,100万件のデータをすべて含んでいる。MEDLINEのデータは毎週PubMedに掲載される。
PubMedのページの一部
論文の中には、電子ジャーナルとして参照できるものが多い。通常、ブラウザでそのまま閲覧できるhtml形式あるいはpdf形式で公開されている。その多くは、あらかじめ登録した利用者でなければ閲覧することができないが、東大の場合、大学の一括契約などにより、3700件以上の雑誌が閲覧できるようになっている(http://ejournal.dl.itc.u-tokyo.ac.jp/)。そのほか、研究者個人のホームページで自著論文を掲載している場合もあるので、注意してみよう。
東大電子ジャーナル検索のページの一部
2.7 統合データベース検索
WWWの特徴は、世界中のサーバのファイルをリンクで結合して相互参照できるになっている点である。このような構造をもつ文書をハイパーテキストという。データが分散する生物のデータベースでは、このハイパーテキストは非常に適しているといえる。以下の実習で学ぶように、塩基配列とそれを翻訳したアミノ酸配列、これらが発表された文献、さらにタンパク質の構造とや機能など、異なるデータベースの間にはリンクがはられている。また、さらに、こうした遺伝子、タンパク質、文献などのデータベースを統合的に利用するための検索サービスを備えたサイトが存在する。国立遺伝学研究所のDBGET、NCBIのEntrezなどがその代表例である。
DBGETのリンク図
3. データベース検索の実習
データベースの検索実習では、主に、細胞核内に存在する転写因子Sp1を対象として、以下の流れでデータベースの検索を行う。Sp1は、DNAと結合するタンパク質で、DNA結合部位には、zinc
fingerモチーフを含んでいる。ヒト由来のSp1は、構造も解明されており、この実習では、遺伝子の塩基配列、アミノ酸配列から初めて、zinc
fingerモチーフのパターンと機能、立体構造を検索する。また、その構造をグラフィックス表示させる。最後に、進化・系統分類の解析、タンパク質の機能解析などを目的とした配列解析の最も基本的な手法の一つであるホモロジー解析について実習する。
GenBank(http://www.ncbi.nlm.nih.gov/)にアクセスする。
「Human transcription factor Sp1」を検索する。
GenBankでの検索キーワードの入力
検索された結果から「J03133」をクリックして表示させる。206件の検索結果が得られるはずで、そのうち205番目のエントリがJ03133である。11ページ(最後のページ)を直接参照するとよい。以下のような結果が表示されることを確認する。
LOCUS HUMTFSP1 2655 bp mRNA linear PRI 14-JAN-1995 DEFINITION Human transcription factor SP1 mRNA, 3' end. ACCESSION J03133 VERSION J03133.1 GI:339517 KEYWORDS transcription factor SP1. SOURCE Human HeLa cell, cDNA to mRNA, (library of C.Hauser), clone Sp1-1. ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 2655) AUTHORS Kadonaga,J.T., Carner,K.R., Masiarz,F.R. and Tjian,R. JOURNAL Unpublished (1987) REFERENCE 2 (sites) AUTHORS Kadonaga,J.T., Carner,K.R., Masiarz,F.R. and Tjian,R. TITLE Isolation of cDNA encoding transcription factor Sp1 and functional analysis of the DNA binding domain JOURNAL Cell 51 (6), 1079-1090 (1987) MEDLINE 88080466 COMMENT [2] sites; binding domains. Draft entry and computer-readable sequence for [1] kindly provided by J.T.Kadonaga, 17-NOV-1987. FEATURES Location/Qualifiers source 1..2655 /organism="Homo sapiens" /db_xref="taxon:9606" /map="12q" gene 1..2655 /gene="SP1" CDS <1..2091 /gene="SP1" /note="transcription factor Sp-1" /codon_start=1 /protein_id="AAA61154.1" /db_xref="GI:339518" /db_xref="GDB:G00-127-453" /translation="TGELDLTATQLSQGANGWQIISSSSGATPTSKEQSGSSTNGSNG SESSKNRTVSGGQYVVAAAPNLQNQQVLTGLPGVMPNIQYQVIPQFQTVDGQQLQFAA TGAQVQQDGSGQIQIIPGANQQIITNRGSGGNIIAAMPNLLQQAVPLQGLANNVLSGQ TQYVTNVPVALNGNITLLPVNSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISS ASLVSSQASSSSFFTNANSYSTTTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGS DALNIQQNQTSGGSLQAGQQKEGEQNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQ TFTTQAISQETLQNLQLQAVPNSGPIIIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQT ITLAPMQGVSLGQTSSSNTTLTPIASAASIPAGTVTVNAAQLSSMPGLQTINLSALGT SGIQVHPIQGLPLAIANAPGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGR RTRREACTCPYCKDSEGRGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERP FMCTWSYCGKRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKG GPGVALSVGTLPLDSGAGSEGSGTATPSALITTNMVAMEAICPEGIARLANSGINVMQ VADLQSINISGNGF" BASE COUNT 717 a 726 c 630 g 582 t ORIGIN 540 bp upstream of HincII site. 1 acaggtgagc ttgacctcac agccacacaa ctttcacagg gtgccaatgg ctggcagatc 61 atctcttcct cctctggggc tacccctacc tcaaaggaac agagtggcag cagtaccaat 121 ggcagcaatg gcagtgagtc ttccaagaat cgcacagtct ctggtgggca gtatgttgtg (途中省略) 2521 atataaagat atatagagat gcattcacag ggttggctgg agaggaagac cattctgtga 2581 ccaaaatacc ttggtcattt tttttatatt gccttatttc cctatggctg agccttgttg 2641 tgacacatca agctt ///
ページ中、「/protein_id="AAA61154.1"」をクリックすることで、翻訳されたタンパク質の情報を表示させることができる。
このように検索結果にはいろいろなリンクが含まれているので、各自で試してみるとよい。
配列を保存するときは、「Save」ボタンをクリックする。このページの内容がテキスト形式で保存される。
文献データベースPubMedを用いて、Referenceにある論文を検索する。
まず、J03133のウィンドウをそのままにして、新規ウィンドウで、先ほどアクセスしたGenBank(http://www.ncbi.nlm.nih.gov/)のページにアクセスして、「Search Nucleotide」を「Search PubMed」に変更(「GenBank」の横の矢印をクリックして選ぶ)した後、Referenceの「TITLE」、「AUTHORS」、「MEDLINE」 にあるキーワードを使って検索する。このとき、J03133のREFERENCE 2の方を検索すること。もとのウィンドウに残っているTITLE等をコピー&ペーストして入力すると便利である。
時間に余裕のある人は、GenBankのデータ登録数が年代とともにどのように増加していったか調べてみよう(http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html)。また、EMBL(http://www.ebi.ac.uk/) でも同様の検索を実行してみよう.
EMBLの検索結果の例
ID HSTFSP1 standard; RNA; HUM; 2655 BP. XX AC J03133; XX SV J03133.1 XX DT 16-JUL-1988 (Rel. 16, Created) DT 04-MAR-2000 (Rel. 63, Last updated, Version 4) XX DE Human transcription factor SP1 mRNA, 3' end. XX KW transcription factor SP1. XX OS Homo sapiens (human) OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; OC Eutheria; Primates; Catarrhini; Hominidae; Homo. XX RN [1] RP 1-2655 RA Kadonaga J.T., Carner K.R., Masiarz F.R., Tjian R.; RT ; RL Unpublished. XX RN [2] RX MEDLINE; 88080466. RA Kadonaga J.T., Carner K.R., Masiarz F.R., Tjian R.; RT "Isolation of cDNA encoding transcription factor Sp1 and functional RT analysis of the DNA binding domain"; RL Cell 51(6):1079-1090(1987). XX DR GDB; 127453; SP1. DR SWISS-PROT; P08047; SP1_HUMAN. DR TRANSFAC; T00759; T00759. XX CC [2] sites; binding domains. CC Draft entry and computer-readable sequence for [1] kindly provided CC by J.T.Kadonaga, 17-NOV-1987. XX FH Key Location/Qualifiers FH FT source 1..2655 FT /db_xref="taxon:9606" FT /organism="Homo sapiens" FT /map="12q" FT CDS <1..2091 FT /codon_start=1 FT /db_xref="SWISS-PROT:P08047" FT /note="transcription factor Sp-1" FT /gene="SP1" FT /protein_id="AAA61154.1" FT /translation="TGELDLTATQLSQGANGWQIISSSSGATPTSKEQSGSSTNGSNGS FT ESSKNRTVSGGQYVVAAAPNLQNQQVLTGLPGVMPNIQYQVIPQFQTVDGQQLQFAATG FT AQVQQDGSGQIQIIPGANQQIITNRGSGGNIIAAMPNLLQQAVPLQGLANNVLSGQTQY FT VTNVPVALNGNITLLPVNSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLV FT SSQASSSSFFTNANSYSTTTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNI FT QQNQTSGGSLQAGQQKEGEQNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQA FT ISQETLQNLQLQAVPNSGPIIIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQ FT GVSLGQTSSSNTTLTPIASAASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPI FT QGLPLAIANAPGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTC FT PYCKDSEGRGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGK FT RFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTL FT PLDSGAGSEGSGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGN FT GF" XX SQ Sequence 2655 BP; 717 A; 726 C; 630 G; 582 T; 0 other; acaggtgagc ttgacctcac agccacacaa ctttcacagg gtgccaatgg ctggcagatc 60 atctcttcct cctctggggc tacccctacc tcaaaggaac agagtggcag cagtaccaat 120 ggcagcaatg gcagtgagtc ttccaagaat cgcacagtct ctggtgggca gtatgttgtg 180 (途中省略)0 atataaagat atatagagat gcattcacag ggttggctgg agaggaagac cattctgtga 2580 ccaaaatacc ttggtcattt tttttatatt gccttatttc cctatggctg agccttgttg 2640 tgacacatca agctt 2655 //
GenBankなどのデータベースでは、データは特定の形式(フォーマット)に従って格納されている。データは、エントリの集合であり、各エントリは、エントリ名とその内容から構成されている。以下に、主なデータベースのエントリの種類を示す。
GenBank | EMBL | SWISS-PROT(表示) | PIR | PDB | |
データのアクセッション番号 | ACCESSION | AC | Primary accession number | ENTRY | HEADER |
データのタイトル | DEFINITION | DE | Entry name | TITLE | TITLE |
検索で参照されるキーワード | KEYWORDS | KW | Keywords | KEYWORDS | KEYWDS |
出典となった論文など | REFERENCE | RN | Reference | REFERENCE | JRNL |
著者名 | AUTHORS | RA | #authors | ||
論文名 | TITLE | RT | #title | ||
雑誌名 | JOURNAL | RL | #journal | ||
論文のMEDLINE# | MEDLINE | RX | #cross-ref | ||
配列情報 | ORIGIN | SQ | Sequence information | SEQUENCE | SEQRES |
他のデータベースでのアクセッション番号 | /db_xref | DR | Cross-reference |
※ SWISS-PROTの格納形式は、EMBLと共通である。これは、「View entry in original
SWISS-PROT format」でみることができる。
SWISS-PROT(http://www.expasy.ch/sprot/)にアクセスする。
「Access to SWISS-PROT and TrEMBL」のメニューから「Full text serch in SWISS-PROT and TrEMBL」をクリックしてキーワードによる検索を行う。
(キーワードによる検索の他にもアクセッション番号や著者名による検索などの検索法が提供されている。)
GenBankと同じ要領で「SP1」を検索する。 (チェックボックスはSWISS-PROTのみとする。)
|
ID SP1_HUMAN STANDARD; PRT; 785 AA. AC P08047; Q9NYE7; Q9H3Q5; DT 01-AUG-1988 (Rel. 08, Created) DT 16-OCT-2001 (Rel. 40, Last sequence update) DT 16-OCT-2001 (Rel. 40, Last annotation update) DE Transcription factor Sp1. GN SP1 OR TSFP1. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE OF 4-785 FROM N.A. RC TISSUE=Cervical carcinoma; RA Haggart M.H., Ladurner A.G.; RL Submitted (APR-2000) to the EMBL/GenBank/DDBJ databases. RN [2] RP SEQUENCE OF 1-558 FROM N.A. RX MEDLINE=20545561; PubMed=10973950; [NCBI, ExPASy, EBI, Israel, Japan] RA Takahara T., Kanazu S., Yanagisawa S., Akanuma H.; RT "Heterogeneous Sp1 mRNAs in human HepG2 cells include a product of RT homotypic trans-splicing."; RL J. Biol. Chem. 275:38067-38072(2000). RN [3] RP SEQUENCE OF 90-785 FROM N.A., AND SEQUENCE OF 359-375 AND 670-675. RX MEDLINE=88080466; PubMed=3319186; [NCBI, ExPASy, EBI, Israel, Japan] RA Kadonaga J.T., Carner K.R., Masiarz F.R., Tjian R.; RT "Isolation of cDNA encoding transcription factor Sp1 and functional RT analysis of the DNA binding domain."; RL Cell 51:1079-1090(1987). RN [4] RP O-GLYCOSYLATION. RX MEDLINE=89003041; PubMed=3139301; [NCBI, ExPASy, EBI, Israel, Japan] RA Jackson S.P., Tjian R.; RT "O-glycosylation of eukaryotic transcription factors: implications RT for mechanisms of transcriptional regulation."; RL Cell 55:125-133(1988). RN [5] RP STRUCTURE BY NMR OF 654-684 AND 684-712. RX MEDLINE=97218212; PubMed=9065444; [NCBI, ExPASy, EBI, Israel, Japan] RA Narayan V.A., Kriwacki R.W., Caradonna J.P.; RT "Structures of zinc finger domains from transcription factor Sp1. RT Insights into sequence-specific protein-DNA recognition."; RL J. Biol. Chem. 272:7801-7809(1997). RN [6] RP IDENTIFICATION OF SEROTONIN 1A RECEPTOR PROMOTER BINDING SITES. RX MEDLINE=96224025; PubMed=8626793; [NCBI, ExPASy, EBI, Israel, Japan] RA Parks C.L., Shenk T.; RT "The serotonin 1a receptor gene contains a TATA-less promoter that RT responds to MAZ and Sp1."; RL J. Biol. Chem. 271:4417-4430(1996). CC -!- FUNCTION: BINDS TO GC BOX PROMOTERS ELEMENTS AND SELECTIVELY CC ACTIVATES MRNA SYNTHESIS FROM GENES THAT CONTAIN FUNCTIONAL CC RECOGNITION SITES. CAN INTERACT WITH G/C-RICH MOTIFS FROM CC SEROTONIN RECEPTOR PROMOTER. CC -!- SUBCELLULAR LOCATION: Nuclear. CC -!- PTM: O-GLYCOSYLATED; CONTAINS N-ACETYLGLUCOSAMINE SIDE CHAINS. CC -!- SIMILARITY: BELONGS TO THE SP1 FAMILY OF C2H2-TYPE ZINC-FINGER CC PROTEINS. CC -------------------------------------------------------------------------- CC This SWISS-PROT entry is copyright. It is produced through a collaboration CC between the Swiss Institute of Bioinformatics and the EMBL outstation - CC the European Bioinformatics Institute. There are no restrictions on its CC use by non-profit institutions as long as its content is in no way CC modified and this statement is not removed. Usage by and for commercial CC entities requires a license agreement (See http://www.isb-sib.ch/announce/ CC or send an email to license@isb-sib.ch). CC -------------------------------------------------------------------------- DR EMBL; AF252284; AAF67726.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; AB039286; BAB13476.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; J03133; AAA61154.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR PIR; A29635; A29635. DR PDB; 1SP1; 21-APR-97. [ExPASy / RCSB] DR PDB; 1SP2; 21-APR-97. [ExPASy / RCSB] DR TRANSFAC; T00759; -. DR GlycoSuiteDB; P08047; -. DR MIM; 189906; -. [NCBI / EBI] DR GeneCards; SP1. DR GeneLynx; SP1. DR Ensembl; P08047. DR InterPro; IPR000822; Znf-C2H2. DR InterPro; Graphical view of domain structure. DR Pfam; PF00096; zf-C2H2; 3. DR ProDom; PD000003; Znf_C2H2; 2. DR ProDom [Domain structure / List of seq. sharing at least 1 domain ] DR SMART; SM00355; ZnF_C2H2; 3. DR PROSITE; PS00028; ZINC_FINGER_C2H2_1; 3. DR PROSITE; PS50157; ZINC_FINGER_C2H2_2; 3. DR BLOCKS; P08047. DR ProtoMap; P08047. DR PRESAGE; P08047. DR DIP; P08047. DR ModBase; P08047. DR SWISS-2DPAGE; GET REGION ON 2D PAGE. KW Transcription regulation; Activator; Zinc-finger; Metal-binding; KW DNA-binding; Nuclear protein; Repeat; Glycoprotein; 3D-structure. FT DOMAIN 626 708 ZINC FINGERS. FT ZN_FING 626 650 C2H2-TYPE. FT ZN_FING 656 680 C2H2-TYPE. FT ZN_FING 686 708 C2H2-TYPE. FT CONFLICT 366 366 D -> G (IN REF. 3; AA SEQUENCE). FT CONFLICT 670 670 S -> F (IN REF. 3; AA SEQUENCE). SQ SEQUENCE 785 AA; 80693 MW; 43893DBF6518B9EA CRC64; MSDQDHSMDE MTAVVKIEKG VGGNNGGNGN GGGAFSQARS SSTGSSSSTG GGGQESQPSP LALLAATCSR IESPNENSNN SQGPSQSGGT GELDLTATQL SQGANGWQII SSSSGATPTS KEQSGSSTNG SNGSESSKNR TVSGGQYVVA AAPNLQNQQV LTGLPGVMPN IQYQVIPQFQ TVDGQQLQFA ATGAQVQQDG SGQIQIIPGA NQQIITNRGS GGNIIAAMPN LLQQAVPLQG LANNVLSGQT QYVTNVPVAL NGNITLLPVN SVSAATLTPS SQAVTISSSG SQESGSQPVT SGTTISSASL VSSQASSSSF FTNANSYSTT TTTSNMGIMN FTTSGSSGTN SQGQTPQRVS GLQGSDALNI QQNQTSGGSL QAGQQKEGEQ NQQTQQQQIL IQPQLVQGGQ ALQALQAAPL SGQTFTTQAI SQETLQNLQL QAVPNSGPII IRTPTVGPNG QVSWQTLQLQ NLQVQNPQAQ TITLAPMQGV SLGQTSSSNT TLTPIASAAS IPAGTVTVNA AQLSSMPGLQ TINLSALGTS GIQVHPIQGL PLAIANAPGD HGAQLGLHGA GGDGIHDDTA GGEEGENSPD AQPQAGRRTR REACTCPYCK DSEGRGSGDP GKKKQHICHI QGCGKVYGKT SHLRAHLRWH TGERPFMCTW SYCGKRFTRS DELQRHKRTH TGEKKFACPE CPKRFMRSDH LSKHIKTHQN KKGGPGVALS VGTLPLDSGA GSEGSGTATP SALITTNMVA MEAICPEGIA RLANSGINVM QVADLQSINI SGNGF //
アミノ酸配列は、上に示したように、配列位置の番号といっしょに表示される。
アミノ酸配列をデータとして利用したいときは、この表示の右下にある「FASTA format」が指す内容を利用する。これをクリックして、内容を表示してみよう。
>sp|P08047|SP1_HUMAN Transcription factor Sp1 - Homo sapiens (Human). MSDQDHSMDEMTAVVKIEKGVGGNNGGNGNGGGAFSQARSSSTGSSSSTGGGGQESQPSP LALLAATCSRIESPNENSNNSQGPSQSGGTGELDLTATQLSQGANGWQIISSSSGATPTS KEQSGSSTNGSNGSESSKNRTVSGGQYVVAAAPNLQNQQVLTGLPGVMPNIQYQVIPQFQ TVDGQQLQFAATGAQVQQDGSGQIQIIPGANQQIITNRGSGGNIIAAMPNLLQQAVPLQG LANNVLSGQTQYVTNVPVALNGNITLLPVNSVSAATLTPSSQAVTISSSGSQESGSQPVT SGTTISSASLVSSQASSSSFFTNANSYSTTTTTSNMGIMNFTTSGSSGTNSQGQTPQRVS GLQGSDALNIQQNQTSGGSLQAGQQKEGEQNQQTQQQQILIQPQLVQGGQALQALQAAPL SGQTFTTQAISQETLQNLQLQAVPNSGPIIIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQ TITLAPMQGVSLGQTSSSNTTLTPIASAASIPAGTVTVNAAQLSSMPGLQTINLSALGTS GIQVHPIQGLPLAIANAPGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTR REACTCPYCKDSEGRGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTW SYCGKRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALS VGTLPLDSGAGSEGSGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINI SGNGF
このように、
> 名称およびコメント
塩基配列またはアミノ酸配列
のような形式をFASTA形式という。FASTA形式は、後で述べるホモロジー検索などデータベースの問合せや各種ツールの入力に配列を指定する際に利用されることが多い。配列の中には、スペースや改行が任意に挿入されていてもかまわない(これを処理するプログラムに無視されるだけである)。
PROSITE (http://expasy.nhri.org.tw/prosite/)にアクセスして、zinc fingerモチーフの情報を検索する。この実習では、SWISS-PROTのCross-referencesから、Sp1に含まれるモチーフ、zinc fingerについて情報を検索するためにPROSITEにアクセスする。Cross-referencesのPROSITEの右欄「PS00028; ZINC_FINGER_C2H2; 3.」をクリックする。
SWISS-PROTからのアクセスで、zinc fingerの情報が表示されたことを確認する。
Documentationを読んで、zinc fingerモチーフに関して調べてみよう。
zinc fingerに関する説明の後に、以下のようなパターンが書かれているはずである。
Consensus pattern C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H [The two C's and two H's are zinc ligands]
Sp1の配列に一致する配列パターンが正規表現の形式で表現されている。正規表現とは、多様なパターンを1つの形式で表現できるようにしたもので(決して正確な定義ではない)、例えば、上の例では、x(2,4)は2文字から4文字の任意のアミノ酸、[LIVMFYWC]は、[]内のアミノ酸以外のどれか1つを表している。
http://www.web-books.com/MoBio/Free/Ch4F2.htm
SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/)にアクセスする。
「Access Methods」の「Keyword search of SCOP entries」 をクリックしてキーワードによる選択し、Sp1の検索を行う。
Protein: Transcription factor sp1 from Human (Homo sapiens)Lineage:
PDB Entry Domains:
|
「PDB Entry Domains: 」に2つのPDB Entry IDが存在することを確認する。次に、このIDを使ってPDBで立体構造の検索を行う。
SCOPの分類
- class: 構成している主要な二次構造による分類 → all α, all β, α/β, α+β, その他(マルチドメイン, 膜タンパク質, 小さいタンパク質, コイルドコイル, ペプチド, 人工タンパク質, 低解像度の構造
- common fold: 二次構造の構成、その空間的な配置が共通しているもの
- superfamily: 配列の一致度は高くないが、構造や機能が共通の進化的起源をもっていると判断されるもの
- family: 配列一致度が30%以上、もしくは構造や機能が非常に似ているもの
CATHの分類
class (C): 構成している主要な二次構造による分類 → all α, all β, α/β, α+β- architecture (A): 二次構造の構成、総体的な配置が共通しているもの
- topology (T): 二次構造の構成、配置とつながり方が共通しているもの
- homologous superfamily (H): 構造や機能が共通の進化的起源をもっていると予想されるもの
- sequence family (S): 配列一致度が35%以上、もしくは構造や機能が非常に似ているもの
PDB(http://www.rcsb.org/pdb/)にアクセスする。
SCOPから、zinc fingerのPDB Entry IDが1sp1であることがわかったので、 このEntry IDを用いてこの立体構造情報を検索する。
|
||||||||||||||||||||||
左側のメニューの「Download/Display File」を選択すると、以下の画面が表示される。ここで、「file format」は「PDB」、「compression」は「none」を選択し、立体構造情報をPDB形式のファイルとしてダウンロードする。ここでは、ファイルの名前を「1sp1.pdb」としておこう。
HEADER ZINC FINGER 21-NOV-96 1SP1 TITLE NMR STRUCTURE OF A ZINC FINGER DOMAIN FROM TRANSCRIPTION TITLE 2 FACTOR SP1F3, MINIMIZED AVERAGE STRUCTURE COMPND MOL_ID: 1; COMPND 2 MOLECULE: SP1F3; COMPND 3 CHAIN: NULL; COMPND 4 FRAGMENT: ZINC FINGER DNA BINDING DOMAIN; COMPND 5 SYNONYM: TRANSCRIPTION FACTOR SP1; COMPND 6 ENGINEERED: YES; COMPND 7 OTHER_DETAILS: DOES NOT BIND DNA SPECIFICALLY AS A SINGLE COMPND 8 ZINC FINGER SOURCE MOL_ID: 1; SOURCE 2 SYNTHETIC: YES; SOURCE 3 ORGANISM_SCIENTIFIC: HOMO SAPIENS; SOURCE 4 ORGANISM_COMMON: HUMAN; SOURCE 5 CELLULAR_LOCATION: NUCLEOPLASM KEYWDS ZINC FINGER, TRANSCRIPTION ACTIVATION, SP1 EXPDTA NMR, MINIMIZED AVERAGE STRUCTURE AUTHOR V.A.NARAYAN,R.W.KRIWACKI,J.P.CARADONNA REVDAT 1 21-APR-97 1SP1 0 JRNL AUTH V.A.NARAYAN,R.W.KRIWACKI,J.P.CARADONNA JRNL TITL STRUCTURES OF ZINC FINGER DOMAINS FROM JRNL TITL 2 TRANSCRIPTION FACTOR SP1. INSIGHTS INTO JRNL TITL 3 SEQUENCE-SPECIFIC PROTEIN-DNA RECOGNITION JRNL REF J.BIOL.CHEM. V. 272 7801 1997 JRNL REFN ASTM JBCHA3 US ISSN 0021-9258 0071 REMARK 1 REMARK 2 REMARK 2 RESOLUTION. NOT APPLICABLE. REMARK 3 REMARK 3 REFINEMENT. REMARK 3 PROGRAM : X-PLOR REMARK 3 AUTHORS : BRUNGER REMARK 3 REMARK 3 OTHER REFINEMENT REMARKS: MULTIPLE ROUNDS OF SIMULATED REMARK 3 ANNEALING REFINEMENT PROTOCOL OF X-PLOR REMARK 4 REMARK 4 1SP1 COMPLIES WITH FORMAT V. 2.2, 16-DEC-1996 REMARK 210 REMARK 210 EXPERIMENTAL DETAILS REMARK 210 EXPERIMENT TYPE : NMR REMARK 210 TEMPERATURE (KELVIN) : 278 REMARK 210 PH : 5.9 REMARK 210 REMARK 210 NMR EXPERIMENTS CONDUCTED : NOESY, COSY, TOCSY REMARK 210 SPECTROMETER FIELD STRENGTH : 500 MHZ REMARK 210 SPECTROMETER MODEL : AM500 REMARK 210 SPECTROMETER MANUFACTURER : BRUKER REMARK 210 REMARK 210 STRUCTURE DETERMINATION. REMARK 210 SOFTWARE USED : FELIX, XPLOR REMARK 210 METHOD USED : DISTANCE GEOMETRY, REMARK 210 SIMULATED ANNEALING REMARK 210 REMARK 210 CONFORMERS, NUMBER CALCULATED : 100 REMARK 210 CONFORMERS, NUMBER SUBMITTED : 1 REMARK 210 CONFORMERS, SELECTION CRITERIA : MEAN STRUCTURE REMARK 210 REMARK 210 REMARK: REMARK 210 IONIC_STRENGTH: 50MM TRIS REMARK 210 PRESSURE: 1 ATM REMARK 210 SOLVENT SYSTEM: WATER REMARK 210 REMARK 210 THE STUDIES WERE DONE ON SYNTHETIC PEPTIDE AND STANDARD REMARK 210 HOMONUCLEAR TECHNIQUES WERE USED. REMARK 215 REMARK 215 NMR STUDY REMARK 215 THE COORDINATES IN THIS ENTRY WERE GENERATED FROM SOLUTION REMARK 215 NMR DATA. PROTEIN DATA BANK CONVENTIONS REQUIRE THAT REMARK 215 CRYST1 AND SCALE RECORDS BE INCLUDED, BUT THE VALUES ON REMARK 215 THESE RECORDS ARE MEANINGLESS. REMARK 800 REMARK 800 SITE REMARK 800 SITE_IDENTIFIER: S1 REMARK 800 SITE_DESCRIPTION: PROPOSED DNA BINDING RESIDUES. REMARK 999 REMARK 999 SEQUENCE REMARK 999 1SP1 SWS P08047 1 - 594 NOT IN ATOMS LIST REMARK 999 1SP1 SWS P08047 624 - 696 NOT IN ATOMS LIST DBREF 1SP1 1 29 SWS P08047 SP1_HUMAN 595 623 SEQRES 1 29 LYS LYS PHE ALA CYS PRO GLU CYS PRO LYS ARG PHE MET SEQRES 2 29 ARG SER ASP HIS LEU SER LYS HIS ILE LYS THR HIS GLN SEQRES 3 29 ASN LYS LYS HET ZN 30 1 HETNAM ZN ZINC ION FORMUL 2 ZN ZN1 2+ HELIX 1 1 ASP 16 GLN 26 1 11 LINK ZN ZN 30 SG CYS 5 LINK ZN ZN 30 SG CYS 8 LINK ZN ZN 30 NE2 HIS 21 LINK ZN ZN 30 NE2 HIS 25 SITE 1 S1 2 ARG 14 HIS 17 CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 1.000000 0.000000 0.000000 0.00000 SCALE2 0.000000 1.000000 0.000000 0.00000 SCALE3 0.000000 0.000000 1.000000 0.00000 ATOM 1 N LYS 1 10.796 5.455 -3.846 1.00 3.73 N ATOM 2 CA LYS 1 11.600 4.367 -4.471 1.00 3.24 C ATOM 3 C LYS 1 10.991 3.011 -4.112 1.00 2.50 C ATOM 4 O LYS 1 10.218 2.893 -3.182 1.00 2.93 O ATOM 5 CB LYS 1 13.038 4.434 -3.954 1.00 4.01 C ATOM 6 CG LYS 1 13.947 5.007 -5.043 1.00 4.89 C ATOM 7 CD LYS 1 14.495 6.362 -4.591 1.00 5.64 C ATOM 8 CE LYS 1 14.635 7.287 -5.802 1.00 6.34 C ATOM 9 NZ LYS 1 16.078 7.442 -6.144 1.00 7.07 N ATOM 10 1H LYS 1 10.024 5.039 -3.287 1.00 4.02 H ATOM 11 2H LYS 1 11.404 6.022 -3.223 1.00 4.06 H ATOM 12 3H LYS 1 10.398 6.063 -4.591 1.00 4.01 H ATOM 13 HA LYS 1 11.598 4.490 -5.544 1.00 3.44 H ATOM 14 1HB LYS 1 13.077 5.069 -3.080 1.00 4.34 H ATOM 15 2HB LYS 1 13.374 3.442 -3.693 1.00 4.13 H ATOM 16 1HG LYS 1 14.768 4.327 -5.221 1.00 5.12 H ATOM 17 2HG LYS 1 13.382 5.135 -5.954 1.00 5.17 H ATOM 18 1HD LYS 1 13.816 6.804 -3.876 1.00 5.67 H ATOM 19 2HD LYS 1 15.462 6.224 -4.132 1.00 6.03 H ATOM 20 1HE LYS 1 14.110 6.861 -6.644 1.00 6.57 H ATOM 21 2HE LYS 1 14.215 8.254 -5.566 1.00 6.42 H (途中省略) ATOM 501 1HZ LYS 29 -15.886 8.692 -2.347 1.00 9.23 H ATOM 502 2HZ LYS 29 -17.161 8.245 -3.378 1.00 9.48 H ATOM 503 3HZ LYS 29 -17.372 8.203 -1.693 1.00 9.28 H TER 504 LYS 29 HETATM 505 ZN ZN 30 -0.998 4.266 2.578 1.00 0.81 ZN CONECT 82 81 505 CONECT 121 120 505 CONECT 348 346 347 505 CONECT 420 418 419 505 CONECT 505 82 121 348 420 MASTER 53 0 1 1 0 0 1 6 504 1 5 3 END
3.5で、PDBからダウンロードしたファイルは、タンパク質の各原子の3次元座標を含んでいる。この構造をグラフィックスソフトRasmolを使って表示する。Rasmolは、オープンソースのフリーソフトで、UNIX、Windows、MacOSで利用可能である。様々な構造の表示法が用意されており、広く利用されている。Rasmolのホームページは、http://www.umass.edu/microbio/rasmol/index2.htmある。
Rasmolプログラムをダウンロードして実行する。
を、[Shift]+左クリックでダウンロードする。保存する場所は先ほどのPDB形式のファイルを保存したのと同じフォルダが良い。
次の手順に従い、ダウンロードしたRasmolプログラムを実行する。
マウスボタンを押したたまま動かすことにより、画像を上下、左右に動かすことができる。
さらにメニューをいろいろ選ぶことで、表示方式や色を変えることができる。
PROSITEで検索した結果、zinc fingerモチーフの中心部位は亜鉛原子を中心としたCys、Hisの4残基であることが確認されたはずである。この中心部位をRasmolで表示する。
RasMol> |
RasMol> select zinc 1 atom selected! |
RasMol> spacefill |
RasMol> select cys 20 atoms selected! RasMol> wireframe 80 |
RasMol> select his and not 17 34 atoms selected! RasMol> wireframe 80 |
RasMol> select zinc or cys.ca or his.ca and not 17 5 atoms selected! RasMol> label %r%n |
Rasmolのより詳しい使い方は、ヘルプファイルに記載されている。
このファイルをRasmolプログラムを保存したフォルダに保存すれば、[Help] - [User Manual]から参照することができる。そのほか、日本語に翻訳したマニュアルなどもWebで公開されているので、興味のある人は検索サービスなどを使って調べてみるとよい。
|
5.1. ホモロジー検索とは
遺伝子において、ホモロジーとは共通の祖先遺伝子から由来していることを意味している。ホモロジー検索は、対象となる配列とホモロジーのある配列が配列データベースに存在するかどうかを検索する手法で、進化・系統分類の解析、タンパク質の機能解析などを目的とした配列解析の最も基本的な手法の一つとなっている。ただ、2つの遺伝子が、真にホモロジーがある、すなわち共通の祖先遺伝子をもつかどうかは明確にはわからない。実際には、ホモロジー検索の結果得られる、塩基配列やアミノ酸配列の類似度をホモロジーと呼ぶことが多い。2つの配列の類似度を計算するには、2つの配列を要素ごとに対応づけて並べる操作(アラインメント)を行う。2つの配列とのアラインメントのスコアは、配列要素ごとに定義される類似度のスコア(塩基の一致度、アミノ酸の一致度あるいは類似度を示す)の和で与えられる。アラインメントでは、配列要素をそのまま対応づけるだけでなく、進化の過程で生じ得る配列要素の挿入・欠失を扱うため、スペース(ギャップ)を対応づけることが多い。たとえば、2つの塩基配列GACGGATTAGとGATCGGAATAGは、
GA-CGGATTAG
GATCGGAATAG
のようにアラインメントを行うことができる(スペースは-で表す)。配列要素ごとのスコアは、たとえば次のように定義される。配列要素とを対応づけるときは、置換スコアを適用する。配列要素とスペースとを対応づけるときは、スペースすなわちギャップを挿入するスコア(実際にはペナルティ)()を適用する。スコアを最大にする最適なアラインメントはダイナミックプログラミング(動的計画法)と呼ばれる手法で計算することができるが、データベースの配列のすべてに対して一つ一つこの手法を適用すると膨大な時間を要する。このため、実際には近似手法が用いられる。実際によく用いられるホモロジー検索のプログラムとして、よく用いられるものに、FASTAとBLASTがある。
近年、BLASTを改良して、より遠い類縁関係を検出できるようにしたPSI-BLASTが、構造予測、機能予測の分野でよく用いられるようになってきている。たとえば、PSI-BLASTを用いて、ゲノム由来のタンパク質の配列データの解析結果を まとめたデータベースとして、国立遺伝学研究所のGTOP(http://spock.genes.nig.ac.jp/~genome/)がある。アラインメントのアルゴリズム、類似度の計算法については、4年生の「生物情報工学」の講義で学ぶ。
5.2. ホモロジー検索の実習
ホモロジー検索は、NCBI、EMBLなどのサイトで利用できるが、ここでは、国立遺伝学研究所のDBGETを利用する。
検索結果は次のようになる。
Scoreは類似性のスコアを示す。E-Valueは、「現在のデータベースにおいて、全く偶然に同じスコアになる配列の数の期待値」である。E-Valueが小さいほど偶然には起こり得ないことを示す。したがって、スコア値が大きく、期待値が小さい場合には、互いの配列のホモロジーは高いと言える。高いホモロジーを示した配列については、配列のアライメントを調べて,どの部分でホモロジーが高いのかを確認する。結果のページの一番下に、「Show all result.」のボタンがあり、これを押すと、類似スコアの高い配列ペアのアラインメントが表示され、アミノ酸一致度(パーセントホモロジー)が表示される。また、結果のページの左の小さいボックスをチェックして選択し、これらに対してCLUSTALWを選択することにより、選択した配列のマルチプルアラインメントをとることが可能である。
mouseのSp1とのアラインメントを以下に示す。