インターネットを用いた遺伝子検索法

東京大学医学部修士講義-遺伝子検索法-2004年4月19日　

東京大学大学院・医学系研究科　生化学分子生物学講座　　横溝岳彦

連絡先：yokomizo-tky@umin.ac.jp

本日の講義内容はWEBからたどれるようになっています
私の所属する東京大学大学院・医学系研究科　　生化学分子生物学講座　細胞情報部門のホームページhttp://biochem2.umin.jp/index_j.html
を起点にお話しします。本日の講義の全ては東京大学大学院・医学系研究科生化学分子生物学講座のホームページ内の(http://biochem2.umin.jp/contents/gene.html)からリンクをたどれるようになっていますのでご活用下さい。

0. 文献検索について

文献検索には色々なやり方があります。以下、東大で公式に行うことのできる検索を説明します。

0.1Pubmed検索

NCBI(National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/)から様々な検索ができます。枠内に検索したいキーワードを入れ、左のプルダウンメニューからPubMedを選び、「Go」を押せば結果が表示されます。リンクをたどれば、Abstractまでは読むことができますが、一部のジャーナルを除いて、全文を読むことはできません。全文を読みたい場合は、以下の「東京大学で利用できる電子ジャーナル検索」を利用します。

0. 2東京大学で利用できる電子ジャーナル

東京大学図書館が、様々な出版社と契約して論文をWEB上で読めるようにしています。端末のIPアドレスが東大内でなければ利用できませんので、自宅からはアクセスできません。サイトhttp://ejournal.dl.itc.u-tokyo.ac.jp/index.htmlにアクセスし、ジャーナル(雑誌)のタイトルを入力することで、そのジャーナルを検索し、上記のPubmed検索で見つけた号、ページ、年度を入力することで、論文の全文を読むことができます。ジャーナルによっては、パスワードなどを入力することが求められますが、これは「INFO」ボタンをクリックすれば書かれています。

0. 3WEB of SCIENCE

上の二つとは大きく異なり、ある論文がどのような論文に引用されているかを調べることができるサイトです。具体的には、「自分が書いた論文が、何回、どのような論文に引用されているのか？」を調べることができます。サイトhttp://wos.dl.itc.u-tokyo.ac.jp/wos/CIW.cgiにアクセスし、検索したいジャンル(生物学の場合はScience Citation Index Expanded (SCI-EXPANDED)を選びます)や、キーワードを入れて、検索元になる論文を探します。以降、リンクをたどっていけば、その論文が、出版以降にどんな論文に引用されているかを知ることができます。

1. Genbank/DDBJ/EMBLデータベースと SwissProtデータベースについて
　お互いに毎日データを交換していますので、基本的にどのデータベースを利用しても結果には大差はありません。ただし、検索のアルゴリズムは Genbank(アメリカ)とDDBJ(日本)で若干異なるようです。SwissProtはこれらのデータをもとにしたタンパク質のデータベースです。従って時間的にはSwissProtの方が遅く登録されます。日本からの新規遺伝子の登録はできるだけDDBJのSAKURA(http://sakura.ddbj.nig.ac.jp/Welcome-j.html)を使って下さい。DDBJを通じて登録された遺伝子数によってDDBJへの予算が左右される事があるそうです。以下、GenbankのBlastを元にお話しします。

2. Basic Blast:DNA, アミノ酸配列からの遺伝子検索の基本
(NCBI Blast, http://www.ncbi.nlm.nih.gov/BLAST/)
　検索に関して考えなければならないのは、以下の点です。

A)自分が入力するのは核酸配列、アミノ酸配列のいずれであるか？相同性検索の結果は、核酸配列、アミノ酸配列のいずれで受け取りたいか？

B)検索のアルゴリズムはBlastかFastaか?
・Blast:高速の検索で一般的に用いられます。ルーチンにはこれで十分です。
・Fasta:Blastよりも複雑なアルゴリズムを用いているので、Blastでかからないものが引っかかることがあります。ただし時間がかかるので、返事はE-mailでもらうようにした方が良いと思います。このプログラムはNCBIにはないので、私はDDBJのFastaを使っています。

C)Blastのプログラムは何を用いるか?

プログラム名 入力する配列 対象データベース(返ってくる返事)

・blastn DNA　　 DNA

・blastp AA　　　 AA

・blastx DNA　　 AA (入れたDNAを6フレームでアミノ酸に翻訳してサーチ)

・tblastn AA　　　 DNA(入力したAAをあり得るDNA配列全てに変換してサーチ)

・tblastx DNA　　 DNA(EST, htgs) (入力したDNAを6フレームで翻訳し、対象データベースのDNA(アミノ酸配列がわかっていないもの)も同様にアミノ酸に翻訳して、その間で相同性比較をします。主として、DNA断片の配列から、アミノ酸として相同性のあるEST*やゲノムシーケンスを探すときに使います。同一のDNA配列を持つものを探すときは、blastnを使います。)

*EST=Expressed sequence tag, cDNAの断片のデータベースです。クローンは自由配布されていますので、クレジットカード決済で購入することができます(後述)。

D)検索対象はどれにするか？データベースの選択
以下はGenbankで用意されているデータベースです。以下は2004年4月の段階での全てのデータベースですが、私がよく使うものを中心に簡単に解説します。

Peptide Sequence Databases

Nr:All non-redundant GenBank CDS translations+RefSeq Proteins+PDB+SwissProt+PIR+PRF

Swissprot:Last major release of the SWISS-PROT protein sequence database (no updates)

pat :Proteins from the Patent division of GenPept.

Yeast :yeast (Saccharomyces cerevisiae) genomic CDS translations

ecoli :Escherichia coli genomic CDS translations

pdb :Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank

Drosophila genome :Drosophila genome proteins provided by Celera and Berkeley Drosophila Genome Project (BDGP).

month :All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30 days.

Nucleotide Sequence Databases

nr :All GenBank+RefSeq Nucleotides+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences). No longer "non-redundant".

est :Database of GenBank+EMBL+DDBJ sequences from EST Divisions

est_human :Human subset of GenBank+EMBL+DDBJ sequences from EST Divisions

est_mouse :Mouse subset of GenBank+EMBL+DDBJ sequences from EST Divisions

est_others :Non-Mouse, non-Human sequences of GenBank+EMBL+DDBJ sequences from EST Divisions

gss :Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences.

htgs :Unfinished High Throughput Genomic Sequences: phases 0, 1 and 2 (finished, phase 3 HTG sequences are in nr)

pat :Nucleotides from the Patent division of GenBank.

yeast :Yeast (Saccharomyces cerevisiae) genomic nucleotide sequences

mito :Database of mitochondrial sequences

vector :Vector subset of GenBank(R), NCBI, in ftp://ftp.ncbi.nih.gov/blast/db/

E. coli :Escherichia coli genomic nucleotide sequences

pdb :Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank

Drosophila genome :Drosophila genome provided by Celera and Berkeley Drosophila Genome Project (BDGP).

month :All new or revised GenBank+EMBL+DDBJ+PDB sequences released in the last 30 days.

alu :Select Alu repeats from REPBASE, suitable for masking Alu repeats from query sequences. It is available by anonymous FTP from ftp.ncbi.nih.gov (under the /pub/jmc/alu directory). See "Alu alert" by Claverie and Makalowski, Nature vol. 371, page 752 (1994).

dbsts :Database of GenBank+EMBL+DDBJ sequences from STS Divisions .

chromosome :Searches Complete Genomes, Complete Chromosome, or contigs form the NCBI Reference Sequence project..

Human Genome Blast DataBases

genome :human genomic contig sequences with NT_#### accessions.

mrna :human RefSeq mrna with NM_#### or XM_#### accessions

protein :human RefSeq proteins with NP_#### or XP_#### accessions

gscan mrna :predicted mRNA sequences generated by running GenomeScan program on human genomic contigs

gscan protein :CDS translations from gscan mrna set.

CDD Search

Compares protein sequences to the Conserved Domain Database. The CDD is a database containing a collection of functional and/or structural domains derived from two popular collections, Smart and Pfam, plus contributions from colleagues at NCBI. For more information please see the CDD homepage.

E)検索パラメーターについて
　Basic blastにはありませんが、Advanced blastには、どのくらいの相同性から上のものを表示するかというパラメーター入力画面があります。試行錯誤が必要ですが、特に弱いホモロジーのものまで探したいときは、後述する ALL-IN-ONE SEQ ANALYZERを利用するのが便利です。

2.1 Blastを使った実践

最近は検索が遅いので返事をE-mailで受け取ることをおすすめします。その際、HTML形式で返事をもらうように指定しておけば、メイルソフトからダイレクトに配列に入っていくことができます。
(練習1)部分DNA配列から全長のアミノ酸配列を知り、さらに全長をコードするESTクローンがないかを検索します。

Basic blast-->blastでnrデータベース検索-->全長DNAを見つける-->この配列を用い、blastnでヒトESTデータベースを指定して検索 -->結果の中で同じIDを持つESTがないかを探す。(344710)こうしたもののうちでI.M.A.G.E. Consortium ClonesはWashington University Genome Sequencing Center.から購入できます。
部分アミノ酸配列からの検索も、最初の検索プログラムがblastpになる以外は基本的に同じです。

・全長のESTクローンを探すためのTips
　ESTはPlasmidライブラリーなので、通常短いcDNAクローンが多いのですが、運がいいと(ほとんど)全長を含むものが入っていることがあります。 ESTクローンは、ほとんどがNot-I-oligo dTでプライミングしたUnidirectionalなものになっていて、5'側と3'側の両方から読まれていることがあります。ESTの両端の配列を見つけるためには以下のやり方を取るのが効率的です。
1)blastの結果画面でまずどちらかの末端付近をコードしている ESTを見つけます。
2)そのクローンのIDを使って、Browzerの検索機能を用いてその画面内にもう一つ同じIDの配列がないかどうか探します。
(例)mh95f08.r1 Soares mouse placenta 4NbMP13.5 14.5 Mus musculus cDNA clone I MAGE:458727 5' (この下線がclone ID)です。
3)もし同じIDの配列があれば、それがもう一方の末端ということになります。この配列を見ることで、ORF全長をカバーしていたり、ほとんど全長であるESTを見つけることができます。
4)必要なESTクローンがあれば、そのaccession numberとIDをメモしておきます。

・NCBI Genomic BiologyからのEST検索
　すでにある程度機能解析の進んでいる遺伝子であれば、一次配列からではなく、キーワードからESTを探した方がいいことがあります。

(練習2)例えば、IL-8の場合を行ってみます。
1)NCBIのGenomic Biologyのページ(http://www.ncbi.nlm.nih.gov/Genomes/index.html)に入って、「interleukin 8」と入力し、「OMIN(Online mendelian Inheritance in Man)を選択し、「go」を押します。
2」*146930を選択するとIL8についての主要な研究の歴史が解説されます。
3」上部の「UniGene」を選択すると、遺伝子情報が示された後に、ESTクローンのリストが表示されます。リンクをたどって情報を読み、必要なクローンのaccession numberとIMAGE:番号を記載しておきます。(IMAGE番号がある場合は、原則としてMTA:Material transfer agreementなどの書類を書くことなく入手可能です)

・Invitgogen社からのEST検索

(練習3)ESTを直接入手できる会社のページから検索します。

1)Invitrogenのページ(http://clones.invitrogen.com/)からCloneRanger(http://clones.invitrogen.com/country_select.php )へ。最初のページはアンケートページです。

2)「Search by Sequnece」のタブを押し、ここに配列や遺伝子の名前を入れて検索できます。ここではIL8のタンパク質翻訳領域の全長を入力します。以下に例としてIL-8受容体のタンパク質翻訳領域の配列を示します。(以下はFASTA形式のIL8受容体のタンパク質翻訳領域)これをコピー&ペーストし、blast検索を行います。キーワードや、NCBI accession番号でも検索できます。

>IL8R (CXCR1, 1053 bp)

atgtcaaatattacagatccacagatgtgggattttgatgatctaaatttcactggcatgccacctgcagatg

aagattacagcccctgtatgctagaaactgagacactcaacaagtatgttgtgatcatcgcctatgccctagt

gttcctgctgagcctgctgggaaactccctggtgatgctggtcatcttatacagcagggtcggccgctccgtc

actgatgtctacctgctgaacctggccttggccgacctactctttgccctgaccttgcccatctgggccgcct

ccaaggtgaatggctggatttttggcacattcctgtgcaaggtggtctcactcctgaaggaagtcaacttcta

cagtggcatcctgctgttggcctgcatcagtgtggaccgttacctggccattgtccatgccacacgcacactg

acccagaagcgtcacttggtcaagtttgtttgtcttggctgctggggactgtctatgaatctgtccctgccctt

cttccttttccgccaggcttaccatccaaacaattccagtccagtttgctatgaggtcctgggaaatgacaca

gcaaaatggcggatggtgttgcggatcctgcctcacacctttggcttcatcgtgccgctgtttgtcatgctgt

tctgctatggattcaccctgcgtacactgtttaaggcccacatggggcagaagcaccgagccatgagggtc

atctttgctgtcgtcctcatcttcctgctttgctggctgccctacaacctggtcctgctggcagacaccctc

atgaggacccaggtgatccaggagagctgtgagcgccgcaacaacatcggccgggccctggatgccactg

agattctgggatttctccatagctgcctcaaccccatcatctacgccttcatcggccaaaattttcgccatg

gattcctcaagatcctggctatgcatggcctggtcagcaaggagttcttggcacgtcatcgtgttacctcct

acacttcttcgtctgtcaatgtctcttccaacctctga

3)必要なcloneを選択し、検索します。いくつかのクローンが全長をコードしていることがわかりますので、画面に従って購入手続きを進めます。(実際には、購入確認のメイルがInvitrogen Japanにも転送され、通常の試薬と同様に代理店を通しての購入となります。)

2.1.1ヒト全ゲノム配列に対するBLASTのサイト

2.のBasic Blastでは検索できませんので注意してください
サイトはヒトゲノムはhttp://www.ncbi.nlm.nih.gov/genome/seq/HsBlast.html、マウスゲノムではhttp://www.ncbi.nlm.nih.gov/genome/seq/MmBlast.htmlです。入力する配列はFasta形式もしくはAccession番号ですのでこれも注意してください。

Fasta形式とは？
>適当な名前
cgatatttgcggg......
//

2.2 Position Specific Iterated BLAST (アミノ酸のみ)
(PSI-Blast, http://www.ncbi.nlm.nih.gov/blast/index.html)
　最初に通常のblastpで相同性のあるタンパク質を検索し、返ってきた結果の中で、自分の興味のある配列を複数選択します。それらの間で保存されているアミノ酸配列(position)を用いて再度blastpを行っていくというプログラムです。

2.3 Pattern Hit Initiated BLAST (アミノ酸のみ)
(PHI-Blast, http://www.ncbi.nlm.nih.gov/blast/index.html)
　ある特定のアミノ酸モチーフ(Xも使えます)と、それを有するタンパク質の配列(仮にProteinXとします)を入力し、指定のモチーフを持ったタンパク質の中から、ProteinXと相同性の高い順に示します。結果画面から、そのままPSI-Blastに移行できます。

(練習3)ケモカインであるfractalkineに存在するCXXXCモチーフを持つタンパク質を、fractalkineに対するホモロジーの高い順に並べてみます。

MAPISLSWLLRLATFCHLTVLLAGQHHGVTKCNITCSKMTSKIPVALLIHYQQNQASCGKRAIILETRQHRLFCADPKEQWVKDAMQHLDRQAAALTRNGGTFEKQIGEVKPRTTPAAGGMDESVVLEPEATGESSSLEPTPSSQEAQRALGTSPELPTGVTGSSGTRLPPTPKAQDGGPVGTELFRVPPVSTAATWQSSAPHQPGPSLWAEAKTSEAPSTQDPSTQASTASSPAPEENAPSEGQRVWGQGQSPRPENSLEREEMGPVPAHTDAFQDWGPGSMAHVSVVPVSSEGTPSREPVASGSWTPKAEEPIHATMDPQRLGVLITPVPDAQAATRRQAVGLLAFLGLLFCLGVAMFTYQSLQGCPRKMAGEMAEGLRYIPRSCGSNSYVLVPV

2.4 便利なALL-IN-ONE SEQ ANALYZER
(http://www-personal.umich.edu/~ino/blast.html)
　実は上で述べたほとんどの検索はこのサイトでできます。配列を入れて、ボタンを押すだけです。このサイトはNCBIの検索プロトコールに入力するところだけを自動化しているだけなので、結果は2-2.3までのものと同じ画面になります。ミシガン大学に留学中の日本人研究者　猪原さんの作です。http://www-personal.umich.edu/~ino/HELP.HTMLに日本語で解説があります。

3. 名前やキーワードからの遺伝子や論文の検索 : NCBI Entrez Browser
(http://www3.ncbi.nlm.nih.gov/Entrez/)
　BlastやFastaが塩基配列やアミノ酸配列からスタートするのに対して、キーワードや、Accession numberなどをもとに検索する場所です。検索できる主要なデータベースは以下の通りです。

・データベースの内容
・PubMed 　　　Medlineの文献検索です。二つ以上の単語を並べるときは、間を半角のコンマで切れば、AND検索になります。
・Protein 　　　SwissProtデータベースのアミノ酸配列
・Nucleotide 　Genbank/DDBJ/EMBLデータベースのDNA配列
・Structure 　　結晶構造データベース(結果の見方は後半で述べます)
・Genome 　　　NCBI genomeのサマリーの検索
・PopSet 　　　様々な種の遺伝子からのアラインメント
・Taxonomy 　　Genbankの動物種
・OMIN　　　　　遺伝性疾患とその原因遺伝子を集めたデータベース

・CDD 複数のタンパク質の間で保存されているドメインを集めたもの。

・ SNP Single Nucleotide Polymorphisms(個人間の遺伝子配列の違い、「スニップス」と発音されます)

4. アミノ酸配列からのドメイン解析
　アミノ酸配列を入力して、これまでに知られているタンパク質ドメインがあるかどうかを検索するサイトは多数あります。例を上げると、
A. Motif (http://motif.genome.ad.jp/)
B. Blacks Impara (http://blocks.fhcrc.org/blocks/impala.html)

Aはコンセンサス配列などの短い領域のサーチ、Bは比較的長いタンパク質ドメインの解析に有用です。

(練習4)Bruton kinase 657AAを上の二つで検索してみます。過去の研究では以下のようなドメインを持つことになっています。

MAAVILESIFLKRSQQKKKTSPLNFKKRLFLLTVHKLSYYEYDFERGRRGSKKGSIDVEKITCVETVVPEKNPPPERQIPRRGEESSEMEQISIIERFPYPFQVVYDEGPLYVFSPTEELRKRWIHQLKNVIRYNSDLVQKYHPCFWIDGQYLCCSQTAKNAMGCQILENRNGSLKPGSSHRKTKKPLPPTPEEDQILKKPLPPEPAAAPVSTSELKKVVALYDYMPMNANDLQLRKGDEYFILEESNLPWWRARDKNGQEGYIPSNYVTEAEDSIEMWYSKHMTRSQAEQLLKQEGKEGGFIVRDSSKAGKYTVSVFAKSTGDPQGVIRHYVVCSTPQSQYYLAEKHLFSTIPELINYHQHNSAGLISRLKYPVSQQNKNAPSTAGLGYGSWEIDPKDLTFLKELGTGQFGVVKYGKWRGQYDVAIKMIKEGSMSEDEFIEEAKVMMNLSHEKLVQLYGVCTKQRPIFIITEYMANGCLLNYLREMRHRFQTQQLLEMCKDVCEAMEYLESKQFLHRDLAARNCLVNDQGVVKVSDFGLSRYVLDDEYTSSVGSKFPVRWSPPEVLMYSKFSSKSDIWAFGVLMWEIYSLGKMPYERFTNSETAEHIAQGLRLYRPHLASEKVYTIMYSCWHEKADERPTFKILLSNILDVMDEES

2..131 pleckstrin repeat homology(PH domain)
221..269 SH3 homology
279..375 SH2 homology
398..656 protein kinase homology
406..414 protein kinase ATP-binding motif
以上の結果によく似た結果が、検索から得られています。ただし、万能ではありません。あくまでも一次配列だけからの情報であることをお忘れなく・・

代表的な疎水性領域予測のサイトを以下にあげます。膜貫通領域を予測するプログラムです。
・TMPred(http://www.ch.embnet.org/software/TMPRED_form.html)
・Sosui(http://sosui.proteome.bio.tuat.ac.jp/sosuiframe0.html)
・Predictprotein(http://www.embl-heidelberg.de/predictprotein/predictprotein.html)では、TM domainだけではなくて、そのタンパクがどのオルガネラに発現するかを予測してくれます。

5. AllAllを用いた進化系統樹の作成
(http://cbrg.inf.ethz.ch/ServerBooklet/chapter2_3.html)
　様々な系統樹作成のサイトがありますが、私の経験では系統樹作成はここが一番いいようです。結果はPostScript(PS)のデータを落とした電子メイルで来ますので、Illustrator、CanvasなどのPSが読めるプログラムで開くことができます。

(練習5)
1) 「Example」に入って、例に従ってアミノ酸配列を並べます。説明ではSwissProtのAccession numberを入力すればいいことになっていますが、実際にはエラーが出ることが多いので、面倒でもアミノ酸配列を並べることをすすめます。
2)以下に従って配列を並べます。今日は49個のGPCRの配列を入れてみました。

<E>
<DE>EP3</DE>
<SEQ>MKETRGYGGDAPFCTRLNHSYTGMWAPERSAEARGNLTRPPGSGEDCGSVSVAFPITMLLTGFVGNALAMLLVSRSYRRRESKRKKSFLLCIGWLALTDLVGQLLTTPVVIVVYLSKQRWEHIDPSGRLCTFFGLTMTVFGLSSLFIASAMAVERALAIRAPHWYASHMKTRATRAVLLGVWLAVLAFALLPVLGVGQYTVQWPGTWCFISTGRGGNGTSSSHNWGNLFFASAFAFLGLLALTVTFSCNLATIKALVSRCRAKATASQSSAQWGRITTETAIQLMGIMCVLSVC WSPLLIMMLKMIFNQTSVEHCKTHTEKQKECNFFLIAVRLASLNQILDPWVYLLLRKILLRKFCQIRYHTNNYASSSTSLPCQCSSTLMWSDHLER</SEQ></E>,
<E>
<DE>タンパク質の名前など、番号でも可</DE>
<SEQ>次の配列</SEQ></E>,
以下同様に並べる

3)返信先のメイルアドレスを記入し、
4) UnrootedTree: rooted phylogenetic treeを選択します。 (Rootedでも可)
5) (しばらくかかります)ps (postscript形式)または、PDF形式でデータを落とせるアドレスがe-mailで示されますので、ダウンロードします。PDFは加工ができないのでここではps形式のものをダウンロードします。
6)Postscriptをサポートしたソフト(イラストレーターや、キャンバスなど)で開きます。必要に応じて加工してください。

6. タンパク質の「張り込み」検索ができる Swiss-Shop
(http://www.expasy.ch/swiss-shop/)
　自分の興味のあるタンパク質があれば、そのアミノ酸配列や、キーワードを登録しておいて、相同性のあるタンパク質や、キーワードを含むタンパク質が登録されると自動的に電子メイルで知らせてくれるサービスです。現在のところ核酸配列からの検索はできません。

7. 結晶化されたタンパク質の3次元構造を見る(PDB, Protein data bank)
(http://www.rcsb.org/pdb/)
　現在Cn3DやRasMolといった結晶構造を表示できるソフトがWEB BrowserのPlag in softとして開発・配布されていて、これを組み込んでおくことで、Browser上で結晶のデータファイルを読み込んで表示させることができます。

・Cn3Dのダウンロード先は　http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3d.shtml
　　です。
・RasMolのダウンロード先は　http://www.umass.edu/microbio/rasmol/getras.htm
　　同時に英語マニュアルがダウンロードされますが、かなりわかりにくいです。

・日本語マニュアルはここ。http://www.scl.kyoto-u.ac.jp/scl/appli/appli_manual/rasmol_manual/rasmol/rasmol.html
・日本語でのRasMolの使い方の例を示したページが　http://homepage3.nifty.com/keikoszk/3d/honbun.htm

　　にあります。

実際の結晶のデータ(登録後2年間は公開しないこともあります )はPDB, Protein data bankからダウンロードしますが、サイトの使い勝手が悪いので、名前がわかるときは3のNCBI Entrez Browserから、アミノ酸配列からは、2のNCBI Blastで検索し、pdbデータベースを指定することで表示されます。

(練習)NCBI Entrez Browserから IL-8のpdbファイルを取得し、3次元構造をを表示します。helixとsheetをそれぞれ色分けして表示してみます

8. WEB siteからのExon/Intron, ORF, Promotor予測
　こういったサイトは多数存在します。いくつかのサイトを使って検索し大まかな予想は立てられる者の、あくまでも実験で確かめなければならないものだと思います。

Gene Feature(http://arete.ibb.waw.pl/PL/html/gene_feature_searches_bcm.html)では、様々な予測プログラムが掲載されています。

9. ゲノムプロジェクトの進行状況、染色体マップなど
　ゲノムプロジェクトのシーケンスデータにアプローチする方法には大きく分けて二通りがあります。
1)Blastでhtgsをデータベースに指定することでダイレクトにゲノムシーケンスデータを得ることができます。
2)NCBIのGenomic Biologyのページ(http://www.ncbi.nlm.nih.gov/Genomes/index.html)から、keyword、染色体番号、疾患のlocusなどからもアクセスできます。

ヒト染色体のmap(http://www.ncbi.nlm.nih.gov/genome/guide/)
Gene and disease(http://www.ncbi.nlm.nih.gov/disease/)

(練習6)
A. ロイコトリエンA4水解酵素の遺伝子座を名前から検索し、その draft sequenceを取ってみます。
1)NCBIのページ(http://www.ncbi.nlm.nih.gov/)の上にある検索画面にleukotrieneと入力し、データベースをLocusLinkにし、goボタンを押します。
2)多数のロイコトリエン関係の遺伝子が表示されますので、ヒトLTA4HのLocusIDである4048を押します。
3)染色体12q22に存在すること、近傍にマーカーが存在することがわかりますので、そのマーカーを押します。
4)AH003354.1(gene)、AADB01127045.1(genome contig)というアクセッション番号をもつcomplete sequenceが得られます。

B. 今度はcDNAの配列からこのsequenceを取ってみます。
1)Blast the Hyman Genome(http://www.ncbi.nlm.nih.gov/genome/seq/HsBlast.html)にFASTA形式でORFの配列を入れます。

>LTA4H

atgcccgagatagtggatacctgttcgttggcctctccggcttccgtctgccggaccaagcacctgcacctgcgctgcagcgtcgactttactcgccggacgctgaccgggactgctgctctcacggtccagtctcaggaggacaatctgcgcagcctggttttggatacaaaggaccttacaatagaaaaagtagtgatcaatggacaagaagtcaaatatgctcttggagaaagacaaagttacaagggatcgccaatggaaatctctcttcctatcgctttgagcaaaaatcaagaaattgttatagaaatttcttttgagacctctccaaaatcttctgctctccagtggctcactcctgaacagacttctgggaaggaacacccatatctctttagtcagtgccaggccatccactgcagagcaatccttccttgtcaggacactccttctgtgaaattaacctatactgcagaggtgtctgtccctaaagaactggtggcacttatgagtgctattcgtgatggagaaacacctgacccagaagacccaagcaggaaaatatacaaattcatccaaaaagttccaataccctgctacctgattgctttagttgttggagctttagaaagcaggcaaattggcccaagaactttggtgtggtctgagaaagagcaggtggaaaagtctgcttatgagttttctgagactgaatctatgcttaaaatagcagaagatctgggaggaccgtatgtatggggacagtatgacctattggtcctgccaccatccttcccttatggtggcatggagaatccttgccttacttttgtaactcctactctactggcaggcgacaagtcactctccaatgtcattgcacatgaaatatctcatagctggacagggaatctagtgaccaacaaaacttgggatcacttttggttaaatgagggacatactgtgtacttggaacgccacatttgcggacgattgtttggtgaaaagttcagacattttaatgctctgggaggatggggagaactacagaattcggtaaagacatttggggagacacatcctttcaccaaacttgtggttgatctgacagatatagaccctgatgtagcttattcttcagttccctatgagaagggctttgctttacttttttaccttgaacaactgcttggaggaccagagattttcctaggattcttaaaagcttatgttgagaagttttcctataagagcataactactgatgactggaaggatttcctgtattcctattttaaagataaggttgatgttctcaatcaagttgattggaatgcctggctctactctcctggactgcctcccataaagcccaattatgatatgactctgacaaatgcttgtattgccttaagtcaaagatggattactgccaaagaagatgatttaaattcattcaatgccacagacctgaaggatctctcttctcatcaattgaatgagtttttagcacagacgctccagagggcacctcttccattggggcacataaagcgaatgcaagaggtgtacaacttcaatgccattaacaattctgaaatacgattcagatggctgcggctctgcattcaatccaagtgggaggacgcaattcctttggcgctaaagatggcaactgaacaaggaagaatgaagtttacccggcccttattcaaggatcttgctgcctttgacaaatcccatgatcaagctgtccgaacctaccaagagcacaaagcaagcatgcatcccgtgactgcaatgctggtggggaaagacttaaaagtggattaa
//

2))サーチボタンを押してサーチを開始します。(多少時間がかかります)。

ここで取れてきた配列を8のサイトでExon/Intron解析し、実際のcDNAの配列と比べてみるとおもしろいと思います。

10. Seminar MLのお誘い
　研究室で行われる公開のセミナー情報を自動的に配信するSeminar MLを主催しています。現在1000人以上の方々が参加されて情報交換を行っています。参加に必要なものはメイルアドレスだけで費用はいっさいかかりません。ご興味のある方は、Seminar MLのサイトhttp://biochem2.umin.jp/contents/ML.htmlをご参照下さい。

11. 最後に
　今日お話ししたのは実際に応用可能な検索のごく一部分にしか過ぎません。Internetには膨大なデータやアプリケーションが蓄えられていますので、それをうまく使いながら(使われることなく)実験に役立てていくことが重要だと考えます。下記に、日本語での解説が得られる研究ツールへのリンク集を記しますので参考にしてください。

・本日の講義内容をまとめたページ(http://biochem2.umin.jp/contents/gene.html )
・東京大学大学院・医学系研究科生化学分子生物学講座のホームページ(http://biochem2.umin.jp/index_j.html)
・同ページ中の研究マニュアルの目次(http://biochem2.umin.jp/contents/manualindex_j.html)
・分子生物学研究用ツール集(http://www.yk.rim.or.jp/~aisoai/molbio-j.html)
・Research Tools(http://www.nih.go.jp/~jun/research/index-j.html)