機械学習に基づくタンパク質の機能予測

機械学習を用いて、タンパク質の機能を予測する手法の開発に取り組んでいます。

生合成遺伝子機能予測データベースの構築

米国生物工学情報センター(National Center for Biotechnology Information; NCBI)が管理している非冗長配列データベースReference Sequence Database(RefSeq)には、3億を超えるタンパク質のアミノ酸配列が登録されています。一方、欧州バイオインフォマティクス研究所(European Bioinformatics Institute; EBI)が運営するタンパク質データベースUniProt Knowledgebase(UniProtKB)に登録されているタンパク質のうち、専門家によって機能が確認され、SwissProtに登録されているタンパク質は57万に過ぎません。本研究では、配列データベースに埋もれている多数の機能未知タンパク質の機能を予測し、有用な反応を触媒する酵素を見出すことを目指しています。
私たちは予測結果を登録したデータベースを構築し、Webサーバ(http://sr.iu.a.u-tokyo.ac.jp/)にて公開しています(図1)。ここでは、配列類似性に基づく機能予測結果に加えて、AlphaFoldによる予測構造を閲覧できるようになっています。今後は、現在開発中の機械学習による機能予測結果を加え、さらに使いやすいデータベースに拡充することを目指しています。

図1: データベースの概要。生合成遺伝子クラスタデータベースMIBiGに登録されたタンパク質について、PDB、SwissProtに登録されているタンパク質との配列相同性を行い、結果をデータベース化している。また、酵素反応データベースRheaと連携して、触媒する酵素反応のデータも登録している。Webサーバでは、MIBiG accessionの他、Protein IDや反応に参加する化合物名や化合物の部分構造を用いて、タンパク質を検索し、その予測された機能を取得することができる。