【元記事をASCII.jpで読む】

未来の新薬開発を加速する

「タンパク質の動きが3Dアニメーションで見えるんです。自分の考えた通りにプログラムが走って分子シミュレーションできると、実際のものづくりのような達成感が得られます」

 覚醒プロジェクトに採択された東京大学大学院の大村拓登さんの研究は、新薬創出などの裾野を大きく広げる可能性を持つ。もう少し詳しく説明すると、「誰もが簡単にタンパク質と基質(タンパク質と特異的に結合する分子)の結合をシミュレーションできる未来」を創造することだ。

 病気の解明や新薬開発には、生体内でタンパク質がどのような挙動をするのか、詳細な3Dイメージングが欠かせない。大村さんはまず、タンパク質と基質の結合作用を予測する機械学習モデルを作成し、それを基に高速なシミュレーション手法の構築を目指す。

 機械学習モデルが確立できれば、システムにタンパク質の構造を入力するだけで、エネルギーが自動で算出され、反応の進み方がシミュレーションできる。疾病の原因タンパクに結合して機能を阻害する薬の設計がコンピューター上で可能だ。大村さんは新薬創出などの研究環境そのものを進化させたいともくろむ

「新薬開発は10年以上の時間と数百億以上もの費用をかけながら、成功率は2.5万分の1とされています。シミュレーションだと実際に実験するより、はるかに低コスト・短時間で済みます。この研究分野が進歩すれば、創薬の効率を上げるだけでなく、採算が見合わなかった希少疾患向けの薬も積極的に開発可能になるかもしれません」

0.5フェムト秒の世界

 AI技術を活用した各種シミュレーションは進化がめざましい。特に分子量が1万までの低分子化合物では、高精度な計算シミュレーションに留まらず、深層学習でより高速化する技術が普及しつつある。Preferred NetworksとENEOSが共同開発したMatlantisでは、従来は数カ月かかった原子レベルの物理シミュレーションがわずか数秒で完了する。

 しかし、タンパク質は平均分子量が数万と大きく、周辺環境の影響を大きく受けるためパラメーターが多くなる。アミノ酸配列から立体構造を予測するAlphaFold2が2020年にディープマインドから発表されゲームチェンジャーと脚光を浴びたが、タンパク質―基質複合体(以下、複合体)の機械学習による高速/高精度シミュレーション技術については報告が少ない。言い換えれば、難易度が高いために手つかずの領域である。そこに切り込むのが大村さんだ。

 機械学習には、質の良い教材(データセット)が必要だ。大村さんは公開データベースPDBbind)から、すでに構造が判明している複合体のデータセットを選出し、0.5フェムト秒(1フェムト秒=1ナノ秒の10-6ごとに複合体の変化をサンプリングする。

「反応の過程では結合が切れたりつながったりしながら、エネルギーの壁を乗り越えるように反応が進んでいきます。複合体の構造とエネルギーを計算し、反応がどのように進むのかを明らかにします」

登山のようなエラー修正の日々

  エネルギー算出で大村さんが採用したのは、量子力学(Quantum Mechanics: QM)と分子力学(Molecular Mechanics: MM)を併せた手法だ。QMは電子の挙動を考慮した方程式を用いることで、原子レベルでのシミュレーションが可能な、比較的高精度な手法だ。しかし高すぎる計算コスト*がネックだ。古典力学を用いるMMはQMに比べ精度が落ちるものの、計算コストを抑えることができる。

 そこで大村さんは、反応が起こる重要な部分(活性中心)のみにQMを適用し、その他の大部分はMMを用いた「いいとこ取り」を採用した。

*シミュレーションを完了するために必要な、各タイムステップの実行時間、メモリ、電力消費などを含んだトータルのリソース量

 QMとMMは炭素-炭素の一重結合で切断し、水素を結合させて切り分ける。この工程もスクリプトを作り自動化したが、Ryzen 7950X3D + RTX 4090を採用した計算機5台でも、24時間走らせっぱなしで1カ月を要する。

 しかも、順調にデータセットの作成が進むとは限らない。大村さんの研究でも、当初想定していた割合以上でエラーが発生していることに気づき、自動でエラーを修正するスクリプトによる前処理工程を追加した。工程にはさらに2週間が追加された。たった1つのデータセットを作るだけでも、非常に労力がかかる。

「QM/MM法では、初期状態に少しでも問題があると正しい結果は得られません。エラーの発見は経験と直感が物を言う世界です。そもそも、元にしているデータベースも完全なものではなく、研究者ごとに登録形式が微妙に異なるなどばらつきが見られます。前処理で整える必要があります」

 体感的には、高校生のときに始めた登山にとても似ているという。

「どうしてもエラーは発生しますが、エラーの原因を突き止め、修正し、思い通りに動いたときの達成感は、一歩ずつ山道を歩み、ようやく登頂できたときの清々しさに似た感覚があります」

研究者として自信をくれた覚醒プロジェクト

 中学生時代に手に取った『サピエンス全史』(ユヴァル・ノア・ハラリ著)に書かれた、「生物学者と情報学者がこれからの世界を変えていく」というメッセージに強く心を揺さぶられた大村さん。これからは人工知能情報技術の重要性が高まると確信し、もともと興味を持っていた生物学に加え、情報分野にも手を広げた。

 早稲田大学で化学と生物を学び、研究室配属後にインフォマティクスや分子シミュレーションを本格的に開始。ここでは中学生のときにロボット製作で楽しみながら身につけた、Pythonの知識が役に立った。

 タンパク質の相互作用予測をより深く研究するため、大学院は東京大学の生物情報工学研究室へ進んだ。自分のやりたいことに集中できる研究者という職業に興味を持った一方で、自分にできるのか不安で将来を模索していたときに、覚醒プロジェクトを知ったという。

「SNSでたまたま覚醒プロジェクトを見かけて、自分にもチャンスがあるんじゃないかと応募しました。まだ修士の後に博士へ進むか就職するか悩んでいましたが、プロジェクトの採択を受け、『自分も研究者としてやっていけるのでは』という自信がつきました。いただいた研究費のおかげで解析に必要な機材を購入できたことも大きな助けです」

 覚醒プロジェクトに採択されてよかったことの一つが、他の研究実施者の存在だという。資料のわかりやすさ、プレゼンの上手さ、レベルの高さに圧倒された。しかしそれが大きな刺激となり、モチベーションを上げる糧となった。

 産業技術総合研究所産総研)の施設が利用できる点も研究を大きく後押しする。所属ラボのコンピューターも性能は悪くないが、産総研ABCI(AI橋渡しクラウド)スペックは桁違いだ。

「春からデータセットの拡充や機械学習モデルの学習に本格的に使っていく予定で、今から楽しみです」

大村さんがいるのは恐ろしいほどのスピードで日々進化する分野だ。最先端の知識をキャッチアップするのは大変だが、できることが加速度的に広がるおもしろさが苦労を吹き飛ばす。バックアップするプロジェクトマネージャー、瀬々 潤さん(ヒューマノーム研究所 代表取締役CEO)の存在も大きい。

「機械学習の専門家ですので、スクリプトのエラーが起きたときにも質問しやすいですし、質問するための資料作りを通して自己理解が深まり、アイデアが思い浮かぶという思いがけない効果がありました」と言う。

SFの世界が現実になる瞬間に生きる

 データセットがそろい、いよいよ機械学習モデルに着手する。

「酸素と水素の振動を見るために、0.5フェムト秒ごとにフレームを切り取ります。つまり、1ナノ秒の反応を見るためには200万フレームの解析が必要です。たった1ナノ秒であっても、研究室レベルの計算機ではCPUでは28年、GPUでも8年*かかり、QM/MM法が確立されたとしても計算コストが高く実用的ではありません。

 そこでQMの計算部分を機械学習(Machine Learning: ML)で代替して高速化するML/MMモデルを考案しました。タンパク質のQM/MMに適用できる機械学習モデルはまだ存在しませんから、文献を検索し、Pythonフレームワークを参考にしながらオリジナルモデルを開発します」

*QM領域100原子、Gaussian 16による並列計算(AMD Ryzen 7950X3D 32スレッド)、QUICKによるGPU並列計算(RTX3090×2)からの試算

 SF小説に書かれた、AIが活躍する未来がどんどん現実世界に降りてくる。大村さんは、そのスピード感には驚くものの、楽しさの方が圧倒的に勝るという。将来は、プログラミングを知らない人でも分子シミュレーションを簡単に行えるソフトウェア開発など、誰もが容易に研究を行うための事業も手がけたいと語る。

「なんておもしろい時代に生きているんだろう」

 大村さんは、全力で未来が「今」になる瞬間を楽しんでいる。
 

■覚醒プロジェクト 公式Webサイト
http://kakusei.aist.go.jp/

タンパク質の動きを3Dで見る!創薬を加速する0.5フェムト秒の挑戦