薬から材料まで様々な機能性分子を設計可能なAIを開発
2023.08.18
- TOPICS
- 研究
- 理学部
「誰でも容易に利用」かつ「持続的な開発」のための第一歩
横浜市立大学大学院生命医科学研究科 生命情報科学研究室の石田祥一特任助教、寺山慧准教授、理化学研究所(理研)革新知能統合研究センター分子情報科学チームの隅田真人研究員、津田宏治チームリーダー、九州大学情報基盤研究センター 先端計算科学研究部門の美添一樹教授らの国際共同研究グループは、薬から材料まで様々な有機小分子を設計できる分子設計人工知能(AI)パッケージChemTSv2を開発しました。
ChemTSv2は、欲しい機能を持つ分子を容易かつ効率的に設計することを可能とし、今後、様々な分野において分子設計AIによる機能性分子の設計に貢献することが期待されます。
これまでに様々な分子設計AIが開発されてきましたが、それらをユーザーが望む機能性分子の設計に利用するには非常に専門的な知識・技術が必要でした。
今回、この国際共同研究グループは、ユーザーが着目する分子の機能や分子設計条件の設定にのみ集中して分子設計AIの利用を可能とするPythonパッケージChemTSv2を開発し、無償で一般公開しました(図1)。ChemTSv2は様々な分子設計の需要に応えるため、高度な並列化技術も導入されており高速な分子設計を実施することも可能です。
本研究成果は、科学雑誌「WIREs Computational Molecular Science」に掲載されました。(2023年7月31日)
ChemTSv2は、欲しい機能を持つ分子を容易かつ効率的に設計することを可能とし、今後、様々な分野において分子設計AIによる機能性分子の設計に貢献することが期待されます。
これまでに様々な分子設計AIが開発されてきましたが、それらをユーザーが望む機能性分子の設計に利用するには非常に専門的な知識・技術が必要でした。
今回、この国際共同研究グループは、ユーザーが着目する分子の機能や分子設計条件の設定にのみ集中して分子設計AIの利用を可能とするPythonパッケージChemTSv2を開発し、無償で一般公開しました(図1)。ChemTSv2は様々な分子設計の需要に応えるため、高度な並列化技術も導入されており高速な分子設計を実施することも可能です。
本研究成果は、科学雑誌「WIREs Computational Molecular Science」に掲載されました。(2023年7月31日)
研究成果のポイント
|
研究背景
材料設計から医薬品設計に至る様々な分野では、望みの機能を持つ新たな分子の探索や最適化が常に求められています。しかし、それらの分子をゼロから考えようとした際には、小さい有機分子に限っても10の60乗をゆうに超える候補分子から探し出す必要があります。現在の世界最大級の化合物データベースであるCASデータベースであっても10の8乗オーダーの化合物収載数であることを考えると、所望の機能性分子を設計することは至難の業であると言えます。
分子設計は望みの機能(蛍光を有する等)を入力としその機能を持つ分子構造を出力する問題として考えることができ、近年では深層学習*1等を用いた分子生成AIでその問題を解くための様々な手法が提案されています。しかし、それらの手法が着目している機能以外でそれらの手法を用いた分子設計を試みるには、専門的な知識・技術が必要となり、分子設計AIの非専門家がそれらを利用するには非常に高いハードルがありました。
研究内容
ChemTSv2は、共同研究者の津田宏治チームリーダーらが開発した探索アルゴリズムであるモンテカルロ木探索(MCTS)*2と深層学習手法である再帰型ニューラルネットワーク(RNN)*3に基づいた分子設計AIであるChemTSをもとに、大幅に機能を改善・改良をしたものです(図2)。
ChemTSv2を用いた分子設計は①望む機能を評価する方法の指定、②分子設計する際の条件の指定、③分子設計の実行、④設計された分子の評価、の4 Stepを通して実施します(図2上段)。
ChemTSv2では、量子化学計算等の非常に計算コストのかかる機能評価が必要な分子設計にも対応するために、共同研究者の美添一樹教授らが開発した高度な並列化技術をChemTSに導入したMP-ChemTSのアルゴリズムも導入しています。1分子の機能評価に数時間~数日かかるような分子設計を実施したい場合には、この並列版ChemTSv2を利用することで非常に効率的に分子設計をすることができます。ユーザーは上述の4 Stepで行う作業は共通で、Step 3で指定するコマンドを変更するだけで並列版への切り替えが可能です。
材料設計から医薬品設計に至る様々な分野では、望みの機能を持つ新たな分子の探索や最適化が常に求められています。しかし、それらの分子をゼロから考えようとした際には、小さい有機分子に限っても10の60乗をゆうに超える候補分子から探し出す必要があります。現在の世界最大級の化合物データベースであるCASデータベースであっても10の8乗オーダーの化合物収載数であることを考えると、所望の機能性分子を設計することは至難の業であると言えます。
分子設計は望みの機能(蛍光を有する等)を入力としその機能を持つ分子構造を出力する問題として考えることができ、近年では深層学習*1等を用いた分子生成AIでその問題を解くための様々な手法が提案されています。しかし、それらの手法が着目している機能以外でそれらの手法を用いた分子設計を試みるには、専門的な知識・技術が必要となり、分子設計AIの非専門家がそれらを利用するには非常に高いハードルがありました。
研究内容
ChemTSv2は、共同研究者の津田宏治チームリーダーらが開発した探索アルゴリズムであるモンテカルロ木探索(MCTS)*2と深層学習手法である再帰型ニューラルネットワーク(RNN)*3に基づいた分子設計AIであるChemTSをもとに、大幅に機能を改善・改良をしたものです(図2)。
ChemTSv2を用いた分子設計は①望む機能を評価する方法の指定、②分子設計する際の条件の指定、③分子設計の実行、④設計された分子の評価、の4 Stepを通して実施します(図2上段)。
- Step 1では、ユーザーは分子に望む機能をどのようにChemTSv2内で評価すればよいかを指定します。その評価を実施するために任意の計算化学アプリケーション*4(RDKit, Gaussian, AutoDock Vina等)を利用することが可能です。具体的にどのように指定すればよいかは、ChemTSv2を公開しているGitHub*5(https://github.com/molecule-generator-collection/ChemTSv2)にて様々なソフトウェアの利用例を紹介しています。
- Step 2では分子設計する際に何個分子を生成するか、分子を探索する範囲の調整や妥当な分子のみを設計するための分子フィルターを利用するか等の条件を指定します。
- Step 3では上記Stepで設定した内容が記載されたファイルを指定してコンピューター上で分子設計を実施します。ChemTSv2は分子設計の結果をExcel等の一般的な表計算アプリケーションで扱えるCSV形式で出力されます。
- Step 4でユーザーが慣れているツールでの解析を実施することが可能です。
ChemTSv2では、量子化学計算等の非常に計算コストのかかる機能評価が必要な分子設計にも対応するために、共同研究者の美添一樹教授らが開発した高度な並列化技術をChemTSに導入したMP-ChemTSのアルゴリズムも導入しています。1分子の機能評価に数時間~数日かかるような分子設計を実施したい場合には、この並列版ChemTSv2を利用することで非常に効率的に分子設計をすることができます。ユーザーは上述の4 Stepで行う作業は共通で、Step 3で指定するコマンドを変更するだけで並列版への切り替えが可能です。
ChemTSv2で実際に設計可能な分子の例として、医薬品候補と材料物資を挙げています(図3)。これらの例は、これまでChemTSを用いて分子設計を試みてきたもので、医薬品候補の設計例に関しては、期待する機能を持つかどうかの確認は実験が必要です。一方、材料物質の設計に関しては、実験により期待する機能を持つ分子が設計できたことを実証しています。それぞれの分子設計例の詳細に関しては、元論文をご参照下さい。
今後の展開
ChatGPT*6が爆発的に普及した背景の一つに、最先端の技術を「誰でも容易に利用可能なチャットインターフェース」で提供したことが挙げられます。最先端の技術を持続可能な形で開発・提供していくことは、持続可能な世界を創っていくためには必須ですが、分子設計AIの分野ではその点はほとんど重視されていませんでした。本研究で開発したChemTSv2は「誰でも容易に利用可能」かつ「持続的な開発が可能な」分子設計AIの第一歩だと考えています。
現状では、望む機能をどのように評価するかという点に関してユーザーは専門家である必要があります。今後はどのようにその機能を評価すればよいかを判断できるAIの開発も進めることで、本当の意味での「誰でも容易に利用可能」な分子設計AIができると期待しています。
研究費
本研究は、AMED〈産学連携による次世代創薬AI開発(DAIIA)〉課題番号JP22nk0101111及びAMED BINDS課題番号JP22ama121023の支援を受けたものです。また、「富岳」成果創出加速プログラム「プレシジョンメディスンを加速する創薬ビッグデータ統合システムの推進」(JPMXP1020200201)及び文部科学省データ 創出・活用型マテリアル研究開発プロジェクト事業JPMXP1122683430の一環として実施されたものです。
論文情報
タイトル: ChemTSv2: Functional Molecular Design Using de novo Molecule Generator
著者: Shoichi Ishida, Taunt Aasawat, Masato Sumita, Michio Katouda, Tatsuya Yoshizawa, Kazuki Yoshizo, Koji Tsuda, Kei Terayama
掲載雑誌: WIREs Computational Molecular Science
DOI: 10.1002/wcms.1680
参考
用語説明
*1 深層学習(Deep Learning):人間の脳の神経細胞の動作を模倣した多層のニューラルネットワークにより、高い学習能力と表現力を持つ機械学習の手法。
*2 モンテカルロ木探索(Monte Carlo Tree Search):囲碁などの選択肢が多く複雑なゲームで最良の手を見つけるために利用されている探索アルゴリズムの一種。
*3 再帰型ニューラルネットワーク(Recurrent Neural Network):過去の情報(文字など)を記憶し、それをもとに未来の情報を予測する深層学習の手法。
*4 計算化学アプリケーション:コンピューター上で分子の性質等を計算し理解するために用いられるツール。例えば、RDKitは分子を扱うためのパッケージで、分子の原子組成や環の数等の情報や簡単な分子特性を計算することが可能。Gaussianは量子化学計算を実行するためのパッケージで、単一分子の物性等を高精度に推定することが可能。AutoDock Vinaはドッキングシミュレーションを実施するためのパッケージで、標的タンパク質にある分子がどれくらい良くくっつくかを推定することが可能。
*5 GitHub:パッケージのソースコードやその変更履歴などをオンラインで共有・管理するサービスで世界中で利用されている。開発されたAIなどはGitHubを通して公開されることが多い。
*6 ChatGPT:自然な文章を生成し会話することができるAIチャットボットで、自然言語処理における最先端の深層学習技術を利用している。世界中のさまざまな文章を学習しており、多岐にわたる質問に対応することができる。
ChatGPT*6が爆発的に普及した背景の一つに、最先端の技術を「誰でも容易に利用可能なチャットインターフェース」で提供したことが挙げられます。最先端の技術を持続可能な形で開発・提供していくことは、持続可能な世界を創っていくためには必須ですが、分子設計AIの分野ではその点はほとんど重視されていませんでした。本研究で開発したChemTSv2は「誰でも容易に利用可能」かつ「持続的な開発が可能な」分子設計AIの第一歩だと考えています。
現状では、望む機能をどのように評価するかという点に関してユーザーは専門家である必要があります。今後はどのようにその機能を評価すればよいかを判断できるAIの開発も進めることで、本当の意味での「誰でも容易に利用可能」な分子設計AIができると期待しています。
研究費
本研究は、AMED〈産学連携による次世代創薬AI開発(DAIIA)〉課題番号JP22nk0101111及びAMED BINDS課題番号JP22ama121023の支援を受けたものです。また、「富岳」成果創出加速プログラム「プレシジョンメディスンを加速する創薬ビッグデータ統合システムの推進」(JPMXP1020200201)及び文部科学省データ 創出・活用型マテリアル研究開発プロジェクト事業JPMXP1122683430の一環として実施されたものです。
論文情報
タイトル: ChemTSv2: Functional Molecular Design Using de novo Molecule Generator
著者: Shoichi Ishida, Taunt Aasawat, Masato Sumita, Michio Katouda, Tatsuya Yoshizawa, Kazuki Yoshizo, Koji Tsuda, Kei Terayama
掲載雑誌: WIREs Computational Molecular Science
DOI: 10.1002/wcms.1680
参考
用語説明
*1 深層学習(Deep Learning):人間の脳の神経細胞の動作を模倣した多層のニューラルネットワークにより、高い学習能力と表現力を持つ機械学習の手法。
*2 モンテカルロ木探索(Monte Carlo Tree Search):囲碁などの選択肢が多く複雑なゲームで最良の手を見つけるために利用されている探索アルゴリズムの一種。
*3 再帰型ニューラルネットワーク(Recurrent Neural Network):過去の情報(文字など)を記憶し、それをもとに未来の情報を予測する深層学習の手法。
*4 計算化学アプリケーション:コンピューター上で分子の性質等を計算し理解するために用いられるツール。例えば、RDKitは分子を扱うためのパッケージで、分子の原子組成や環の数等の情報や簡単な分子特性を計算することが可能。Gaussianは量子化学計算を実行するためのパッケージで、単一分子の物性等を高精度に推定することが可能。AutoDock Vinaはドッキングシミュレーションを実施するためのパッケージで、標的タンパク質にある分子がどれくらい良くくっつくかを推定することが可能。
*5 GitHub:パッケージのソースコードやその変更履歴などをオンラインで共有・管理するサービスで世界中で利用されている。開発されたAIなどはGitHubを通して公開されることが多い。
*6 ChatGPT:自然な文章を生成し会話することができるAIチャットボットで、自然言語処理における最先端の深層学習技術を利用している。世界中のさまざまな文章を学習しており、多岐にわたる質問に対応することができる。