大学院生 陳 佳盈さんが筆頭著者の論文が BMC Bioinformaticsに掲載
2024.04.30
- TOPICS
- 学生の活躍
- 研究
- 理学部
タンパク質とRNAによる液-液相分離実験に関する新規データセットRNAPSECと二つの予測モデルを開発
生命医科学研究科 生命情報科学研究室の陳 佳盈さん、機能構造科学研究室の佐々木幸生准教授らの研究グループは、タンパク質・RNA・実験条件を考慮した液-液相分離を予測する機械学習モデルを開発し、その研究成果が「BMC Bioinformatics」誌に掲載されました。
論文著者
生命医科学研究科 博士後期課程2年
生命情報科学研究室
生命医科学研究科 博士後期課程2年
生命情報科学研究室
陳 佳盈 さん
指導教員
生命医科学研究科
生命情報科学研究室 寺山 慧 准教授(生命情報科学)
論文タイトル
Predicting condensate formation of protein and RNA under various environmental conditions
様々な環境条件下におけるタンパク質とRNAによる液-液相分離形成の予測モデル開発
掲載雑誌
BMC Bioinformatics
今回の研究内容について陳さんに解説していただきました。
細胞内では、RNAやタンパク質などの生体分子が液-液相分離(LLPS: Liquid-liquid phase separation)*1を起こし、液体様の顆粒を形成します。これらの顆粒は、細胞内のストレス応答や転写制御など、様々な生命現象に関与することが報告されています。LLPSの制御不全は、ALSやアルツハイマー病などの神経変性疾患との関連が示唆されており、疾患の理解・治療のためにもLLPSの予測・理解は非常に重要です。そのため近年機械学習を用いてタンパク質のLLPSの挙動を評価する予測モデルが開発されています。しかし、既存のタンパク質に関するLLPSの予測モデルでは、本来考慮すべきpHや温度などの環境要因やRNAが扱われていませんでした。これは既存のLLPSに関連するデータベースにおいてこれらの要素が詳細に収録されていない点に大きな問題がありました。
この課題を解決するために、本研究ではタンパク質とRNAを用いた詳細な実験データを収集し、さらにタンパク質・RNA・実験条件を考慮した二つの予測モデルの開発に取り組みました(図1)。既存のデータベースでは、複数の実験を範囲表記などにより一つのデータとしてまとめて収録されているため、実際の実験値が不明なデータが多く含まれています。そこで、我々は既存のLLPS関連RNAデータベースであるRNAPhaSep(Zhu H, et al., Nucleic Acids Res., 2022.)に収録されているデータの元論文からLLPS実験の情報を再収集し、1実験を1データとして収録した新規データセットRNAPSEC(RNAPhaSep with Experimental Conditions)を構築しました(図1A)。RNAPSECはRNAPhaSepよりも多くのデータを収録し、幅広い実験条件が利用可能となっています。次に、RNAPSECを用いて、タンパク質・RNA・実験条件からLLPSが起きるか否かを予測するLLPS挙動予測モデルを開発しました(図1B、青枠)。本モデルはAdaBoost*2をベースとしたモデルで最良の性能が得られ、そのROC-AUC*3は0.67でした(図2A)。また、本モデルは相図の作成に応用することもでき、広範な実験条件下におけるLLPSの挙動を網羅的に調べることができます(図2B)。さらに、LLPS形成の条件候補を提供するため、タンパク質とRNAがLLPSを起こす実験条件を予測するLLPS条件予測モデルを開発しました(図1B、緑枠)。RNAPSECと二つの予測モデルのコードはGitHub(https://github.com/ycu-iil/RNAPSEC)で公開しており、誰でも利用可能です。また、LLPS挙動を予測するモデルは非プログラミング経験者でも簡単に利用できるよう、コードをGoogle Colaboratoryでも公開しています。
細胞内では、RNAやタンパク質などの生体分子が液-液相分離(LLPS: Liquid-liquid phase separation)*1を起こし、液体様の顆粒を形成します。これらの顆粒は、細胞内のストレス応答や転写制御など、様々な生命現象に関与することが報告されています。LLPSの制御不全は、ALSやアルツハイマー病などの神経変性疾患との関連が示唆されており、疾患の理解・治療のためにもLLPSの予測・理解は非常に重要です。そのため近年機械学習を用いてタンパク質のLLPSの挙動を評価する予測モデルが開発されています。しかし、既存のタンパク質に関するLLPSの予測モデルでは、本来考慮すべきpHや温度などの環境要因やRNAが扱われていませんでした。これは既存のLLPSに関連するデータベースにおいてこれらの要素が詳細に収録されていない点に大きな問題がありました。
この課題を解決するために、本研究ではタンパク質とRNAを用いた詳細な実験データを収集し、さらにタンパク質・RNA・実験条件を考慮した二つの予測モデルの開発に取り組みました(図1)。既存のデータベースでは、複数の実験を範囲表記などにより一つのデータとしてまとめて収録されているため、実際の実験値が不明なデータが多く含まれています。そこで、我々は既存のLLPS関連RNAデータベースであるRNAPhaSep(Zhu H, et al., Nucleic Acids Res., 2022.)に収録されているデータの元論文からLLPS実験の情報を再収集し、1実験を1データとして収録した新規データセットRNAPSEC(RNAPhaSep with Experimental Conditions)を構築しました(図1A)。RNAPSECはRNAPhaSepよりも多くのデータを収録し、幅広い実験条件が利用可能となっています。次に、RNAPSECを用いて、タンパク質・RNA・実験条件からLLPSが起きるか否かを予測するLLPS挙動予測モデルを開発しました(図1B、青枠)。本モデルはAdaBoost*2をベースとしたモデルで最良の性能が得られ、そのROC-AUC*3は0.67でした(図2A)。また、本モデルは相図の作成に応用することもでき、広範な実験条件下におけるLLPSの挙動を網羅的に調べることができます(図2B)。さらに、LLPS形成の条件候補を提供するため、タンパク質とRNAがLLPSを起こす実験条件を予測するLLPS条件予測モデルを開発しました(図1B、緑枠)。RNAPSECと二つの予測モデルのコードはGitHub(https://github.com/ycu-iil/RNAPSEC)で公開しており、誰でも利用可能です。また、LLPS挙動を予測するモデルは非プログラミング経験者でも簡単に利用できるよう、コードをGoogle Colaboratoryでも公開しています。
(A)RNAPSECの構築フロー。RNAPhaSepから実験条件の値が複数あるいは範囲表記であるデータを選択し、元論文から個々の実験情報を収集。各実験を一つのデータとして収録し、RNAPSECを構築。
(B)二つの予測モデルの構築フロー。青枠はLLPS挙動予測モデルの構造を表す。このモデルは、タンパク質とRNA配列、実験条件由来の特徴量を入力し、LLPSが起こるか否かを出力する。緑枠はLLPS条件予測モデルの構造を表す。このモデルはタンパク質配列とRNA配列由来の特徴量を入力とし、LLPSを起こす可能性が高い実験条件を出力する。(論文 [1] より一部を改変して引用)
(B)二つの予測モデルの構築フロー。青枠はLLPS挙動予測モデルの構造を表す。このモデルは、タンパク質とRNA配列、実験条件由来の特徴量を入力し、LLPSが起こるか否かを出力する。緑枠はLLPS条件予測モデルの構造を表す。このモデルはタンパク質配列とRNA配列由来の特徴量を入力とし、LLPSを起こす可能性が高い実験条件を出力する。(論文 [1] より一部を改変して引用)
(A)7つのアルゴリズムを使用し、それぞれモデル開発と評価を行った。括弧内の数値はROC-AUCを表す。
(B)タンパク質・RNA濃度を一定間隔で変動させた時の予測結果を基に作成した相図。赤い菱形は実験でLLPSを起こさなかった値、青い菱形は実験でLLPSを起こした値を示す。オレンジの四角はLLPSを起こさないと予測された値、水色の四角はLLPSを起こすと予測された値を示す。(論文 [1] より一部を改変して引用)
(B)タンパク質・RNA濃度を一定間隔で変動させた時の予測結果を基に作成した相図。赤い菱形は実験でLLPSを起こさなかった値、青い菱形は実験でLLPSを起こした値を示す。オレンジの四角はLLPSを起こさないと予測された値、水色の四角はLLPSを起こすと予測された値を示す。(論文 [1] より一部を改変して引用)
陳さんのコメント
この度は、本研究の成果を論文として掲載することができ、大変嬉しく思います。本研究の過程では、実験設計やプログラミング作成、論文執筆などで多くの困難に直面しました。これらの課題に一つ一つ対峙し、克服することで、今回の成果を形にすることができました。日頃よりご指導頂いている寺山先生をはじめ、機能構造科学研究室の佐々木幸生先生および生命情報科学研究室の皆様に心より感謝申し上げます。今後も本分野のさらなる発展に貢献できるよう、研究活動に尽力して参ります。
この度は、本研究の成果を論文として掲載することができ、大変嬉しく思います。本研究の過程では、実験設計やプログラミング作成、論文執筆などで多くの困難に直面しました。これらの課題に一つ一つ対峙し、克服することで、今回の成果を形にすることができました。日頃よりご指導頂いている寺山先生をはじめ、機能構造科学研究室の佐々木幸生先生および生命情報科学研究室の皆様に心より感謝申し上げます。今後も本分野のさらなる発展に貢献できるよう、研究活動に尽力して参ります。
指導教員 寺山 慧 准教授のコメント
陳さん、論文掲載おめでとうございます!本研究は、陳さんが修士課程で本研究室に進学してから、全くゼロの状態から開始した研究で、多数の論文・研究を網羅的に調査する骨の折れる仕事だったと思います。自分で論文を書き、投稿後も最後まで諦めずに査読者とやり取りを行い、論文という形で成果を世に出すことができて大変良かったなと思います。今後もこの経験を活かして、さらに研究を発展させてくれるものと期待しています。また、本研究は本研究科機能構造科学研究室の佐々木幸生先生に様々なサポートを頂きました。この場を借りて感謝申し上げます。
用語説明
*1 液-液相分離: 2種類の液体が混ざり合うことなく、2相に分離する現象。例:油水分離。
*2 AdaBoost:機械学習で用いられるアルゴリズムの一つで、決定木を複数組み合わせた手法である。
*3 ROC-AUC:予測モデルの分類性能を評価する一般的な指標の一つで、ROC曲線の曲線下面積を指す。0-1の値をとり、1に近いほど性能が良いモデルと考えられる。
掲載論文
[1] Chin, K.Y., Ishida, S., Sasaki, Y., Terayama, K., Predicting condensate formation of protein and RNA under various environmental conditions. BMC Bioinformatics 25, 143 (2024).
DOI :10.1186/s12859-024-05764-z
陳さん、論文掲載おめでとうございます!本研究は、陳さんが修士課程で本研究室に進学してから、全くゼロの状態から開始した研究で、多数の論文・研究を網羅的に調査する骨の折れる仕事だったと思います。自分で論文を書き、投稿後も最後まで諦めずに査読者とやり取りを行い、論文という形で成果を世に出すことができて大変良かったなと思います。今後もこの経験を活かして、さらに研究を発展させてくれるものと期待しています。また、本研究は本研究科機能構造科学研究室の佐々木幸生先生に様々なサポートを頂きました。この場を借りて感謝申し上げます。
用語説明
*1 液-液相分離: 2種類の液体が混ざり合うことなく、2相に分離する現象。例:油水分離。
*2 AdaBoost:機械学習で用いられるアルゴリズムの一つで、決定木を複数組み合わせた手法である。
*3 ROC-AUC:予測モデルの分類性能を評価する一般的な指標の一つで、ROC曲線の曲線下面積を指す。0-1の値をとり、1に近いほど性能が良いモデルと考えられる。
掲載論文
[1] Chin, K.Y., Ishida, S., Sasaki, Y., Terayama, K., Predicting condensate formation of protein and RNA under various environmental conditions. BMC Bioinformatics 25, 143 (2024).
DOI :10.1186/s12859-024-05764-z