2026.05.20
- TOPICS
- 学生の活躍
液-液相分離実験に関する実験情報を大規模言語モデルを用いて抽出する手法を開発
生命医科学研究科 生命情報科学研究室を修了した陳 佳盈さんらの研究グループは、大規模言語モデルを用いた液-液相分離関連論文の図やテキストから実験情報を抽出する手法を開発しました。
その研究成果が、「Scientific Reports」に掲載されました。
その研究成果が、「Scientific Reports」に掲載されました。
筆頭著者
生命医科学研究科 博士後期課程(2026年3月修了)
生命情報科学研究室
陳 佳盈さん
指導教員
生命医科学研究科
生命情報科学研究室
寺山 慧研究教授(生命情報科学)
論文タイトル
Assessing the Performance of LLMs in Multimodal Information Extraction for Biological Research: A Case Study on LLPS
(日本語訳:生物学研究におけるマルチモーダル情報抽出のLLM性能評価:液-液相分離(LLPS)に関するケーススタディ)
掲載雑誌
Scientific Reports
DOI:10.1038/s41598-026-47277-0
生命医科学研究科 博士後期課程(2026年3月修了)
生命情報科学研究室
陳 佳盈さん
指導教員
生命医科学研究科
生命情報科学研究室
寺山 慧研究教授(生命情報科学)
論文タイトル
Assessing the Performance of LLMs in Multimodal Information Extraction for Biological Research: A Case Study on LLPS
(日本語訳:生物学研究におけるマルチモーダル情報抽出のLLM性能評価:液-液相分離(LLPS)に関するケーススタディ)
掲載雑誌
Scientific Reports
DOI:10.1038/s41598-026-47277-0
今回の研究内容について陳さんに解説していただきました。
本研究では、大規模言語モデル(LLM)を活用して生物学論文から実験情報を自動で抽出する技術の開発に取り組みました。対象としたのは「液-液相分離(LLPS)*1」と呼ばれる現象で、細胞内でタンパク質やRNAが集まり液滴のような構造を形成する仕組みです。この現象は、細胞機能の調節だけでなく、神経変性疾患との関連も注目されていることから、関連論文数が急速に増加しています。しかし、多数の論文を研究者が手作業で整理・収集するには膨大な時間と労力が必要であるため、効率的な情報収集手法が求められていました。そこで本研究では、文章と画像を同時に理解できる「マルチモーダル大規模言語モデル(MLLM)*2」を用い、論文中の顕微鏡画像や散布図、本文の文章から、LLPS実験に関するタンパク質名や濃度、温度、pH、LLPSの有無などの情報を抽出しました(図1)。ここでは、入力形式やプロンプト設計、図ごとに解析する方法など、抽出性能に影響を与える複数の条件を比較検証しました。その結果、図ごとに順番に解析を行い、さらに専門知識や読み取り手順をMLLMに指示することで、比較的高い精度で情報を抽出できることを確認しました。一方で、複雑な散布図や不鮮明な顕微鏡画像では誤認識も見られ、完全自動化には課題が残されていることも明らかになりました。本研究は、MLLMを用いた生物学論文の情報抽出の可能性と限界を示し、今後のデータ駆動型研究の発展に向けた基盤となる成果です。
本研究では、大規模言語モデル(LLM)を活用して生物学論文から実験情報を自動で抽出する技術の開発に取り組みました。対象としたのは「液-液相分離(LLPS)*1」と呼ばれる現象で、細胞内でタンパク質やRNAが集まり液滴のような構造を形成する仕組みです。この現象は、細胞機能の調節だけでなく、神経変性疾患との関連も注目されていることから、関連論文数が急速に増加しています。しかし、多数の論文を研究者が手作業で整理・収集するには膨大な時間と労力が必要であるため、効率的な情報収集手法が求められていました。そこで本研究では、文章と画像を同時に理解できる「マルチモーダル大規模言語モデル(MLLM)*2」を用い、論文中の顕微鏡画像や散布図、本文の文章から、LLPS実験に関するタンパク質名や濃度、温度、pH、LLPSの有無などの情報を抽出しました(図1)。ここでは、入力形式やプロンプト設計、図ごとに解析する方法など、抽出性能に影響を与える複数の条件を比較検証しました。その結果、図ごとに順番に解析を行い、さらに専門知識や読み取り手順をMLLMに指示することで、比較的高い精度で情報を抽出できることを確認しました。一方で、複雑な散布図や不鮮明な顕微鏡画像では誤認識も見られ、完全自動化には課題が残されていることも明らかになりました。本研究は、MLLMを用いた生物学論文の情報抽出の可能性と限界を示し、今後のデータ駆動型研究の発展に向けた基盤となる成果です。
図1 本手法の概要(1)論文から異なるフォーマットの入力データを準備する。
(2) MLLMを用いてタンパク質名や濃度、温度、pH、LLPSの有無などの実験情報を抽出する。抽出方法として、論文全体を一度に解析する「Single-shot extraction」と、図ごとに順番に解析する「Figure-by-figure extraction」を比較した。また、専門知識や読み取り手順を含む複数のプロンプトを検証した。
陳さんのコメント
本研究では、生物学論文に含まれる文章や画像をMLLMに解析させ、実験情報を自動的に整理する手法の開発に挑戦しました。特に、LLPS研究では実験条件が本文や図中に分散して記載されているため、それらを統合的に読み取る必要があり、MLLMの挙動検証や評価方法の構築に多くの時間を要しました。また、顕微鏡画像や散布図のように、人でも判断が難しいデータを扱う場面も多く、試行錯誤を繰り返しながら改良を進めました。その結果、MLLMを用いた生物学論文の情報抽出において、有効な条件や限界点を明らかにすることができました。本研究を進めるにあたり、多くの先生方や研究室の皆様からご助言とご支援をいただきました。この場をお借りして深く感謝申し上げます。
指導教員 寺山 慧研究教授のコメント
陳さん、論文掲載おめでとうございます!
陳さんは以前より、LLPSに関連するデータ解析手法の研究(関連記事参照)に取り組んでおり、データセットの構築や相分離予測モデルの開発を行ってきました。その研究を進める中で、データセット構築の課題・困難さに直面し、それを解決すべく、MLLMを活用した本研究を進めてきました。近年MLLMは爆発的に進歩しているものの、実際の研究に応用してみると様々な課題に直面し、苦労は多かったと思います。しかし、最後まで粘り強く取り組んだ結果、論文という形で纏めることができ、大変良い経験になったかと思います。今後は学生時代の学びを活かして、社会人として活躍されることを楽しみにしています。
本研究では、生物学論文に含まれる文章や画像をMLLMに解析させ、実験情報を自動的に整理する手法の開発に挑戦しました。特に、LLPS研究では実験条件が本文や図中に分散して記載されているため、それらを統合的に読み取る必要があり、MLLMの挙動検証や評価方法の構築に多くの時間を要しました。また、顕微鏡画像や散布図のように、人でも判断が難しいデータを扱う場面も多く、試行錯誤を繰り返しながら改良を進めました。その結果、MLLMを用いた生物学論文の情報抽出において、有効な条件や限界点を明らかにすることができました。本研究を進めるにあたり、多くの先生方や研究室の皆様からご助言とご支援をいただきました。この場をお借りして深く感謝申し上げます。
指導教員 寺山 慧研究教授のコメント
陳さん、論文掲載おめでとうございます!
陳さんは以前より、LLPSに関連するデータ解析手法の研究(関連記事参照)に取り組んでおり、データセットの構築や相分離予測モデルの開発を行ってきました。その研究を進める中で、データセット構築の課題・困難さに直面し、それを解決すべく、MLLMを活用した本研究を進めてきました。近年MLLMは爆発的に進歩しているものの、実際の研究に応用してみると様々な課題に直面し、苦労は多かったと思います。しかし、最後まで粘り強く取り組んだ結果、論文という形で纏めることができ、大変良い経験になったかと思います。今後は学生時代の学びを活かして、社会人として活躍されることを楽しみにしています。
用語説明
*1 液-液相分離: 2種類の液体が混ざり合うことなく、2相に分離する現象。例:油水分離。
*2 マルチモーダル大規模言語モデル: 文章だけでなく、画像や図表など複数種類の情報を同時に理解・処理できる大規模言語モデル。
*1 液-液相分離: 2種類の液体が混ざり合うことなく、2相に分離する現象。例:油水分離。
*2 マルチモーダル大規模言語モデル: 文章だけでなく、画像や図表など複数種類の情報を同時に理解・処理できる大規模言語モデル。
