AIによる画像説明文で高精度な画像認識を実証

2023.07.28

TOPICS
データサイエンス学部

画像キャプショニングは画像そのものよりも多くを語る

横浜市立大学データサイエンス学部の有働帆乃璃さん（研究当時）と越仲孝文教授らの研究グループは、画像から説明文を生成する人工知能（AI）である「画像説明AI」の振舞いを明らかにする研究を行い、説明文のみから画像を認識する実験を行い、詳細な説明文が得られれば、標準的な画像認識システムと同等かそれ以上に正確な画像認識が可能であることを実証しました。本研究成果は、第37回人工知能学会（JSAI2023）全国大会の一般セッションで発表されました。（2023年6月9日・熊本）

研究成果のポイント

画像から説明文を生成する人口知能（AI）の説明能力の高さを検証。
画像説明AIと言語理解AIを組み合わせて画像を認識する実験を行った。
言語理解AIは画像を一切見ず、説明文のみから正確に画像を認識できた。

研究背景
画像、音声、言語などを理解する様々な人工知能（AI）技術が近年急速に進歩しています。とりわけ、画像と言語を理解して両者の橋渡し役となるAI技術は注目されています。例えば、自然な言葉で説明した内容から画像を生成する画像生成AIは、Stable DiffusionやMidjourneyといったオープンソースソフトウェアの普及に伴い、一般の人々の間でも大流行の様相を呈しています。一方、画像生成AIとは逆に画像からその説明文を生成する画像説明AIは画像キャプショニングとも呼ばれ、同様に目覚ましく進歩しています。しかしながら、ディープラーニング（深層学習）に基づく現代のAI技術は中身の見えないブラックボックスであり、その振舞いを理解して安心・安全を担保する取組みが求められています。

研究内容
画像説明AI （画像キャプショニング）の振舞いを完全に理解するためには、それが画像内のどのような情報に着目しているのか、あるいはいないのかを明らかにする必要があります。ここでは一つの試みとして、画像の説明文を用いて画像認識を行うという課題を設定しました（図1）。すなわち、画像キャプショニングで生成した説明文を言語理解AIという別のAIに提示して、画像の内容を推論させます。これを標準的な画像認識システムと比較すれば、説明文が原画像の情報をどの程度保持できているのか知ることができます。
実験には自然災害画像のコレクションであるCrisisNLPデータセット^＊１を使用しました。CrisisNLPには画像を7種のクラス（地震, 火事, 洪水, ハリケーン, 地滑り, その他, 災害なし）に分類する課題が設定されています。いくつかの画像キャプショニング方式を試した結果、詳細な説明文を生成できるCLIP Interrogator^＊２と呼ばれる方式がもっともよい結果を示し、その画像認識精度は85%でした。これは、標準的な画像認識システムの精度70%を大きく上回る結果です。今回使用した標準的な画像認識システムは、MobileNetV2と呼ばれる深層学習モデルを用いた文字通り標準的なもので、これよりも良いとされるシステムは存在します。それでも、画像を直接認識するよりも大幅に高い精度が画像説明文のみで達成できるという結果は驚きです。画像説明AIは思いのほか多くを語ると言えます。

標準的な画像認識システム

今回検証した画像認識システム

図1：標準的な画像認識システムは物体の色や形状から画像を認識する（上段）。本システムでは、画像説明AIの説明を聞いた言語理解AIが、画像を見ずにその内容を推論する（下段）。

今後の展開
「百聞は一見に如かず」の言葉通り、伝聞情報よりも自分の目で確かめた情報の方がはるかに有用で信頼できるというのが人間界の常識です。しかしAIの世界は必ずしもそうではないようです。なぜこのようなことが起こるのかをさらに詳しく調べ、人間とAIの推論プロセスの違いを明らかにするのが次のステップです。
今回の成果自体は、AIの説明可能性という問題に寄与できると考えられます。ディープラーニング技術に基づく通常の画像認識システムは概してブラックボックスシステムであり、画像を与えると推論結果が出力されるのみで、なぜその結果に至ったのかが見えません。今回の画像認識システムは画像の説明文が出力されるので、推論のプロセスが人間にも理解できます。とはいえ、今時の画像説明AIもディープラーニング技術の塊であり、その振舞いはほとんどわかっていません。本格的な研究はこれからです。

研究費
本研究の一部はJSPS科研費21K11967の支援を受けて実施されました。

論文情報
タイトル：画像キャプショニングは画像そのものよりも多くを語る
著者：有働帆乃璃, 越仲孝文
掲載雑誌：第37回人工知能学会全国大会(JSAI2023)論文集
DOI：10.11517/pjsai.JSAI2023.0_4A3GS604

用語説明
＊１CrisisNLP （クライシスNLP）データセット：次の論文にて公開されている。
DOI：10.1109/ASONAM49781.2020.9381294 （図1の画像も本データセットより引用）

＊２ CLIP Interrogator（クリップ・インテロゲータ）：Stable Diffusionなどの画像生成AIに与えるプロンプト（指示文）を画像から生成する、画像生成の補助ツール。広い意味で画像説明AIとみなせる。github.com/pharmapsychotic/clip-interrogator