Multimodal Chain-of-Thought Reasoning in Language Models

要約

大規模言語モデル (LLM) は、答えを推論する論理的根拠として中間推論チェーンを生成するように促す思考チェーン (CoT) を活用することにより、複雑な推論で印象的なパフォーマンスを示しています。
ただし、既存の CoT 研究は言語モダリティに焦点を当てています。
言語 (テキスト) と視覚 (画像) のモダリティを、理論的根拠の生成と回答の推論を分離する 2 段階のフレームワークに組み込む Multimodal-CoT を提案します。
このようにして、回答の推論は、マルチモーダル情報に基づいて生成された、より優れた論理的根拠を活用できます。
Multimodal-CoT を使用すると、10 億個のパラメーター以下のモデルは、ScienceQA ベンチマークで以前の最先端の LLM (GPT-3.5) を 16 パーセント (75.17%->91.68% の精度) 上回っており、人間のパフォーマンスをも上回っています。
コードは、https://github.com/amazon-science/mm-cot で公開されています。

要約(オリジナル)

Large language models (LLMs) have shown impressive performance on complex reasoning by leveraging chain-of-thought (CoT) prompting to generate intermediate reasoning chains as the rationale to infer the answer. However, existing CoT studies have focused on the language modality. We propose Multimodal-CoT that incorporates language (text) and vision (images) modalities into a two-stage framework that separates rationale generation and answer inference. In this way, answer inference can leverage better generated rationales that are based on multimodal information. With Multimodal-CoT, our model under 1 billion parameters outperforms the previous state-of-the-art LLM (GPT-3.5) by 16 percentage points (75.17%->91.68% accuracy) on the ScienceQA benchmark and even surpasses human performance. Code is publicly available available at https://github.com/amazon-science/mm-cot.

arxiv情報

著者 Zhuosheng Zhang,Aston Zhang,Mu Li,Hai Zhao,George Karypis,Alex Smola
発行日 2023-02-17 04:35:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク