Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models

要約

大規模言語モデル(LLM)の進歩により、思考連鎖(CoT)アプローチが注目されている。さらに、CoTアプローチの重要性は、マルチモーダルな質問応答のようなマルチモーダルなタスクへのLLMの応用にも及んでいる。しかし、LLMのマルチモーダルな推論における最適なCoT実証例の選択は、マルチモーダルな例固有の複雑さのため、LLMではまだあまり研究されていない。本論文では、検索メカニズムを用いて、クロスモーダルな類似性に基づいてデモ例を動的に自動選択することで、この課題を解決する新しいアプローチを紹介する。この方法は、LLMにより適切で有益な例を知らせることにより、マルチモーダルシナリオにおけるCoT推論プロセスを改良することを目的とする。さらに、実証例の多様性を促進するために、実証例をそのタイプに基づいてグループに分類し、それぞれ異なるグループから例を検索する層化サンプリング法を採用する。一連の実験を通して、我々のアプローチがLLMの性能を大幅に改善し、マルチモーダル推論タスクにおいて最先端の結果を達成することを実証する。特に、我々の手法はScienceQAデータセットにおいて大きな進歩を示した。ChatGPTに基づく我々の手法がChameleon(ChatGPT)を2.74%上回り、82.67%の精度を達成したのに対し、GPT4に基づく手法はChameleon(GPT-4)を0.89%上回り、同じ設定で87.43%の精度を達成した。さらに、ChatGPTベースのモデルではChameleonを6.05%上回り、GPT-4ベースのモデルでは4.57%上回りました。

要約(オリジナル)

The advancement of Large Language Models(LLMs) has brought substantial attention to the Chain of Thought(CoT) approach, primarily due to its ability to enhance the capability of LLMs on tasks requiring complex reasoning. Moreover, the significance of CoT approaches extends to the application of LLMs for multi-modal tasks, such as multi-modal question answering. However, the selection of optimal CoT demonstration examples in multi-modal reasoning for LLMs remains less explored for LLMs due to the inherent complexity of multi-modal examples. In this paper, we introduce a novel approach that addresses this challenge by using retrieval mechanisms to dynamically and automatically select demonstration examples based on cross-modal similarities. This method aims to refine the CoT reasoning process in multi-modal scenarios via informing LLMs with more relevant and informative examples. Furthermore, we employ a stratified sampling method categorising demonstration examples into groups based on their types and retrieving examples from different groups respectively to promote the diversity of demonstration examples. Through a series of experiments, we demonstrate that our approach significantly improves the performance of LLMs, achieving state-of-the-art results in multi-modal reasoning tasks. Specifically, our methods demonstrate significant advancements on the ScienceQA dataset. While our method based on ChatGPT outperforms the Chameleon(ChatGPT) by 2.74% with an accuracy of 82.67%, the GPT4-based approach surpasses the Chameleon(GPT-4) by 0.89%, achieving 87.43% on accuracy under the same setting. Moreover, our best performing show a 6.05% increase over Chameleon for ChatGPT-based models and a 4.57% increase for GPT-4-based models.

arxiv情報

著者 Bingshuai Liu,Chenyang Lyu,Zijun Min,Zhanyu Wang,Jinsong Su,Longyue Wang
発行日 2023-12-04 08:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク