要約
近年、大規模言語モデル(LLM)を用いたゆっくり考える推論システムが、推論中の思考時間をスケーリングすることで広く注目を集めている。また、この機能をマルチモーダル大規模言語モデル(MLLM)に適応させることへの関心も高まっている。MLLMが異なるモダリティにまたがるより複雑なデータセマンティクスを扱うことを考えると、マルチモーダルなスローシンキングシステムを実装することは直感的に困難である。 この問題に対処するため、本論文では、少量のテキストによる長文思考データを用いて有能なMLLMを微調整することにより、マルチモーダルなスローシンキングシステムVirgo(Visual reasoning with long thought)を実現し、直接的なアプローチを探る。我々は、自然言語で表現されたこれらの長文推論過程が、MLLMに効果的に転送できることを発見した。さらに、このようなテキスト推論データは、MLLMのスローシンキング能力を引き出す上で、視覚的推論データよりもさらに効果的であると思われる。この研究は予備的なものではあるが、ゆっくり考える能力は基本的に言語モデルの構成要素に関連しており、それはモダリティやドメインを越えて伝達可能であることを示している。この発見は、より強力なゆっくり考える推論システムの開発に活用できる。我々のリソースはhttps://github.com/RUCAIBox/Virgo。
要約(オリジナル)
Recently, slow-thinking reasoning systems, built upon large language models (LLMs), have garnered widespread attention by scaling the thinking time during inference. There is also growing interest in adapting this capability to multimodal large language models (MLLMs). Given that MLLMs handle more complex data semantics across different modalities, it is intuitively more challenging to implement multimodal slow-thinking systems. To address this issue, in this paper, we explore a straightforward approach by fine-tuning a capable MLLM with a small amount of textual long-form thought data, resulting in a multimodal slow-thinking system, Virgo (Visual reasoning with long thought). We find that these long-form reasoning processes, expressed in natural language, can be effectively transferred to MLLMs. Moreover, it seems that such textual reasoning data can be even more effective than visual reasoning data in eliciting the slow-thinking capacities of MLLMs. While this work is preliminary, it demonstrates that slow-thinking capacities are fundamentally associated with the language model component, which can be transferred across modalities or domains. This finding can be leveraged to guide the development of more powerful slow-thinking reasoning systems. We release our resources at https://github.com/RUCAIBox/Virgo.
arxiv情報
著者 | Yifan Du,Zikang Liu,Yifan Li,Wayne Xin Zhao,Yuqi Huo,Bingning Wang,Weipeng Chen,Zheng Liu,Zhongyuan Wang,Ji-Rong Wen |
発行日 | 2025-01-03 17:14:16+00:00 |
arxivサイト | arxiv_id(pdf) |