Efficient Reasoning with Hidden Thinking

要約

チェーンオブテーブ(COT)の推論は、マルチモーダル大手言語モデル(MLLM)の複雑な問題解決能力を改善するための強力なフレームワークになりました。
ただし、テキストの推論の冗長性は重要な非効率性をもたらします。
この作業では、$ \ textbf {heima} $(隠しllama)を提案します。これは、隠された潜在スペースでコットを推論する効率的な推論フレームワークです。
Heimaエンコーダーを設計して、各中間COTを単一の思考トークンを使用してコンパクトで高レベルの隠し表現に凝縮し、冗長性を効果的に最小限に抑え、推論プロセス中に必要なトークンの総数を減らします。
一方、対応するハイマデコーダーを従来の大手言語モデル(LLM)で設計して、隠された表現を可変長さのテキストシーケンスに適応的に解釈し、元のCOTによく似た推論プロセスを再構築します。
多様な推論にわたる実験結果MLLMベンチマークは、Heimaモデルがより高い発電効率を達成し、ゼロショットのタスクの精度を維持するか、さらに優れた発電の精度を達成することを示しています。
さらに、ハイマデコーダーを使用したマルチモーダル推論プロセスの効果的な再構築は、アプローチの堅牢性と解釈可能性の両方を検証します。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning has become a powerful framework for improving complex problem-solving capabilities in Multimodal Large Language Models (MLLMs). However, the verbose nature of textual reasoning introduces significant inefficiencies. In this work, we propose $\textbf{Heima}$ (as hidden llama), an efficient reasoning framework that leverages reasoning CoTs at hidden latent space. We design the Heima Encoder to condense each intermediate CoT into a compact, higher-level hidden representation using a single thinking token, effectively minimizing verbosity and reducing the overall number of tokens required during the reasoning process. Meanwhile, we design corresponding Heima Decoder with traditional Large Language Models (LLMs) to adaptively interpret the hidden representations into variable-length textual sequence, reconstructing reasoning processes that closely resemble the original CoTs. Experimental results across diverse reasoning MLLM benchmarks demonstrate that Heima model achieves higher generation efficiency while maintaining or even better zero-shot task accuracy. Moreover, the effective reconstruction of multimodal reasoning processes with Heima Decoder validates both the robustness and interpretability of our approach.

arxiv情報

著者 Xuan Shen,Yizhou Wang,Xiangxi Shi,Yanzhi Wang,Pu Zhao,Jiuxiang Gu
発行日 2025-01-31 15:10:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク