EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning

要約

マルチモーダル大手言語モデル（MLLM）は、テキスト、ビジョン、オーディオを越えて高度な認識を持っていますが、特にオーディオと視覚信号を統合する場合、構造化されたクロスモーダル推論に苦労することがよくあります。
MLLMのこのような推論を強化する強化学習フレームワークであるEchoink-R1を紹介します。
QWEN2.5-OMNI-7B Foundationに基づいて構築され、グループ相対ポリシー最適化（GRPO）で最適化されたEchoink-R1は、同期されたオーディオイメージペアをめぐる複数選択の質問に取り組んでいます。
これを有効にするために、AVQA-R1-6Kをキュレートします。これは、このようなオーディオイメージ入力をOmniinStruct-V1から派生した複数選択の質問とペアリングするデータセットです。
Echoink-R1-7Bは、検証セットで85.77％の精度を達成し、562の補強学習ステップのみを使用して、80.53％を獲得するベースモデルを上回ります。
Echoink-R1は、精度を超えて、曖昧なマルチモーダル入力に直面したときに初期解釈と反応を改善することにより、反射的推論を実証します。
これらの結果は、軽量の強化学習微調整がMLLMのクロスモーダル推論を強化することを示唆しています。
Echoink-R1は、補強学習を介した一般的なオープンワールド推論のオーディオ、視覚、およびテキストのモダリティを統合する最初のフレームワークです。
コードとデータは、さらなる研究を促進するために公開されています。

要約(オリジナル)

Multimodal large language models (MLLMs) have advanced perception across text, vision, and audio, yet they often struggle with structured cross-modal reasoning, particularly when integrating audio and visual signals. We introduce EchoInk-R1, a reinforcement learning framework that enhances such reasoning in MLLMs. Built upon the Qwen2.5-Omni-7B foundation and optimized with Group Relative Policy Optimization (GRPO), EchoInk-R1 tackles multiple-choice question answering over synchronized audio-image pairs. To enable this, we curate AVQA-R1-6K, a dataset pairing such audio-image inputs with multiple-choice questions derived from OmniInstruct-v1. EchoInk-R1-7B achieves 85.77% accuracy on the validation set, outperforming the base model, which scores 80.53%, using only 562 reinforcement learning steps. Beyond accuracy, EchoInk-R1 demonstrates reflective reasoning by revisiting initial interpretations and refining responses when facing ambiguous multimodal inputs. These results suggest that lightweight reinforcement learning fine-tuning enhances cross-modal reasoning in MLLMs. EchoInk-R1 is the first framework to unify audio, visual, and textual modalities for general open-world reasoning via reinforcement learning. Code and data are publicly released to facilitate further research.

arxiv情報

著者	Zhenghao Xing,Xiaowei Hu,Chi-Wing Fu,Wenhai Wang,Jifeng Dai,Pheng-Ann Heng
発行日	2025-05-07 17:59:49+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー