SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning

要約

最近の研究は、Rehnecortion Learning(RL)が、「答える前に考える」ように促すことにより、大規模な言語モデル(LLM)の推論能力を著しく研ぎ澄ますことができることを示しています。
しかし、これらの利益がオーディオ言語の推論に移行するかどうか、どのように移行するかはほとんど未開拓のままです。
グループ相関ポリシー最適化(GRPO)フレームワークをDeepSeek-R1から大規模なオーディオ言語モデル(LALM)に拡張し、32Kサンプル多重選択コーパスを構築します。
構造化された構造化および非構造化されていないチェーンチェーンで監視された2段階のレジメンを使用して、カリキュラム誘導GRPOを使用して、暗黙的と明示的な推論と構造化とフリーフォームの推論を体系的に比較します。
私たちの構造化されたオーディオ推論モデルであるSARI(カリキュラム誘導補強学習による構造化されたオーディオ推論)は、基本モデルQWEN2-Audio-7B-instructで平均精度が16.35%改善されます。
さらに、QWEN2.5-OMNI上に構築されたバリアントは、MMAUテストMINIベンチマークで67.08%の最先端のパフォーマンスに達します。
アブレーション実験は、基本モデルで使用することを示しています。(i)SFTウォームアップは安定したRLトレーニングに重要であり、(ii)構造化されたチェーンが非構造化されたものよりも堅牢な一般化、および(iii)ハードカリキュラムの収束を加速し、最終パフォーマンスを改善することを示しています。
これらの調査結果は、明示的で構造化された推論とカリキュラムの学習が、音声言語の理解を大幅に向上させることを示しています。

要約(オリジナル)

Recent work shows that reinforcement learning(RL) can markedly sharpen the reasoning ability of large language models (LLMs) by prompting them to ‘think before answering.’ Yet whether and how these gains transfer to audio-language reasoning remains largely unexplored. We extend the Group-Relative Policy Optimization (GRPO) framework from DeepSeek-R1 to a Large Audio-Language Model (LALM), and construct a 32k sample multiple-choice corpus. Using a two-stage regimen supervised fine-tuning on structured and unstructured chains-of-thought, followed by curriculum-guided GRPO, we systematically compare implicit vs. explicit, and structured vs. free form reasoning under identical architectures. Our structured audio reasoning model, SARI (Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning), achieves a 16.35% improvement in average accuracy over the base model Qwen2-Audio-7B-Instruct. Furthermore, the variant built upon Qwen2.5-Omni reaches state-of-the-art performance of 67.08% on the MMAU test-mini benchmark. Ablation experiments show that on the base model we use: (i) SFT warm-up is important for stable RL training, (ii) structured chains yield more robust generalization than unstructured ones, and (iii) easy-to-hard curricula accelerate convergence and improve final performance. These findings demonstrate that explicit, structured reasoning and curriculum learning substantially enhances audio-language understanding.

arxiv情報

著者 Cheng Wen,Tingwei Guo,Shuaijiang Zhao,Wei Zou,Xiangang Li
発行日 2025-04-22 13:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク