Efficient Many-Shot In-Context Learning with Dynamic Block-Sparse Attention

要約

多くのショット内の学習学習は、最近、複数のタスクで同じモデルを提供できるという主要な利点をもたらす微調整の代替として有望であることを示しています。
ただし、これにより、計算の負担がトレーニング時間から推論時間にシフトし、多くのショットICLの展開が実践を正当化するのに挑戦します。
このコストは、推論の例ごとにカスタムデモセットが取得された場合、さらに増加し​​ます。
検索ベースの多くのショット内コンテキスト学習のためのトレーニングフリーのフレームワークである動的ブロックスパースの注意を紹介します。
慎重に設計されたブロックスパースの注意とキャッシュされたデモンストレーショングループの検索を組み合わせることにより、強力なICLとフィニティングベースラインにわたる最良の方法の精度の平均を平均して維持しながら、微調整に匹敵する速度ごとの遅延を達成します。
これにより、さらに多くのショットICLが大規模に展開できるようになることを願っています。

要約(オリジナル)

Many-shot in-context learning has recently shown promise as an alternative to finetuning, with the major advantage that the same model can be served for multiple tasks. However, this shifts the computational burden from training-time to inference-time, making deployment of many-shot ICL challenging to justify in-practice. This cost is further increased if a custom demonstration set is retrieved for each inference example. We present Dynamic Block-Sparse Attention, a training-free framework for retrieval-based many-shot in-context learning. By combining carefully designed block-sparse attention and retrieval of cached groups of demonstrations, we achieve comparable per-example latency to finetuning while maintaining on average >95% of the best method’s accuracy across strong ICL and finetuning baselines. We hope that this will further enable the deployment of many-shot ICL at scale.

arxiv情報

著者 Emily Xiao,Chin-Jou Li,Yilin Zhang,Graham Neubig,Amanda Bertsch
発行日 2025-03-11 17:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficient Many-Shot In-Context Learning with Dynamic Block-Sparse Attention はコメントを受け付けていません

Proactive Privacy Amnesia for Large Language Models: Safeguarding PII with Negligible Impact on Model Utility

要約

大規模な言語モデル(LLMS)の台頭により、研究の増加により、悪意のある攻撃の下で個人を特定できる情報(PII)を漏らすリスクが認識されています。
LLMSでPIIを保護するための努力がなされていますが、既存の方法は、プライバシー保護とモデルの有用性の維持のバランスをとるのに苦労しています。
この論文では、認知科学における健忘の研究に触発されたこの論文では、有用性を維持しながらLLMSのPIIを保護するために、新しいアプローチである積極的なプライバシー健忘症(PPA)を提案しています。
このメカニズムは、PIIに最も密接に関連する重要な記憶を順調に特定して忘れて、LLMの機能を維持するために適切な代替メモリを使用して埋め込むメモリが続きます。
一般的なPIIターゲット攻撃に対して、電話番号や物理的な住所などの一般的なPIIを保護するために、複数のモデルで評価を実施し、他の既存の防御技術と比較して、方法の優位性を実証します。
結果は、私たちのPPA法が電話番号への暴露のリスクを100%完全に排除し、物理的な住所暴露のリスクを9.8%から87.6%削減することを示しています。

要約(オリジナル)

With the rise of large language models (LLMs), increasing research has recognized their risk of leaking personally identifiable information (PII) under malicious attacks. Although efforts have been made to protect PII in LLMs, existing methods struggle to balance privacy protection with maintaining model utility. In this paper, inspired by studies of amnesia in cognitive science, we propose a novel approach, Proactive Privacy Amnesia (PPA), to safeguard PII in LLMs while preserving their utility. This mechanism works by actively identifying and forgetting key memories most closely associated with PII in sequences, followed by a memory implanting using suitable substitute memories to maintain the LLM’s functionality. We conduct evaluations across multiple models to protect common PII, such as phone numbers and physical addresses, against prevalent PII-targeted attacks, demonstrating the superiority of our method compared with other existing defensive techniques. The results show that our PPA method completely eliminates the risk of phone number exposure by 100% and significantly reduces the risk of physical address exposure by 9.8% – 87.6%, all while maintaining comparable model utility performance.

arxiv情報

著者 Martin Kuo,Jingyang Zhang,Jianyi Zhang,Minxue Tang,Louis DiValentin,Aolin Ding,Jingwei Sun,William Chen,Amin Hass,Tianlong Chen,Yiran Chen,Hai Li
発行日 2025-03-11 17:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Proactive Privacy Amnesia for Large Language Models: Safeguarding PII with Negligible Impact on Model Utility はコメントを受け付けていません

MastermindEval: A Simple But Scalable Reasoning Benchmark

要約

大規模な言語モデル(LLM)の最近の進歩により、幅広い言語の理解と数学的タスクにわたって顕著なパフォーマンスが発生しました。
その結果、LLMSの真の推論能力の評価に注意が高まっています。
ただし、OpenaiのO1やDeepseekのR1などの推論に焦点を当てたモデルの急速な進歩により、進行中のモデル開発に対応できる推論ベンチマークに対する需要が高まっています。
この論文では、ボードゲームの首謀者に触発されたシンプルでスケーラブルで解釈可能な演ductiveな推論ベンチマークであるMasterMindevalを紹介します。
私たちのベンチマークは、モデルが自律的にゲームを再生するエージェント評価、および(2)推測する可能性のある有効なコードのみを備えた事前にプレイされたゲーム状態を与えられる演ductive的な推論評価の2つの評価パラダイムをサポートしています。
実験結果では、(1)簡単な首謀者インスタンスでさえ現在のモデルにとって困難であることを発見し、(2)ベンチマークが将来的により高度なモデルにとってスケーラブルであることを示しています。さらに、モデルが最終的なソリューションを推定できない理由を調査し、現在のモデルが情報を組み合わせる声明の数として隠されたコードを推定する際に現在のモデルが制限されていることを発見します。

要約(オリジナル)

Recent advancements in large language models (LLMs) have led to remarkable performance across a wide range of language understanding and mathematical tasks. As a result, increasing attention has been given to assessing the true reasoning capabilities of LLMs, driving research into commonsense, numerical, logical, and qualitative reasoning. However, with the rapid progress of reasoning-focused models such as OpenAI’s o1 and DeepSeek’s R1, there has been a growing demand for reasoning benchmarks that can keep pace with ongoing model developments. In this paper, we introduce MastermindEval, a simple, scalable, and interpretable deductive reasoning benchmark inspired by the board game Mastermind. Our benchmark supports two evaluation paradigms: (1) agentic evaluation, in which the model autonomously plays the game, and (2) deductive reasoning evaluation, in which the model is given a pre-played game state with only one possible valid code to infer. In our experimental results we (1) find that even easy Mastermind instances are difficult for current models and (2) demonstrate that the benchmark is scalable to possibly more advanced models in the future Furthermore, we investigate possible reasons why models cannot deduce the final solution and find that current models are limited in deducing the concealed code as the number of statement to combine information from is increasing.

arxiv情報

著者 Jonas Golde,Patrick Haller,Fabio Barth,Alan Akbik
発行日 2025-03-11 17:33:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MastermindEval: A Simple But Scalable Reasoning Benchmark はコメントを受け付けていません

Self-Taught Self-Correction for Small Language Models

要約

大規模な言語モデル(LLM)は、さまざまなタスクで顕著なパフォーマンスを達成していますが、エラーが発生しやすいままです。
重要な課題は、彼らが自己修正できるようにすることです。
以前の研究では、外部ツールまたは大規模な独自モデルに依存していますが、この作業は、自己生成データのみを使用して、反復的な微調整を通じて、小言語モデル(SLM)の自己修正を調査します。
複数のアルゴリズム設計の選択肢を組み込んだ自称自己修正(STASC)アルゴリズムを紹介します。
疑問服を与えるタスクの実験結果は、STASCが効果的に自己修正を学習し、パフォーマンスの大幅な改善につながることを示しています。
私たちの分析はさらに、自己修正のメカニズムと、学習ダイナミクスと全体的なパフォーマンスに対するさまざまな設計選択の影響に関する洞察を提供します。
将来の研究をサポートするために、ユーザーフレンドリーなコードベースと軽量モデルをリリースします。

要約(オリジナル)

Although large language models (LLMs) have achieved remarkable performance across various tasks, they remain prone to errors. A key challenge is enabling them to self-correct. While prior research has relied on external tools or large proprietary models, this work explores self-correction in small language models (SLMs) through iterative fine-tuning using solely self-generated data. We introduce the Self-Taught Self-Correction (STaSC) algorithm, which incorporates multiple algorithmic design choices. Experimental results on a question-answering task demonstrate that STaSC effectively learns self-correction, leading to significant performance improvements. Our analysis further provides insights into the mechanisms of self-correction and the impact of different design choices on learning dynamics and overall performance. To support future research, we release our user-friendly codebase and lightweight models.

arxiv情報

著者 Viktor Moskvoretskii,Chris Biemann,Irina Nikishina
発行日 2025-03-11 17:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Self-Taught Self-Correction for Small Language Models はコメントを受け付けていません

The Semantic Hub Hypothesis: Language Models Share Semantic Representations Across Languages and Modalities

要約

最新の言語モデルは、多様な言語とモダリティにわたって入力を処理できます。
モデルは、異なるモダリティ/言語からであっても、意味的に類似した入力を互いに近くに配置する不均一なデータ型(例:異なる言語やモダリティなど)で共有表現スペースを学習することでこの機能を獲得すると仮定します。
これは、人間の脳のセマンティック知識が、さまざまなモダリティ固有の「スポーク」地域からの情報を統合するトランスモーダルセマンティック「ハブ」を介して組織されていると仮定する神経科学のハブアンドスポークモデル(Patterson et al。、2007)に従って、セマンティックハブ仮説と呼んでいます。
最初に、異なる言語での意味的に同等の入力のモデル表現が中間層で類似しており、この空間はロジットレンズを介してモデルの支配的な前登録言語を使用して解釈できることを示します。
この傾向は、算術式、コード、視覚/オーディオ入力など、他のデータ型に拡張されます。
1つのデータ型の共有表現スペースの介入は、他のデータ型のモデル出力にも予測可能に影響し、この共有表現スペースは単に幅広いデータ上の大規模なトレーニングの痕跡副産物ではなく、入力処理中にモデルによって積極的に利用されるものであることを示唆しています。

要約(オリジナル)

Modern language models can process inputs across diverse languages and modalities. We hypothesize that models acquire this capability through learning a shared representation space across heterogeneous data types (e.g., different languages and modalities), which places semantically similar inputs near one another, even if they are from different modalities/languages. We term this the semantic hub hypothesis, following the hub-and-spoke model from neuroscience (Patterson et al., 2007) which posits that semantic knowledge in the human brain is organized through a transmodal semantic ‘hub’ which integrates information from various modality-specific ‘spokes’ regions. We first show that model representations for semantically equivalent inputs in different languages are similar in the intermediate layers, and that this space can be interpreted using the model’s dominant pretraining language via the logit lens. This tendency extends to other data types, including arithmetic expressions, code, and visual/audio inputs. Interventions in the shared representation space in one data type also predictably affect model outputs in other data types, suggesting that this shared representations space is not simply a vestigial byproduct of large-scale training on broad data, but something that is actively utilized by the model during input processing.

arxiv情報

著者 Zhaofeng Wu,Xinyan Velocity Yu,Dani Yogatama,Jiasen Lu,Yoon Kim
発行日 2025-03-11 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Semantic Hub Hypothesis: Language Models Share Semantic Representations Across Languages and Modalities はコメントを受け付けていません

KinMo: Kinematic-aware Human Motion Understanding and Generation

要約

現在の人間のモーション合成フレームワークは、グローバルなアクションの説明に依存しており、モーション理解と生成能力の両方を制限するモダリティギャップを作成します。
「実行」などの単一の粗い説明は、速度、四肢の位置、運動のダイナミクスのバリエーションなどの詳細をキャプチャできず、テキストとモーションモダリティの曖昧さにつながります。
この課題に対処するために、\ textBf {kinmo}を導入します。これは、運動学的グループの動きとその相互作用を組み込むことでグローバルなアクションを超えて拡張する階層的な記述可能なモーション表現に基づいて構築された統一されたフレームワークです。
この分解のための高品質で微粒の説明を生成するために、自動アノテーションパイプラインを設計し、Kinmoデータセットになります。
これらの構造化された説明を活用するために、階層的なテキストモーションアラインメントを提案し、追加のモーションの詳細を統合することにより空間的理解を改善します。
さらに、粗からファインの生成手順を導入して、強化された空間理解を活用してモーション合成を改善します。
実験結果は、キンモが動きの理解を大幅に改善することを示しており、テキストモーションの検索パフォーマンスの向上と、より微細なモーション生成と編集機能を可能にすることによって実証されています。
プロジェクトページ:https://andypinxinliu.github.io/kinmo

要約(オリジナル)

Current human motion synthesis frameworks rely on global action descriptions, creating a modality gap that limits both motion understanding and generation capabilities. A single coarse description, such as “run’, fails to capture details like variations in speed, limb positioning, and kinematic dynamics, leading to ambiguities between text and motion modalities. To address this challenge, we introduce \textbf{KinMo}, a unified framework built on a hierarchical describable motion representation that extends beyond global action by incorporating kinematic group movements and their interactions. We design an automated annotation pipeline to generate high-quality, fine-grained descriptions for this decomposition, resulting in the KinMo dataset. To leverage these structured descriptions, we propose Hierarchical Text-Motion Alignment, improving spatial understanding by integrating additional motion details. Furthermore, we introduce a coarse-to-fine generation procedure to leverage enhanced spatial understanding to improve motion synthesis. Experimental results show that KinMo significantly improves motion understanding, demonstrated by enhanced text-motion retrieval performance and enabling more fine-grained motion generation and editing capabilities. Project Page: https://andypinxinliu.github.io/KinMo

arxiv情報

著者 Pengfei Zhang,Pinxin Liu,Hyeongwoo Kim,Pablo Garrido,Bindita Chaudhuri
発行日 2025-03-11 14:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | KinMo: Kinematic-aware Human Motion Understanding and Generation はコメントを受け付けていません

A Triple-Inertial Accelerated Alternating Optimization Method for Deep Learning Training

要約

確率的勾配降下(SGD)アルゴリズムは、ディープラーニングモデルのトレーニングにおいて驚くべき成功を収めています。
ただし、勾配の消失に対する感受性、入力データに対する感度、堅牢な理論的保証の欠如など、いくつかの制限があります。
近年、勾配のないアプローチを採用してモデルパラメーターを繰り返し更新することにより、モデルトレーニングの有望な代替手段として、交互の最小化(AM)メソッドが浮上しています。
その可能性にもかかわらず、これらの方法はしばしば遅い収束率を示します。
この課題に対処するために、ニューラルネットワークトレーニングのための新しいトリプルインチール型加速交互の最小化(TIAM)フレームワークを提案します。
TIAMアプローチには、特殊な近似法を備えたトリプルインチール型加速戦略が組み込まれており、各サブ問題の最適化における異なる用語のターゲット加速度を促進します。
この統合により、収束の効率が向上し、繰り返しが少ないと優れたパフォーマンスを達成します。
さらに、グローバルな収束特性と収束率を含むTIAMアルゴリズムの収束分析を提供します。
広範な実験は、TIAMメソッドの有効性を検証し、既存のアプローチと比較して、一般化能力と計算効率の大幅な改善を示しています。

要約(オリジナル)

The stochastic gradient descent (SGD) algorithm has achieved remarkable success in training deep learning models. However, it has several limitations, including susceptibility to vanishing gradients, sensitivity to input data, and a lack of robust theoretical guarantees. In recent years, alternating minimization (AM) methods have emerged as a promising alternative for model training by employing gradient-free approaches to iteratively update model parameters. Despite their potential, these methods often exhibit slow convergence rates. To address this challenge, we propose a novel Triple-Inertial Accelerated Alternating Minimization (TIAM) framework for neural network training. The TIAM approach incorporates a triple-inertial acceleration strategy with a specialized approximation method, facilitating targeted acceleration of different terms in each sub-problem optimization. This integration improves the efficiency of convergence, achieving superior performance with fewer iterations. Additionally, we provide a convergence analysis of the TIAM algorithm, including its global convergence properties and convergence rate. Extensive experiments validate the effectiveness of the TIAM method, showing significant improvements in generalization capability and computational efficiency compared to existing approaches, particularly when applied to the rectified linear unit (ReLU) and its variants.

arxiv情報

著者 Chengcheng Yan,Jiawei Xu,Qingsong Wang,Zheng Peng
発行日 2025-03-11 14:42:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Triple-Inertial Accelerated Alternating Optimization Method for Deep Learning Training はコメントを受け付けていません

Chemistry-Inspired Diffusion with Non-Differentiable Guidance

要約

拡散モデルの最近の進歩は、新規分子の条件付き生成において顕著な可能性を示しています。
これらのモデルは、2つの方法でガイドできます。(i)条件を表す追加機能を明示的に、または(ii)暗黙的にプロパティ予測子を使用してガイドできます。
ただし、トレーニングプロパティの予測因子または条件付き拡散モデルには、豊富なラベル付きデータが必要であり、実際のアプリケーションでは本質的に困難です。
無条件の拡散モデルを導くために、Quantum Chemistryからのドメイン知識をQuantum Chemistryからのドメイン知識を活用することにより、大規模なラベル付きデータセットを取得することの制限を減衰させる新しいアプローチを提案します。
神経ネットワークに依存する代わりに、Oracleは推定勾配の形で正確なガイダンスを提供し、量子化学によって指定された条件分布から拡散プロセスをサンプリングできるようにします。
これが、より正確な条件付きの新規および安定した分子構造をもたらすことを示します。
私たちの実験は、私たちの方法が次のことを示しています。(1)原子力を大幅に減らし、安定性の最適化に使用すると生成された分子の妥当性を高めます。
(2)拡散モデルにおける明示的および暗黙的なガイダンスの両方と互換性があり、分子特性と安定性の共同最適化を可能にします。
(3)安定性の最適化を超えた分子最適化タスクに効果的に一般化します。

要約(オリジナル)

Recent advances in diffusion models have shown remarkable potential in the conditional generation of novel molecules. These models can be guided in two ways: (i) explicitly, through additional features representing the condition, or (ii) implicitly, using a property predictor. However, training property predictors or conditional diffusion models requires an abundance of labeled data and is inherently challenging in real-world applications. We propose a novel approach that attenuates the limitations of acquiring large labeled datasets by leveraging domain knowledge from quantum chemistry as a non-differentiable oracle to guide an unconditional diffusion model. Instead of relying on neural networks, the oracle provides accurate guidance in the form of estimated gradients, allowing the diffusion process to sample from a conditional distribution specified by quantum chemistry. We show that this results in more precise conditional generation of novel and stable molecular structures. Our experiments demonstrate that our method: (1) significantly reduces atomic forces, enhancing the validity of generated molecules when used for stability optimization; (2) is compatible with both explicit and implicit guidance in diffusion models, enabling joint optimization of molecular properties and stability; and (3) generalizes effectively to molecular optimization tasks beyond stability optimization.

arxiv情報

著者 Yuchen Shen,Chenhao Zhang,Sijie Fu,Chenghui Zhou,Newell Washburn,Barnabás Póczos
発行日 2025-03-11 14:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Chemistry-Inspired Diffusion with Non-Differentiable Guidance はコメントを受け付けていません

Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection

要約

カメラベースのマルチビュー3D検出は、低コストと幅広い適用性により、自律運転の魅力的なソリューションとして浮上しています。
ただし、3D認識ベンチマークでのPETRベースのメソッドの強力なパフォーマンスにもかかわらず、オンボード展開の直接的なINT8量子化により、MAPで58.2%、NDSで36.9%に劇的な精度が低下します。
この作業では、PETRフレームワークの重要なコンポーネントを再設計し、位置エンコーディングと画像機能の動的範囲間の矛盾を調整し、低ビットの推論のためのクロスアテナンスメカニズムを適応させるために、PETRフレームワークの重要なコンポーネントを埋め込む量子化を意識した位置であるQ-PERTを提案します。
位置エンコーディングモジュールを再設計し、適応量子化戦略を導入することにより、Q-PETRは、トレーニング後の標準8ビットの標準8ビットで1%未満のパフォーマンス分解で浮動小数点パフォーマンスを維持します。
さらに、FP32のカウンターパートと比較して、Q-PETRは2倍のスピードアップを達成し、メモリ使用量を3回削減し、リソースに制約のあるオンボードデバイス用の展開に優しいソリューションを提供します。
さまざまなPETRシリーズモデルにわたる広範な実験は、アプローチの強力な一般化と実用的な利点を検証します。

要約(オリジナル)

Camera-based multi-view 3D detection has emerged as an attractive solution for autonomous driving due to its low cost and broad applicability. However, despite the strong performance of PETR-based methods in 3D perception benchmarks, their direct INT8 quantization for onboard deployment leads to drastic accuracy drops-up to 58.2% in mAP and 36.9% in NDS on the NuScenes dataset. In this work, we propose Q-PETR, a quantization-aware position embedding transformation that re-engineers key components of the PETR framework to reconcile the discrepancy between the dynamic ranges of positional encodings and image features, and to adapt the cross-attention mechanism for low-bit inference. By redesigning the positional encoding module and introducing an adaptive quantization strategy, Q-PETR maintains floating-point performance with a performance degradation of less than 1% under standard 8-bit per-tensor post-training quantization. Moreover, compared to its FP32 counterpart, Q-PETR achieves a two-fold speedup and reduces memory usage by three times, thereby offering a deployment-friendly solution for resource-constrained onboard devices. Extensive experiments across various PETR-series models validate the strong generalization and practical benefits of our approach.

arxiv情報

著者 Jiangyong Yu,Changyong Shu,Dawei Yang,Sifan Zhou,Zichen Yu,Xing Hu,Yan Chen
発行日 2025-03-11 15:05:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection はコメントを受け付けていません

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

要約

検証可能な結果報酬(RLVR)による補強学習は、大規模な言語モデル(LLMS)のチェーンオブ考え(COT)の推論を効果的に拡大しました。
しかし、視覚環境での目標指向アクション推論に対する視覚言語モデル(VLM)エージェントのトレーニングにおけるその有効性はあまり確立されていません。
この作業は、24ポイントなどの複雑なカードゲームに関する広範な実験と、Alfworldからの具体化されたタスクを通じてこの問題を調査しています。
報酬がアクションの結果のみに基づいている場合、RLはVLMSのCOT推論を奨励することができず、代わりに、エージェントの思考の多様性の急速な喪失、国家releventと不完全な推論、およびその後の無効な行動を迅速に否定的に否定することを特徴とする思考崩壊と呼ばれる現象につながることがわかります。
思考崩壊に対抗するために、プロセスガイダンスの必要性を強調し、各RLステップでエージェントの推論を評価および改良する自動化された補正装置を提案します。
このシンプルでスケーラブルなGTR(ガイド付き思考強化)フレームワークは、密集した、ステップごとの人間のラベル付けを必要とせずに、同時に推論と行動を訓練します。
我々の実験は、GTRがさまざまな視覚環境でLLAVA-7Bモデルのパフォーマンスと一般化を大幅に向上させ、モデルサイズが顕著なSOTAモデルと比較して3〜5倍高いタスク成功率を達成することを示しています。

要約(オリジナル)

Reinforcement learning with verifiable outcome rewards (RLVR) has effectively scaled up chain-of-thought (CoT) reasoning in large language models (LLMs). Yet, its efficacy in training vision-language model (VLM) agents for goal-directed action reasoning in visual environments is less established. This work investigates this problem through extensive experiments on complex card games, such as 24 points, and embodied tasks from ALFWorld. We find that when rewards are based solely on action outcomes, RL fails to incentivize CoT reasoning in VLMs, instead leading to a phenomenon we termed thought collapse, characterized by a rapid loss of diversity in the agent’s thoughts, state-irrelevant and incomplete reasoning, and subsequent invalid actions, resulting in negative rewards. To counteract thought collapse, we highlight the necessity of process guidance and propose an automated corrector that evaluates and refines the agent’s reasoning at each RL step. This simple and scalable GTR (Guided Thought Reinforcement) framework trains reasoning and action simultaneously without the need for dense, per-step human labeling. Our experiments demonstrate that GTR significantly enhances the performance and generalization of the LLaVA-7b model across various visual environments, achieving 3-5 times higher task success rates compared to SoTA models with notably smaller model sizes.

arxiv情報

著者 Tong Wei,Yijun Yang,Junliang Xing,Yuanchun Shi,Zongqing Lu,Deheng Ye
発行日 2025-03-11 15:17:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training はコメントを受け付けていません