AlphaGrad: Non-Linear Gradient Normalization Optimizer

要約

Adamのような適応方法のメモリオーバーヘッドとハイパーパラメーターの複雑さに対処する、メモリ効率の高い条件付きのステートレスオプティマイザーであるAlphagradを紹介します。
Alphagradは、テンソルごとのL2勾配の正規化を介してスケール不変性を強制し、それに続いて滑らかな双曲線の接線変換、$ g ‘= \ tanh(\ alpha \ cdot \ tilde {g})$、単一の急勾配パラメーター$ \ alpha $によって制御されます。
私たちの貢献には、次のものが含まれます。(1)アルファグラードアルゴリズムの定式化。
(2)定常性を保証する正式な非凸収束分析。
(3)多様なRLベンチマーク(DQN、TD3、PPO)に関する広範な経験的評価。
Adamと比較して、Alphagradは、コンテキスト依存性の高いパフォーマンスプロファイルを示しています。
オフポリシーDQNで不安定性を示している間、TD3(慎重な$ \ alpha $チューニングが必要)で競争力のある結果を伴うトレーニング安定性の向上を提供し、オンポリシーPPOで実質的に優れたパフォーマンスを達成します。
これらの結果は、経験的な$ \ alpha $選択の重要な重要性を強調し、オプティマイザーのダイナミクスと基礎となるRLアルゴリズムとの強い相互作用を明らかにします。
Alphagradは、メモリが制約されたシナリオに魅力的な代替オプティマイザーを提示し、その安定性と効率の利点が特に影響を与える可能性のあるポリシー学習体制に大きな約束を示しています。

要約(オリジナル)

We introduce AlphaGrad, a memory-efficient, conditionally stateless optimizer addressing the memory overhead and hyperparameter complexity of adaptive methods like Adam. AlphaGrad enforces scale invariance via tensor-wise L2 gradient normalization followed by a smooth hyperbolic tangent transformation, $g’ = \tanh(\alpha \cdot \tilde{g})$, controlled by a single steepness parameter $\alpha$. Our contributions include: (1) the AlphaGrad algorithm formulation; (2) a formal non-convex convergence analysis guaranteeing stationarity; (3) extensive empirical evaluation on diverse RL benchmarks (DQN, TD3, PPO). Compared to Adam, AlphaGrad demonstrates a highly context-dependent performance profile. While exhibiting instability in off-policy DQN, it provides enhanced training stability with competitive results in TD3 (requiring careful $\alpha$ tuning) and achieves substantially superior performance in on-policy PPO. These results underscore the critical importance of empirical $\alpha$ selection, revealing strong interactions between the optimizer’s dynamics and the underlying RL algorithm. AlphaGrad presents a compelling alternative optimizer for memory-constrained scenarios and shows significant promise for on-policy learning regimes where its stability and efficiency advantages can be particularly impactful.

arxiv情報

著者 Soham Sane
発行日 2025-04-22 16:33:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, stat.ML | AlphaGrad: Non-Linear Gradient Normalization Optimizer はコメントを受け付けていません

Navigating the State of Cognitive Flow: Context-Aware AI Interventions for Effective Reasoning Support

要約

フロー理論は、タスクの困難がスキルレベルと一致するときに、個人が深い焦点と固有の動機を経験する最適な認知状態を表します。
Ai-Aigmentedの推論では、認知的流れの状態を混乱させる介入は、意思決定を強化するのではなく、妨害する可能性があります。
このペーパーでは、タイプ、タイミング、スケールという3つの重要なコンテキスト要因に基づいて介入を適応させるコンテキスト認識の認知増強フレームワークを提案します。
マルチモーダルの行動キュー(視線の動作、タイピングのためらう、相互作用速度など)を活用することにより、AIは認知サポートを動的に調整して、流れを維持または回復することができます。
介入がパーソナライズされ、適応性があり、最小限に侵入されているAi-Augmented Reasoningにおける流れ理論の拡張、認知流の概念を紹介します。
静的介入からコンテキスト認識の増強にシフトすることにより、AIシステムは、認知的没入を混乱させることなく、複雑な意思決定と推論への深い関与をサポートすることを保証します。

要約(オリジナル)

Flow theory describes an optimal cognitive state where individuals experience deep focus and intrinsic motivation when a task’s difficulty aligns with their skill level. In AI-augmented reasoning, interventions that disrupt the state of cognitive flow can hinder rather than enhance decision-making. This paper proposes a context-aware cognitive augmentation framework that adapts interventions based on three key contextual factors: type, timing, and scale. By leveraging multimodal behavioral cues (e.g., gaze behavior, typing hesitation, interaction speed), AI can dynamically adjust cognitive support to maintain or restore flow. We introduce the concept of cognitive flow, an extension of flow theory in AI-augmented reasoning, where interventions are personalized, adaptive, and minimally intrusive. By shifting from static interventions to context-aware augmentation, our approach ensures that AI systems support deep engagement in complex decision-making and reasoning without disrupting cognitive immersion.

arxiv情報

著者 Dinithi Dissanayake,Suranga Nanayakkara
発行日 2025-04-22 16:35:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Navigating the State of Cognitive Flow: Context-Aware AI Interventions for Effective Reasoning Support はコメントを受け付けていません

Trends in AI Supercomputers

要約

フロンティアAI開発は強力なAIスーパーコンピューターに依存していますが、これらのシステムの分析は限られています。
2019年から2025年までの500 AIスーパーコンピューターのデータセットを作成し、パフォーマンス、電力ニーズ、ハードウェアコスト、所有権、およびグローバルディストリビューションの重要な傾向を分析します。
AIスーパーコンピューターの計算パフォーマンスは9か月ごとに2倍になり、ハードウェアの取得コストと電力のニーズは両方とも毎年2倍になっています。
2025年3月の主要なシステムであるXaiのColossusは、200,000 AIチップを使用し、ハードウェアコストが7億ドルで、250,000世帯もの300 MWの電力が必要でした。
AIスーパーコンピューターが科学のためのツールから産業機械に進化したため、企業はAIスーパーコンピューターの合計パフォーマンスのシェアを急速に拡大し、政府と学界のシェアは減少しました。
世界的に、米国はデータセットの総パフォーマンスの約75%を占めており、中国は15%で2位になりました。
観察された傾向が続くと、2030年の大手AIスーパーコンピューターは$ 2 \ Times10^{22} $ 16ビットフロップ/sを達成し、200万のAIチップを使用し、ハードウェアコストが2,000億ドルで、9 GWの電力が必要です。
私たちの分析は、AIスーパーコンピューターのランドスケープへの可視性を提供し、政策立案者がリソースのニーズ、所有権、国家の競争力などの重要なAIの傾向を評価できるようにします。

要約(オリジナル)

Frontier AI development relies on powerful AI supercomputers, yet analysis of these systems is limited. We create a dataset of 500 AI supercomputers from 2019 to 2025 and analyze key trends in performance, power needs, hardware cost, ownership, and global distribution. We find that the computational performance of AI supercomputers has doubled every nine months, while hardware acquisition cost and power needs both doubled every year. The leading system in March 2025, xAI’s Colossus, used 200,000 AI chips, had a hardware cost of \$7B, and required 300 MW of power, as much as 250,000 households. As AI supercomputers evolved from tools for science to industrial machines, companies rapidly expanded their share of total AI supercomputer performance, while the share of governments and academia diminished. Globally, the United States accounts for about 75% of total performance in our dataset, with China in second place at 15%. If the observed trends continue, the leading AI supercomputer in 2030 will achieve $2\times10^{22}$ 16-bit FLOP/s, use two million AI chips, have a hardware cost of \$200 billion, and require 9 GW of power. Our analysis provides visibility into the AI supercomputer landscape, allowing policymakers to assess key AI trends like resource needs, ownership, and national competitiveness.

arxiv情報

著者 Konstantin F. Pilz,James Sanders,Robi Rahman,Lennart Heim
発行日 2025-04-22 16:44:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Trends in AI Supercomputers はコメントを受け付けていません

Benchmarking LLM for Code Smells Detection: OpenAI GPT-4.0 vs DeepSeek-V3

要約

コード匂いの検出のための最も効果的な大きな言語モデルを決定することは、複雑な課題を提示します。
この研究では、この問題に取り組むために構造化された方法論と評価マトリックスを導入し、既知の臭いと一貫して注釈を付けられたコードサンプルのキュレーションデータセットを活用します。
データセットは、4つの著名なプログラミング言語Java、Python、JavaScript、およびC ++にまたがっています。
クロス言語の比較を可能にします。
Precision、Recall、およびF1スコアを評価メトリックとして使用して、2つの最先端のLLMS、Openai GPT 4.0およびDeepSeek-V3をベンチマークします。
分析では、全体的なパフォーマンス、カテゴリレベルのパフォーマンス、個々のコード臭いタイプのパフォーマンスの3つのレベルの詳細について説明します。
さらに、GPT 4.0のトークンベースの検出アプローチとDeepSeek V3が採用したパターンマッチング手法と比較することにより、費用対効果を探ります。
この研究には、Sonarqubeなどの従来の静的分析ツールに関連するコスト分析も含まれています。
調査結果は、自動化されたコード臭い検出のための効率的で費用対効果の高いソリューションを選択する際に開業医に貴重なガイダンスを提供します

要約(オリジナル)

Determining the most effective Large Language Model for code smell detection presents a complex challenge. This study introduces a structured methodology and evaluation matrix to tackle this issue, leveraging a curated dataset of code samples consistently annotated with known smells. The dataset spans four prominent programming languages Java, Python, JavaScript, and C++; allowing for cross language comparison. We benchmark two state of the art LLMs, OpenAI GPT 4.0 and DeepSeek-V3, using precision, recall, and F1 score as evaluation metrics. Our analysis covers three levels of detail: overall performance, category level performance, and individual code smell type performance. Additionally, we explore cost effectiveness by comparing the token based detection approach of GPT 4.0 with the pattern-matching techniques employed by DeepSeek V3. The study also includes a cost analysis relative to traditional static analysis tools such as SonarQube. The findings offer valuable guidance for practitioners in selecting an efficient, cost effective solution for automated code smell detection

arxiv情報

著者 Ahmed R. Sadik,Siddhata Govind
発行日 2025-04-22 16:44:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PL, cs.SE | Benchmarking LLM for Code Smells Detection: OpenAI GPT-4.0 vs DeepSeek-V3 はコメントを受け付けていません

A Conceptual Model for Attributions in Event-Centric Knowledge Graphs

要約

知識グラフ(KG)からの情報を一貫した議論の線に融合させる手段としての物語の使用は、最近の調査の対象となっています。
物語は、イベント中心の知識グラフで特に役立ちます。これは、さまざまな現実世界のイベントを接続し、よく知られているナレーションによって分類する手段を提供するという点で役立ちます。
ただし、特に物議を醸す出来事の場合、情報融合の問題が発生します。つまり、特定のイベントの側面の妥当性に関する複数の視点、たとえば、イベントで参加者が課す役割に関して存在する可能性があります。
異なる視点から提供される紛争情報が矛盾をもたらす可能性があるため、KGSでこれらの視点を表現することは困難です。
したがって、ほとんどのKGは、含まれる情報に関する単一のビューのみを備えており、物語の情報アクセスの有効性を妨げています。
このペーパーは、当社の元の作品の拡張であり、属性を紹介します。つまり、特定の視点でのみ有効な事実の表現を可能にするパラメーター化された述語です。
このために、視点依存情報の表現を可能にする概念モデルを開発します。
拡張機能として、視点互換性の概念によりモデルを強化します。
これに基づいて、情報融合に対するモデルの影響に関する元の審議を深め、文献に追加の基礎を提供します。

要約(オリジナル)

The use of narratives as a means of fusing information from knowledge graphs (KGs) into a coherent line of argumentation has been the subject of recent investigation. Narratives are especially useful in event-centric knowledge graphs in that they provide a means to connect different real-world events and categorize them by well-known narrations. However, specifically for controversial events, a problem in information fusion arises, namely, multiple viewpoints regarding the validity of certain event aspects, e.g., regarding the role a participant takes in an event, may exist. Expressing those viewpoints in KGs is challenging because disputed information provided by different viewpoints may introduce inconsistencies. Hence, most KGs only feature a single view on the contained information, hampering the effectiveness of narrative information access. This paper is an extension of our original work and introduces attributions, i.e., parameterized predicates that allow for the representation of facts that are only valid in a specific viewpoint. For this, we develop a conceptual model that allows for the representation of viewpoint-dependent information. As an extension, we enhance the model by a conception of viewpoint-compatibility. Based on this, we deepen our original deliberations on the model’s effects on information fusion and provide additional grounding in the literature.

arxiv情報

著者 Florian Plötzky,Katarina Britz,Wolf-Tilo Balke
発行日 2025-04-22 16:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | A Conceptual Model for Attributions in Event-Centric Knowledge Graphs はコメントを受け付けていません

LLMs meet Federated Learning for Scalable and Secure IoT Management

要約

IoTエコシステムの急速な拡大は、スケーラビリティ、セキュリティ、およびリアルタイムの意思決定に深刻な課題をもたらします。
従来の集中的なアーキテクチャは、遅延、プライバシーの懸念、過度のリソース消費に苦労しており、最新の大規模なIoT展開には適していません。
このホワイトペーパーでは、データプライバシーと計算効率を確保しながらIoTシステムインテリジェンスを強化するように設計された、新しいフェデレートレーニング駆動型の大手言語モデル(FL-LLM)フレームワークを紹介します。
このフレームワークは、勾配センシングフェデレーション戦略(GSFS)と生成IoT(GIOT)モデルを統合し、リアルタイムネットワーク条件に基づいてモデルの更新を動的に最適化します。
ハイブリッドエッジクラウド処理アーキテクチャを活用することにより、当社のアプローチは、分散型IoT環境のインテリジェンス、スケーラビリティ、セキュリティのバランスを取ります。
IoT-23データセットの評価は、私たちのフレームワークがモデルの精度を改善し、応答の遅延を低下させ、エネルギー効率を高めることを示しています。
これらの調査結果は、LLMを搭載したフェデレーション学習を大規模なIoTエコシステムに統合する可能性を強調し、より安全でスケーラブルな、適応性のあるIoT管理ソリューションへの道を開いています。

要約(オリジナル)

The rapid expansion of IoT ecosystems introduces severe challenges in scalability, security, and real-time decision-making. Traditional centralized architectures struggle with latency, privacy concerns, and excessive resource consumption, making them unsuitable for modern large-scale IoT deployments. This paper presents a novel Federated Learning-driven Large Language Model (FL-LLM) framework, designed to enhance IoT system intelligence while ensuring data privacy and computational efficiency. The framework integrates Generative IoT (GIoT) models with a Gradient Sensing Federated Strategy (GSFS), dynamically optimizing model updates based on real-time network conditions. By leveraging a hybrid edge-cloud processing architecture, our approach balances intelligence, scalability, and security in distributed IoT environments. Evaluations on the IoT-23 dataset demonstrate that our framework improves model accuracy, reduces response latency, and enhances energy efficiency, outperforming traditional FL techniques (i.e., FedAvg, FedOpt). These findings highlight the potential of integrating LLM-powered federated learning into large-scale IoT ecosystems, paving the way for more secure, scalable, and adaptive IoT management solutions.

arxiv情報

著者 Yazan Otoum,Arghavan Asad,Amiya Nayak
発行日 2025-04-22 16:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.LG | LLMs meet Federated Learning for Scalable and Secure IoT Management はコメントを受け付けていません

Muon Optimizer Accelerates Grokking

要約

このホワイトペーパーでは、モデルが遅延した一般化を示すグローキング現象に対するさまざまなオプティマイザーの影響を調査します。
最新の変圧器アーキテクチャを使用して、7つの数値タスク(主にモジュラー算術)で実験を実施しました。
実験的構成は、オプティマイザー(Muon vs. Adamw)とSoftMaxアクティベーション関数(標準SoftMax、StableMax、およびSparsemax)を体系的に変化させ、学習ダイナミクスに対するそれらの組み合わせ効果を評価しました。
私たちの経験的評価は、スペクトル規範の制約と2次情報の使用を特徴とするMuonオプティマイザーが、広く使用されているAdamWオプティマイザーと比較して、グラッキングの開始を大幅に加速することを明らかにしています。
具体的には、Muonはすべての構成にわたって平均グローキングエポックを153.09から102.89に減らし、統計的に有意な差を減らしました(T = 5.0175、P = 6.33E-08)。
これは、オプティマイザーの選択が、暗記から一般化への移行を促進する上で重要な役割を果たすことを示唆しています。

要約(オリジナル)

This paper investigates the impact of different optimizers on the grokking phenomenon, where models exhibit delayed generalization. We conducted experiments across seven numerical tasks (primarily modular arithmetic) using a modern Transformer architecture. The experimental configuration systematically varied the optimizer (Muon vs. AdamW) and the softmax activation function (standard softmax, stablemax, and sparsemax) to assess their combined effect on learning dynamics. Our empirical evaluation reveals that the Muon optimizer, characterized by its use of spectral norm constraints and second-order information, significantly accelerates the onset of grokking compared to the widely used AdamW optimizer. Specifically, Muon reduced the mean grokking epoch from 153.09 to 102.89 across all configurations, a statistically significant difference (t = 5.0175, p = 6.33e-08). This suggests that the optimizer choice plays a crucial role in facilitating the transition from memorization to generalization.

arxiv情報

著者 Amund Tveit,Bjørn Remseth,Arve Skogvold
発行日 2025-04-22 17:08:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2 | Muon Optimizer Accelerates Grokking はコメントを受け付けていません

Approximate matrices of systems of max-min fuzzy relational equations

要約

この記事では、一貫性を実現するためにシステムを管理するマトリックスを最小限に変更することにより、最大ミンファジーリレーショナル方程式のシステムの矛盾に対処します。
私たちの方法は、次の意味で元の一貫性のないシステムを近似する一貫したシステムを生成します。各一貫したシステムの右側ベクトルは一貫性のないシステムのものであり、各一貫したシステムを支配するマトリックスの係数は、最小限に修正することで取得されます。
考慮された一貫性のないシステムに密接に近似する一貫したシステムを取得するために、一貫性のないシステムのマトリックスと、同じ右側のベクトルを使用する一貫したシステムの行列によって形成されたセットによって形成されたセットによって形成されたセットの間の距離($ l_1 $、$ l_2 $ or $ l_ \ infty $の範囲の観点から)を研究します。
私たちの方法により、$ l_ \ infty $ normの距離が一貫性のないシステムのマトリックスに距離が最小限である一貫性のないシステムと同じ右側ベクトルを使用する一貫したシステムのマトリックスを直接計算できることを示します($ l_1 $ normまたは$ l_2 $ normを使用する場合、計算コストが高くなります)。
また、この最小限の$ l_ \ infty $距離を計算するための明示的な分析式も提供します。
最後に、Min-Maxファジーリレーショナル方程式のシステムの結果を翻訳し、いくつかの潜在的なアプリケーションを提示します。

要約(オリジナル)

In this article, we address the inconsistency of a system of max-min fuzzy relational equations by minimally modifying the matrix governing the system in order to achieve consistency. Our method yields consistent systems that approximate the original inconsistent system in the following sense: the right-hand side vector of each consistent system is that of the inconsistent system, and the coefficients of the matrix governing each consistent system are obtained by modifying, exactly and minimally, the entries of the original matrix that must be corrected to achieve consistency, while leaving all other entries unchanged. To obtain a consistent system that closely approximates the considered inconsistent system, we study the distance (in terms of a norm among $L_1$, $L_2$ or $L_\infty$) between the matrix of the inconsistent system and the set formed by the matrices of consistent systems that use the same right-hand side vector as the inconsistent system. We show that our method allows us to directly compute matrices of consistent systems that use the same right-hand side vector as the inconsistent system whose distance in terms of $L_\infty$ norm to the matrix of the inconsistent system is minimal (the computational costs are higher when using $L_1$ norm or $L_2$ norm). We also give an explicit analytical formula for computing this minimal $L_\infty$ distance. Finally, we translate our results for systems of min-max fuzzy relational equations and present some potential applications.

arxiv情報

著者 Ismaïl Baaj
発行日 2025-04-22 17:09:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO | Approximate matrices of systems of max-min fuzzy relational equations はコメントを受け付けていません

LongMamba: Enhancing Mamba’s Long Context Capabilities via Training-Free Receptive Field Enlargement

要約

状態空間モデル(SSM)は、言語モデリングのためのトランスモデルの効率的な代替品として浮上しており、コンテキストの長さが増加するにつれて線形計算の複雑さと一定のメモリ使用量を提供します。
しかし、長いコンテキストの処理における効率にもかかわらず、最近の研究では、MAMBAモデルなどのSSMが一般に長いコンテキスト理解タスクのトランスと比較してパフォーマンスが低いことが示されています。
この重要な不足に対処し、効率的かつ正確な長いコンテキストの両方の理解を達成するために、Mambaモデルの長いコンテキスト機能を大幅に強化するトレーニングなしの手法であるLongmambaを提案します。
Longmambaは、マンバの隠されたチャネルを受容的なフィールドの長さに基づいてローカルおよびグローバルチャネルに分類できるという発見に基づいて構築されており、グローバルチャネルは主に長いコンテキスト機能を担当しています。
これらのグローバルチャネルは、入力コンテキストが長くなるにつれて重要なボトルネックになる可能性があります。
具体的には、入力の長さがトレーニングシーケンスの長さをほぼ上回る場合、グローバルチャネルは、適応的に受容フィールドを拡張することで制限を示し、マンバの長いコンテキストのパフォーマンスが低下します。
ロングマンバの重要なアイデアは、記憶に重要でないトークンの蓄積を防ぐことにより、これらのグローバルチャネルの隠れた状態記憶崩壊を軽減することです。
これは、最初にグローバルチャネルで重要なトークンを識別し、次にトークンフィルタリングを適用して、これらの重要なトークンのみを蓄積することによって達成されます。
Longmambaは、合成および現実世界の長いコンテキストシナリオ全体の広範なベンチマークを通じて、Mambaのロングコンテキストパフォーマンスの新しい基準を設定し、追加のトレーニングを必要とせずに運用範囲を大幅に拡張します。
私たちのコードは、https://github.com/gatech-eic/longmambaで入手できます。

要約(オリジナル)

State space models (SSMs) have emerged as an efficient alternative to Transformer models for language modeling, offering linear computational complexity and constant memory usage as context length increases. However, despite their efficiency in handling long contexts, recent studies have shown that SSMs, such as Mamba models, generally underperform compared to Transformers in long-context understanding tasks. To address this significant shortfall and achieve both efficient and accurate long-context understanding, we propose LongMamba, a training-free technique that significantly enhances the long-context capabilities of Mamba models. LongMamba builds on our discovery that the hidden channels in Mamba can be categorized into local and global channels based on their receptive field lengths, with global channels primarily responsible for long-context capability. These global channels can become the key bottleneck as the input context lengthens. Specifically, when input lengths largely exceed the training sequence length, global channels exhibit limitations in adaptively extend their receptive fields, leading to Mamba’s poor long-context performance. The key idea of LongMamba is to mitigate the hidden state memory decay in these global channels by preventing the accumulation of unimportant tokens in their memory. This is achieved by first identifying critical tokens in the global channels and then applying token filtering to accumulate only those critical tokens. Through extensive benchmarking across synthetic and real-world long-context scenarios, LongMamba sets a new standard for Mamba’s long-context performance, significantly extending its operational range without requiring additional training. Our code is available at https://github.com/GATECH-EIC/LongMamba.

arxiv情報

著者 Zhifan Ye,Kejing Xia,Yonggan Fu,Xin Dong,Jihoon Hong,Xiangchi Yuan,Shizhe Diao,Jan Kautz,Pavlo Molchanov,Yingyan Celine Lin
発行日 2025-04-22 17:30:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LongMamba: Enhancing Mamba’s Long Context Capabilities via Training-Free Receptive Field Enlargement はコメントを受け付けていません

LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

要約

大規模な言語モデル(LLMS)の成功は、さまざまなエージェントアプリケーションへの関心を呼び起こしました。
重要な仮説は、LLMSが常識と考え方の連鎖(COT)推論を活用し、複雑なドメインを効果的に調査し、効率的に解決できるということです。
しかし、LLMエージェントは、最適下の探査と知識のギャップに苦しんでいることがわかっています。これは、モデルに存在する知識に効果的に行動することができません。
この作業では、LLMSが意思決定シナリオで最適に機能する理由を体系的に研究します。
特に、貪欲さ、周波数バイアス、知識のギャップという3つの一般的な障害モードを詳しく調べます。
自己生成されたCOTの理論的根拠に関する補強学習(RL)を介して微調整することにより、これらの欠点の緩和を提案します。
マルチアームの盗賊、コンテキストバンディット、およびTIC-TAC-Toeの実験は、RL微調整が探索を増やし、知識のギャップを絞り込むことによりLLMの意思決定能力を高めることを示しています。
最後に、意思決定のためにLLMのより効果的な微調整を可能にするために、$ \ epsilon $ greedyなどの古典的な探索メカニズムと、自己修正や自己整合などのLLM固有のアプローチの両方を研究します。

要約(オリジナル)

The success of Large Language Models (LLMs) has sparked interest in various agentic applications. A key hypothesis is that LLMs, leveraging common sense and Chain-of-Thought (CoT) reasoning, can effectively explore and efficiently solve complex domains. However, LLM agents have been found to suffer from sub-optimal exploration and the knowing-doing gap, the inability to effectively act on knowledge present in the model. In this work, we systematically study why LLMs perform sub-optimally in decision-making scenarios. In particular, we closely examine three prevalent failure modes: greediness, frequency bias, and the knowing-doing gap. We propose mitigation of these shortcomings by fine-tuning via Reinforcement Learning (RL) on self-generated CoT rationales. Our experiments across multi-armed bandits, contextual bandits, and Tic-tac-toe, demonstrate that RL fine-tuning enhances the decision-making abilities of LLMs by increasing exploration and narrowing the knowing-doing gap. Finally, we study both classic exploration mechanisms, such as $\epsilon$-greedy, and LLM-specific approaches, such as self-correction and self-consistency, to enable more effective fine-tuning of LLMs for decision-making.

arxiv情報

著者 Thomas Schmied,Jörg Bornschein,Jordi Grau-Moya,Markus Wulfmeier,Razvan Pascanu
発行日 2025-04-22 17:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities はコメントを受け付けていません