IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning

要約

模倣学習(IL)と強化学習(RL)はそれぞれ、ロボット工学ポリシー学習に明確な利点を提供します。ILは、デモンストレーションから安定した学習を提供し、RLは探索を通じて一般化を促進します。
ILベースのプリトレーニングに続いてRLベースの微調整を使用した既存のロボット学習アプローチは有望ですが、この2段階の学習パラダイムは、RL微調整フェーズ中の不安定性とサンプル効率の低下に苦しむことがよくあります。
この作業では、ポリシーの微調整のためにリル内のインターリーブ補強学習と模倣学習を導入します。これは、複数のRL更新後にILの更新を定期的に注入するため、ILの安定性と微調整プロセス全体を通してより効率的な探索のための専門家データのガイダンスから利益を得ることができます。
ILとRLにはさまざまな最適化目標が含まれるため、直交部門の競合する勾配の更新を分離することにより、\ Abbr微調整中の破壊的な干渉を防ぐための勾配分離メカニズムを開発します。
さらに、厳密な分析を実施し、RLとILのインターリートILが学習を安定させ、サンプル効率を向上させる理由を明らかにしました。
家具ベンチ、オープンジム、ロボミミックなど、3つのベンチマークにわたる14のロボット操作と移動タスクに関する広範な実験は、\ abbrがサンプル効率を大幅に改善し、長距離および短距離の両方のタスクでのオンライン微調整中のパフォーマンス崩壊を緩和することができることを示しています。
In-RILは、さまざまな最先端のRLアルゴリズムと互換性のある一般的なプラグインとして、RL微調整を大幅に改善できます。たとえば、ロボミミック輸送の成功率が6.3倍改善され、12 \%から88 \%になります。
プロジェクトページ:https://github.com/ucd-dare/in-ril。

要約(オリジナル)

Imitation learning (IL) and reinforcement learning (RL) each offer distinct advantages for robotics policy learning: IL provides stable learning from demonstrations, and RL promotes generalization through exploration. While existing robot learning approaches using IL-based pre-training followed by RL-based fine-tuning are promising, this two-step learning paradigm often suffers from instability and poor sample efficiency during the RL fine-tuning phase. In this work, we introduce IN-RIL, INterleaved Reinforcement learning and Imitation Learning, for policy fine-tuning, which periodically injects IL updates after multiple RL updates and hence can benefit from the stability of IL and the guidance of expert data for more efficient exploration throughout the entire fine-tuning process. Since IL and RL involve different optimization objectives, we develop gradient separation mechanisms to prevent destructive interference during \ABBR fine-tuning, by separating possibly conflicting gradient updates in orthogonal subspaces. Furthermore, we conduct rigorous analysis, and our findings shed light on why interleaving IL with RL stabilizes learning and improves sample-efficiency. Extensive experiments on 14 robot manipulation and locomotion tasks across 3 benchmarks, including FurnitureBench, OpenAI Gym, and Robomimic, demonstrate that \ABBR can significantly improve sample efficiency and mitigate performance collapse during online finetuning in both long- and short-horizon tasks with either sparse or dense rewards. IN-RIL, as a general plug-in compatible with various state-of-the-art RL algorithms, can significantly improve RL fine-tuning, e.g., from 12\% to 88\% with 6.3x improvement in the success rate on Robomimic Transport. Project page: https://github.com/ucd-dare/IN-RIL.

arxiv情報

著者 Dechen Gao,Hang Wang,Hanchu Zhou,Nejib Ammar,Shatadal Mishra,Ahmadreza Moradipari,Iman Soltani,Junshan Zhang
発行日 2025-05-15 16:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning はコメントを受け付けていません

Are Large Language Models Robust in Understanding Code Against Semantics-Preserving Mutations?

要約

大規模な言語モデル(LLMS)の推論と堅牢性を理解することは、プログラミングタスクでの信頼できる使用にとって重要です。
最近の研究では、プログラムの出力を予測するLLMSの能力を評価していますが、ほとんどの場合、それらの背後にある理由を評価することなく、これらの予測の精度のみに焦点を当てています。
さらに、数学的な推論タスクでは、LLMSが欠陥のあるロジックを通じて正解に到達できることが観察されており、コード理解における同様の問題について懸念を提起しています。
この作業では、最大8Bパラメーターを持つ最先端のLLMがPythonプログラムについて推論できるか、単に推測しているかどうかを評価します。
変数の名前変更、比較式のミラーリング、IF-ELSEブランチの交換、ループのwhileに変換、ループの解消など、5つのセマンティクスを提供するコード変異を適用します。
これらの変異は、その構文を変更しながら、プログラムのセマンティクスを維持します。
6つのLLMSを評価し、LiveCodebenchを使用して人間の専門家分析を実行して、正しい予測が健全な推論に基づいているかどうかを評価しました。
また、LiveCodebenchおよび核兵器のさまざまなコード変異にわたる予測の安定性を評価しました。
私たちの調査結果は、llama3.2などの一部のLLMが、最大61%の症例の欠陥のある推論に基づいて正しい予測を生成することを示しています。
さらに、LLMはしばしばコード変異に応じて予測を変化させ、セマンティック理解における堅牢性が限られていることを示しています。

要約(オリジナル)

Understanding the reasoning and robustness of Large Language Models (LLMs) is critical for their reliable use in programming tasks. While recent studies have assessed LLMs’ ability to predict program outputs, most focus solely on the accuracy of those predictions, without evaluating the reasoning behind them. Moreover, it has been observed on mathematical reasoning tasks that LLMs can arrive at correct answers through flawed logic, raising concerns about similar issues in code understanding. In this work, we evaluate whether state-of-the-art LLMs with up to 8B parameters can reason about Python programs or are simply guessing. We apply five semantics-preserving code mutations: renaming variables, mirroring comparison expressions, swapping if-else branches, converting for loops to while, and loop unrolling. These mutations maintain program semantics while altering its syntax. We evaluated six LLMs and performed a human expert analysis using LiveCodeBench to assess whether the correct predictions are based on sound reasoning. We also evaluated prediction stability across different code mutations on LiveCodeBench and CruxEval. Our findings show that some LLMs, such as Llama3.2, produce correct predictions based on flawed reasoning in up to 61% of cases. Furthermore, LLMs often change predictions in response to our code mutations, indicating limited robustness in their semantic understanding.

arxiv情報

著者 Pedro Orvalho,Marta Kwiatkowska
発行日 2025-05-15 16:04:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Are Large Language Models Robust in Understanding Code Against Semantics-Preserving Mutations? はコメントを受け付けていません

Superposition Yields Robust Neural Scaling

要約

今日の大規模な言語モデル(LLMS)の成功は、より大きなモデルのパフォーマンスが向上するという観察に依存します。
ただし、この神経スケーリング法の起源 – モデルサイズのパワー法則として損失が減少するという発見 – は不明のままです。
2つの経験的原則から始まります。LLMは、モデルの寸法(幅)よりも多くのものを表しています(つまり、表現は重ねられています)。
重ね合わせが弱い場合、最も頻繁な機能のみが干渉なしに表されることを意味する場合、モデルサイズの損失のスケーリングは、基礎となる特徴頻度に依存することがわかりました。
特徴の頻度が電力法則に従う場合、損失もそうです。
対照的に、すべての機能が表現されているが互いに重複する強力な重ね合わせでは、損失は、広範囲の特徴周波数分布にわたってモデルのディメンションに反比例します。
この堅牢なスケーリング動作は幾何学的に説明されています。より多くのベクトルがより低い寸法空間に詰め込まれている場合、ベクトル間の干渉(四角のオーバーラップ)は、その次元と反比例します。
次に、オープンソースのLLMの4つのファミリーを分析し、それらが強力な重ね合わせを示し、おもちゃモデルの予測に定量的に一致することがわかりました。
チンチラのスケーリング法も結果に同意することが判明しました。
表現の重ね合わせは、観察された神経スケーリング法則の根底にある重要なメカニズムであると結論付けています。
これらの洞察は、新しいトレーニング戦略とモデルアーキテクチャを刺激して、より少ない計算とパラメーターが少ないパフォーマンスを向上させると予想しています。

要約(オリジナル)

The success of today’s large language models (LLMs) depends on the observation that larger models perform better. However, the origin of this neural scaling law — the finding that loss decreases as a power law with model size — remains unclear. Starting from two empirical principles — that LLMs represent more things than the model dimensions (widths) they have (i.e., representations are superposed), and that words or concepts in language occur with varying frequencies — we constructed a toy model to study the loss scaling with model size. We found that when superposition is weak, meaning only the most frequent features are represented without interference, the scaling of loss with model size depends on the underlying feature frequency; if feature frequencies follow a power law, so does the loss. In contrast, under strong superposition, where all features are represented but overlap with each other, the loss becomes inversely proportional to the model dimension across a wide range of feature frequency distributions. This robust scaling behavior is explained geometrically: when many more vectors are packed into a lower dimensional space, the interference (squared overlaps) between vectors scales inversely with that dimension. We then analyzed four families of open-sourced LLMs and found that they exhibit strong superposition and quantitatively match the predictions of our toy model. The Chinchilla scaling law turned out to also agree with our results. We conclude that representation superposition is an important mechanism underlying the observed neural scaling laws. We anticipate that these insights will inspire new training strategies and model architectures to achieve better performance with less computation and fewer parameters.

arxiv情報

著者 Yizhou liu,Ziming Liu,Jeff Gore
発行日 2025-05-15 16:18:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Superposition Yields Robust Neural Scaling はコメントを受け付けていません

AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenge

要約

この研究では、AIエージェントとエージェントAIを批判的に区別し、構造化された概念分類法、アプリケーションマッピング、およびチャレンジ分析を提供して、異なるデザインの哲学と能力を明確にします。
検索戦略と基礎定義の概要を説明することから、AIエージェントを、狭いタスク固有の自動化のための大規模な言語モデル(LLM)および大規模な画像モデル(LIM)によって駆動されるモジュラーシステムとして特徴付けます。
生成AIは前駆体として配置され、AIエージェントはツールの統合、迅速なエンジニアリング、および推論の強化を進めています。
対照的に、エージェントAIシステムは、マルチエージェントコラボレーション、動的タスク分解、永続的なメモリ、および調整された自律性によって特徴付けられるパラダイムシフトを表します。
建築の進化、運用メカニズム、相互作用スタイル、および自律レベルの連続的な評価を通じて、両方のパラダイム全体で比較分析を提示します。
カスタマーサポート、スケジューリング、データの要約などのアプリケーションドメインは、研究自動化、ロボット調整、医学的意思決定支援におけるエージェントAIの展開とは対照的です。
さらに、各パラダイムの幻覚、brittle性、緊急行動、調整の失敗など、各パラダイムの独自の課題をさらに検討し、Reactループ、RAG、オーケストレーション層、因果モデリングなどのターゲットソリューションを提案します。
この作業は、堅牢でスケーラブルで説明可能なAIエージェントおよびエージェントAI駆動型のシステムを開発するための決定的なロードマップを提供することを目的としています。
> AIエージェント、エージェント駆動型、ビジョン言語モデル、エージェントAI意思決定支援システム、エージェントAIアプリケーション

要約(オリジナル)

This study critically distinguishes between AI Agents and Agentic AI, offering a structured conceptual taxonomy, application mapping, and challenge analysis to clarify their divergent design philosophies and capabilities. We begin by outlining the search strategy and foundational definitions, characterizing AI Agents as modular systems driven by Large Language Models (LLMs) and Large Image Models (LIMs) for narrow, task-specific automation. Generative AI is positioned as a precursor, with AI Agents advancing through tool integration, prompt engineering, and reasoning enhancements. In contrast, Agentic AI systems represent a paradigmatic shift marked by multi-agent collaboration, dynamic task decomposition, persistent memory, and orchestrated autonomy. Through a sequential evaluation of architectural evolution, operational mechanisms, interaction styles, and autonomy levels, we present a comparative analysis across both paradigms. Application domains such as customer support, scheduling, and data summarization are contrasted with Agentic AI deployments in research automation, robotic coordination, and medical decision support. We further examine unique challenges in each paradigm including hallucination, brittleness, emergent behavior, and coordination failure and propose targeted solutions such as ReAct loops, RAG, orchestration layers, and causal modeling. This work aims to provide a definitive roadmap for developing robust, scalable, and explainable AI agent and Agentic AI-driven systems. >AI Agents, Agent-driven, Vision-Language-Models, Agentic AI Decision Support System, Agentic-AI Applications

arxiv情報

著者 Ranjan Sapkota,Konstantinos I. Roumeliotis,Manoj Karkee
発行日 2025-05-15 16:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenge はコメントを受け付けていません

Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction

要約

この研究では、スプリットコンフォーマル予測(SCP)フレームワークを介した視覚的質問(VQA)タスクのための大規模な視覚言語モデル(LVLMS)における幻覚緩和の重要な課題に対処します。
LVLMSはマルチモーダルの推論に優れていますが、その出力はしばしば自信を持って幻覚コンテンツを示し、安全性の高いアプリケーションにリスクをもたらします。
動的なしきい値のキャリブレーションとクロスモーダルの一貫性の検証を統合するモデルに依存しない不確実性定量化方法を提案します。
データをキャリブレーションとテストセットに分割することにより、フレームワークは非変性スコアを計算して、ユーザー定義のリスクレベル($ \ alpha $)の下で統計的保証で予測セットを構築します。
主要なイノベーションには次のものが含まれます。(1)経験的エラー率を厳密に$ \ alpha $を下回ることを保証するための\ textBf {限界カバレッジ}の厳密な制御。
(2)$ \ alpha $を使用して、予測セットサイズの動的調整を逆に調整し、低信頼性出力をフィルタリングします。
(3)事前の配布の仮定と再訓練要件の排除。
8つのLVLMSを使用したベンチマーク(ScienceQA、MMMU)の評価は、SCPがすべての$ \ alpha $値にわたって理論的保証を強制することを示しています。
このフレームワークは、さまざまなキャリブレーション間分割比にわたって安定したパフォーマンスを実現し、ヘルスケア、自律システム、およびその他の安全性に敏感なドメインでの実際の展開に対する堅牢性を強調しています。
この作業は、マルチモーダルAIシステムにおける理論的信頼性と実用的な適用性のギャップを埋め、幻覚検出と不確実性を認識する意思決定のためのスケーラブルなソリューションを提供します。

要約(オリジナル)

This study addresses the critical challenge of hallucination mitigation in Large Vision-Language Models (LVLMs) for Visual Question Answering (VQA) tasks through a Split Conformal Prediction (SCP) framework. While LVLMs excel in multi-modal reasoning, their outputs often exhibit hallucinated content with high confidence, posing risks in safety-critical applications. We propose a model-agnostic uncertainty quantification method that integrates dynamic threshold calibration and cross-modal consistency verification. By partitioning data into calibration and test sets, the framework computes nonconformity scores to construct prediction sets with statistical guarantees under user-defined risk levels ($\alpha$). Key innovations include: (1) rigorous control of \textbf{marginal coverage} to ensure empirical error rates remain strictly below $\alpha$; (2) dynamic adjustment of prediction set sizes inversely with $\alpha$, filtering low-confidence outputs; (3) elimination of prior distribution assumptions and retraining requirements. Evaluations on benchmarks (ScienceQA, MMMU) with eight LVLMs demonstrate that SCP enforces theoretical guarantees across all $\alpha$ values. The framework achieves stable performance across varying calibration-to-test split ratios, underscoring its robustness for real-world deployment in healthcare, autonomous systems, and other safety-sensitive domains. This work bridges the gap between theoretical reliability and practical applicability in multi-modal AI systems, offering a scalable solution for hallucination detection and uncertainty-aware decision-making.

arxiv情報

著者 Yuanchang Ye,Weiyan Wen
発行日 2025-05-15 16:24:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction はコメントを受け付けていません

Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps

要約

ロボット工学、ゲーム、自律運転などの意思決定シナリオで広く採用されている拡散ポリシーは、高い表現力のためにデモデータから多様なスキルを学ぶことができます。
ただし、デモデータの最適下および限られたカバレッジは、拡散ポリシーにつながる可能性があり、拡散ポリシーが拡散軌跡や壊滅的な障害を生成することさえあります。
補強学習(RL)ベースの微調整は、これらの制限に対処する有望なソリューションとして浮上していますが、既存のアプローチは、近位政策最適化(PPO)を拡散モデルに効果的に適応させるのに苦労しています。
この課題は、除去プロセス中のアクション尤度推定の計算上の扱いやすさに起因し、複雑な最適化目標につながります。
ランダムに初期化されたポリシーから始まる実験では、拡散ポリシーのオンラインチューニングは、MLPポリシー(MLP+PPO)にPPOを直接適用することと比較して、はるかに低いサンプル効率を示していることがわかります。
これらの課題に対処するために、拡散ポリシーをノイズコンディショニングされた決定論的ポリシーとして再定式化する新しいフレームワークであるNCDPOを紹介します。
NCDPOは、各サンプリングノイズを条件付けした微分可能な変換として各除去ステップを扱うことにより、すべての拡散タイムステップを介して、扱いやすい尤度評価と勾配バックプロパゲーションを可能にします。
我々の実験は、NCDPOがゼロからトレーニングするときにMLP+PPOに匹敵するサンプル効率を達成し、継続的なロボットコントロールやマルチエージェントゲームシナリオなど、さまざまなベンチマーク全体でサンプル効率と最終パフォーマンスの両方で既存の方法を上回ることを示しています。
さらに、実験結果は、拡散ポリシーのタイムステップを除去する数にこの方法が堅牢であることを示しています。

要約(オリジナル)

Diffusion policies, widely adopted in decision-making scenarios such as robotics, gaming and autonomous driving, are capable of learning diverse skills from demonstration data due to their high representation power. However, the sub-optimal and limited coverage of demonstration data could lead to diffusion policies that generate sub-optimal trajectories and even catastrophic failures. While reinforcement learning (RL)-based fine-tuning has emerged as a promising solution to address these limitations, existing approaches struggle to effectively adapt Proximal Policy Optimization (PPO) to diffusion models. This challenge stems from the computational intractability of action likelihood estimation during the denoising process, which leads to complicated optimization objectives. In our experiments starting from randomly initialized policies, we find that online tuning of Diffusion Policies demonstrates much lower sample efficiency compared to directly applying PPO on MLP policies (MLP+PPO). To address these challenges, we introduce NCDPO, a novel framework that reformulates Diffusion Policy as a noise-conditioned deterministic policy. By treating each denoising step as a differentiable transformation conditioned on pre-sampled noise, NCDPO enables tractable likelihood evaluation and gradient backpropagation through all diffusion timesteps. Our experiments demonstrate that NCDPO achieves sample efficiency comparable to MLP+PPO when training from scratch, outperforming existing methods in both sample efficiency and final performance across diverse benchmarks, including continuous robot control and multi-agent game scenarios. Furthermore, our experimental results show that our method is robust to the number denoising timesteps in the Diffusion Policy.

arxiv情報

著者 Ningyuan Yang,Jiaxuan Gao,Feng Gao,Yi Wu,Chao Yu
発行日 2025-05-15 16:33:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps はコメントを受け付けていません

Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs)

要約

客観的な構造化された臨床検査(OSCES)は、医学生のコミュニケーションスキルを評価するために広く使用されていますが、インタビューに基づく評価の得点は時間がかかり、潜在的に人間のバイアスにさらされます。
この研究では、マスターインタビュー評価尺度(MIRS)を使用してOSCE評価を自動化する大きな言語モデル(LLM)の可能性を調査しました。
4つの最先端のLLMS(GPT-4O、Claude 3.5、Llama 3.1、およびGemini 1.5 Pro)のパフォーマンスを比較して、ゼロショット、チェーン(COT)、少数のショット、およびマルチステッププロンプトの条件下で、MIRの28項目すべてのOSCE転写産物を評価しました。
モデルは、174のエキスパートコンセンサススコアを利用できる10のOSCEケースのデータセットに対してベンチマークされました。
モデルのパフォーマンスは、3つの精度メトリック(正確、オフワン、しきい値)を使用して測定されました。
すべてのmiRSアイテムとOSCEケースにわたって平均化され、LLMは正確な精度(0.27〜0.44)で実行され、オフワン1回の精度(0.67〜0.87)およびしきい値の精度(0.75〜0.88)で実行されました。
ゼロ温度パラメーターにより、高評価者内信頼性が保証されました({\ alpha} = 0.98 GPT-4O)。
COT、少ないショット、およびマルチステップのテクニックは、特定の評価項目に合わせた場合に価値があることが証明されました。
パフォーマンスは、遭遇段階と通信ドメインとは無関係に、miRSアイテム全体で一貫していました。
AIアシストOSCE評価の実現可能性を実証し、複数の迅速なテクニックにわたる複数のLLMのベンチマークを提供しました。
私たちの仕事は、LLMSのベースラインパフォーマンス評価を提供し、臨床コミュニケーションスキルの自動評価に関する将来の研究の基礎を築きます。

要約(オリジナル)

Objective Structured Clinical Examinations (OSCEs) are widely used to assess medical students’ communication skills, but scoring interview-based assessments is time-consuming and potentially subject to human bias. This study explored the potential of large language models (LLMs) to automate OSCE evaluations using the Master Interview Rating Scale (MIRS). We compared the performance of four state-of-the-art LLMs (GPT-4o, Claude 3.5, Llama 3.1, and Gemini 1.5 Pro) in evaluating OSCE transcripts across all 28 items of the MIRS under the conditions of zero-shot, chain-of-thought (CoT), few-shot, and multi-step prompting. The models were benchmarked against a dataset of 10 OSCE cases with 174 expert consensus scores available. Model performance was measured using three accuracy metrics (exact, off-by-one, thresholded). Averaging across all MIRS items and OSCE cases, LLMs performed with low exact accuracy (0.27 to 0.44), and moderate to high off-by-one accuracy (0.67 to 0.87) and thresholded accuracy (0.75 to 0.88). A zero temperature parameter ensured high intra-rater reliability ({\alpha} = 0.98 for GPT-4o). CoT, few-shot, and multi-step techniques proved valuable when tailored to specific assessment items. The performance was consistent across MIRS items, independent of encounter phases and communication domains. We demonstrated the feasibility of AI-assisted OSCE evaluation and provided benchmarking of multiple LLMs across multiple prompt techniques. Our work provides a baseline performance assessment for LLMs that lays a foundation for future research into automated assessment of clinical communication skills.

arxiv情報

著者 Jadon Geathers,Yann Hicke,Colleen Chan,Niroop Rajashekar,Justin Sewell,Susannah Cornes,Rene F. Kizilcec,Dennis Shung
発行日 2025-05-15 17:09:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) はコメントを受け付けていません

PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling

要約

この研究では、大規模な言語モデル(LLM)内の注意に基づいた情報の流れが、長いコンテキスト処理のために顕著なパターンを通じて集約されているかどうかを調査します。
私たちの観察結果は、LLMSが、注意が下層層に広く散乱し、特定のコンテキスト内で徐々に統合され、最終的にはより高い層の重要なトークン(別名の大規模なアクティベーションまたは注意シンク)に焦点を当てているピラミッド情報情報のファンネルを通じて情報を集約することを明らかにしています。
これらの洞察に動機付けられて、私たちは斬新で効果的なKVキャッシュ圧縮法であるPyramidkvを開発しました。
このアプローチは、異なるレイヤーにわたってKVキャッシュサイズを動的に調整し、下層層でより多くのキャッシュを割り当て、より高いレイヤーでより少ないキャッシュを割り当て、均一なKVキャッシュサイズを維持する従来の方法から分岐します。
ロングベンチベンチマークを利用する実験的評価は、PyramidKVがKVキャッシュの12%のみを保持しながら、モデルのパフォーマンスと完全なKVキャッシュと一致し、メモリの使用量を大幅に削減することを示しています。
KVキャッシュの0.7%のみが維持されているメモリ効率を強調するシナリオでは、PyramidKVは他のKVキャッシュ圧縮技術を上回り、TRECデータセットで最大20.5の絶対精度改善を達成します。
ヘイスタックの針実験では、PyramidkvはLLMSでの長いコンテキストの理解を維持する際の競合する方法よりも優れています。
特に、わずか128 kVのキャッシュエントリを保持すると、Llama-3-70Bモデルが100.0 ACCを達成できるようになります。
パフォーマンス。

要約(オリジナル)

In this study, we investigate whether attention-based information flow inside large language models (LLMs) is aggregated through noticeable patterns for long context processing. Our observations reveal that LLMs aggregate information through Pyramidal Information Funneling where attention is scattering widely in lower layers, progressively consolidating within specific contexts, and ultimately focusing on critical tokens (a.k.a massive activation or attention sink) in higher layers. Motivated by these insights, we developed PyramidKV, a novel and effective KV cache compression method. This approach dynamically adjusts the KV cache size across different layers, allocating more cache in lower layers and less in higher ones, diverging from traditional methods that maintain a uniform KV cache size. Our experimental evaluations, utilizing the LongBench benchmark, show that PyramidKV matches the performance of models with a full KV cache while retaining only 12% of the KV cache, thus significantly reducing memory usage. In scenarios emphasizing memory efficiency, where only 0.7% of the KV cache is maintained, PyramidKV surpasses other KV cache compression techniques, achieving up to a 20.5 absolute accuracy improvement on TREC dataset. In the Needle-in-a-Haystack experiment, PyramidKV outperforms competing methods in maintaining long-context comprehension in LLMs; notably, retaining just 128 KV cache entries enables the LLAMA-3-70B model to achieve 100.0 Acc. performance.

arxiv情報

著者 Zefan Cai,Yichi Zhang,Bofei Gao,Yuliang Liu,Yucheng Li,Tianyu Liu,Keming Lu,Wayne Xiong,Yue Dong,Junjie Hu,Wen Xiao
発行日 2025-05-15 17:18:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling はコメントを受け付けていません

PnPXAI: A Universal XAI Framework Providing Automatic Explanations Across Diverse Modalities and Models

要約

最近、モデルの出力を入力機能に帰属させることにより、モデルの透明度を高めるために、事後説明方法が登場しました。
ただし、これらの方法は、特定のニューラルネットワークアーキテクチャとデータモダリティに対する特異性のため、課題に直面しています。
既存の説明可能な人工知能(XAI)フレームワークは、これらの課題に対処しようとしましたが、いくつかの制限に苦しんでいます。
これらには、ハードコード化された実装による多様なモデルアーキテクチャおよびデータモダリティに対する限られた柔軟性、帰属方法の層固有の操作の要件のためのサポートされているXaiメソッドの制限、および評価と最適化フェーズの欠如による説明の最適な推奨事項が含まれます。
その結果、これらの制限により、実際のアプリケーションでXAIテクノロジーの採用が妨げられ、開業医がドメインの最適な説明方法を選択することが困難になります。
これらの制限に対処するために、プラグアンドプレイ(PNP)の方法で多様なデータモダリティとニューラルネットワークモデルをサポートするユニバーサルXAIフレームワークである\ textBf {pnpxai}を導入します。
PNPXAIは、モデルアーキテクチャを自動的に検出し、該当する説明方法を推奨し、最適な説明のためにハイパーパラメーターを最適化します。
ユーザー調査を通じてフレームワークの有効性を検証し、医学や金融など、さまざまなドメインにわたってその汎用性を紹介します。

要約(オリジナル)

Recently, post hoc explanation methods have emerged to enhance model transparency by attributing model outputs to input features. However, these methods face challenges due to their specificity to certain neural network architectures and data modalities. Existing explainable artificial intelligence (XAI) frameworks have attempted to address these challenges but suffer from several limitations. These include limited flexibility to diverse model architectures and data modalities due to hard-coded implementations, a restricted number of supported XAI methods because of the requirements for layer-specific operations of attribution methods, and sub-optimal recommendations of explanations due to the lack of evaluation and optimization phases. Consequently, these limitations impede the adoption of XAI technology in real-world applications, making it difficult for practitioners to select the optimal explanation method for their domain. To address these limitations, we introduce \textbf{PnPXAI}, a universal XAI framework that supports diverse data modalities and neural network models in a Plug-and-Play (PnP) manner. PnPXAI automatically detects model architectures, recommends applicable explanation methods, and optimizes hyperparameters for optimal explanations. We validate the framework’s effectiveness through user surveys and showcase its versatility across various domains, including medicine and finance.

arxiv情報

著者 Seongun Kim,Sol A Kim,Geonhyeong Kim,Enver Menadjiev,Chanwoo Lee,Seongwook Chung,Nari Kim,Jaesik Choi
発行日 2025-05-15 17:21:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PnPXAI: A Universal XAI Framework Providing Automatic Explanations Across Diverse Modalities and Models はコメントを受け付けていません

Knowledge capture, adaptation and composition (KCAC): A framework for cross-task curriculum learning in robotic manipulation

要約

強化学習(RL)は、ロボット操作において顕著な可能性を示していますが、サンプルの非効率性と解釈可能性の欠如に課題に直面し、現実世界のシナリオでの適用性を制限しています。
エージェントがより深い理解を得て、多様な作業シナリオにより効率的に適応できるようにすることが重要であり、戦略的知識の利用がこのプロセスの重要な要素です。
このペーパーでは、クロスタスクカリキュラム学習を通じて知識の転送をRLに体系的に統合するための知識のキャプチャ、適応、および構成(KCAC)フレームワークを提案します。
KCACは、複雑なロボット操作環境である因果世界ベンチマークの2つのブロックスタッキングタスクを使用して評価されます。
私たちの知る限り、既存のRLアプローチは、このタスクを効果的に解決できず、知識のキャプチャの欠陥を反映しています。
この作業では、剛性の制約と厳格な順序を削除し、エージェントが合計報酬を同時に最大化できるようにし、柔軟なタスクの完了を可能にすることにより、ベンチマーク報酬機能を再設計します。
さらに、2つの自己設計されたサブタスクを定義し、効率的な学習を促進するために構造化されたクロスタスクカリキュラムを実装します。
その結果、KCACアプローチは、従来のRL方法と比較してタスクの成功率を10%改善しながら、トレーニング時間を40%短縮します。
広範な評価を通じて、学習効率を最適化し、カリキュラムベースのRLフレームワークの概念ガイダンスを提供する主要なカリキュラム設計パラメーターサブタスクの選択、移行タイミング、および学習レートを特定します。
この作品は、RLのカリキュラムデザインとロボット学習に関する貴重な洞察を提供します。

要約(オリジナル)

Reinforcement learning (RL) has demonstrated remarkable potential in robotic manipulation but faces challenges in sample inefficiency and lack of interpretability, limiting its applicability in real world scenarios. Enabling the agent to gain a deeper understanding and adapt more efficiently to diverse working scenarios is crucial, and strategic knowledge utilization is a key factor in this process. This paper proposes a Knowledge Capture, Adaptation, and Composition (KCAC) framework to systematically integrate knowledge transfer into RL through cross-task curriculum learning. KCAC is evaluated using a two block stacking task in the CausalWorld benchmark, a complex robotic manipulation environment. To our knowledge, existing RL approaches fail to solve this task effectively, reflecting deficiencies in knowledge capture. In this work, we redesign the benchmark reward function by removing rigid constraints and strict ordering, allowing the agent to maximize total rewards concurrently and enabling flexible task completion. Furthermore, we define two self-designed sub-tasks and implement a structured cross-task curriculum to facilitate efficient learning. As a result, our KCAC approach achieves a 40 percent reduction in training time while improving task success rates by 10 percent compared to traditional RL methods. Through extensive evaluation, we identify key curriculum design parameters subtask selection, transition timing, and learning rate that optimize learning efficiency and provide conceptual guidance for curriculum based RL frameworks. This work offers valuable insights into curriculum design in RL and robotic learning.

arxiv情報

著者 Xinrui Wang,Yan Jin
発行日 2025-05-15 17:30:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Knowledge capture, adaptation and composition (KCAC): A framework for cross-task curriculum learning in robotic manipulation はコメントを受け付けていません