Building Rome with Convex Optimization

要約

グローバルバンドル調整は、深さ予測と凸の最適化により簡単になります。
(i)2Dキーポイント測定を学習された深さで3Dに持ち上げるスケーリングされたバンドル調整(SBA)定式化を提案します。
Burer-Monteiro FactionizationとCUDAベースの信託地域のRiemannian Optimizer(XMと呼ばれる)を備えた極端なスケールでのSDP緩和は、XMを最適化エンジンとしてモーション(SFM)パイプラインから構造を構築し、XM-SFMがXM-SFMを示していることを示しています。
既存のSFMパイプラインと再構成の品質の点で好意的に支配または比較しますが、より速く、よりスケーラブルで、初期化が含まれていません。

要約(オリジナル)

Global bundle adjustment is made easy by depth prediction and convex optimization. We (i) propose a scaled bundle adjustment (SBA) formulation that lifts 2D keypoint measurements to 3D with learned depth, (ii) design an empirically tight convex semidfinite program (SDP) relaxation that solves SBA to certfiable global optimality, (iii) solve the SDP relaxations at extreme scale with Burer-Monteiro factorization and a CUDA-based trust-region Riemannian optimizer (dubbed XM), (iv) build a structure from motion (SfM) pipeline with XM as the optimization engine and show that XM-SfM dominates or compares favorably with existing SfM pipelines in terms of reconstruction quality while being faster, more scalable, and initialization-free.

arxiv情報

著者 Haoyu Han,Heng Yang
発行日 2025-02-07 03:53:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, math.OC | Building Rome with Convex Optimization はコメントを受け付けていません

Safety-Critical Planning and Control for Dynamic Obstacle Avoidance Using Control Barrier Functions

要約

動的障害物の回避は、最適な制御と最適化に基づく軌道計画の問題のための困難なトピックです。
多くの既存の作業は、制御システムの安全上の制約を実施するために、制御バリア関数(CBF)を使用しています。
CBFは通常、障害物までの距離に基づいて定式化されるか、安全性向上ツールとしてパス計画アルゴリズムと統合されます。
ただし、これらのアプローチは通常、障害物境界方程式の知識を必要とするか、計算効率が非常に遅くなります。
この論文では、衝突のない軌道を生成するために、離散時間高次CBFS(DHOCBFS)を使用したモデル予測制御(MPC)に基づくフレームワークを提案します。
DHOCBFは、障害物の境界方程式を知る必要なく、グリッドマッピングを介して生成された凸ポリトープから最初に取得されます。
さらに、このフレームワークにパス計画アルゴリズムが組み込まれ、生成された軌道のグローバルな最適性が確保されます。
数値的な例を通じて、私たちのフレームワークにより、一輪車ロボットが凸型障害と非凸障害の両方で環境を安全かつ効率的にナビゲートできるようにすることを実証します。
当社の方法を確立されたCBFベースのベンチマークと比較することにより、軌跡の生成と障害物の回避における優れたコンピューティング効率、長さの最適性、および実現可能性を示します。

要約(オリジナル)

Dynamic obstacle avoidance is a challenging topic for optimal control and optimization-based trajectory planning problems. Many existing works use Control Barrier Functions (CBFs) to enforce safety constraints for control systems. CBFs are typically formulated based on the distance to obstacles, or integrated with path planning algorithms as a safety enhancement tool. However, these approaches usually require knowledge of the obstacle boundary equations or have very slow computational efficiency. In this paper, we propose a framework based on model predictive control (MPC) with discrete-time high-order CBFs (DHOCBFs) to generate a collision-free trajectory. The DHOCBFs are first obtained from convex polytopes generated through grid mapping, without the need to know the boundary equations of obstacles. Additionally, a path planning algorithm is incorporated into this framework to ensure the global optimality of the generated trajectory. We demonstrate through numerical examples that our framework allows a unicycle robot to safely and efficiently navigate tight, dynamically changing environments with both convex and nonconvex obstacles. By comparing our method to established CBF-based benchmarks, we demonstrate superior computing efficiency, length optimality, and feasibility in trajectory generation and obstacle avoidance.

arxiv情報

著者 Shuo Liu,Yihui Mao,Calin A. Belta
発行日 2025-02-07 03:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC | Safety-Critical Planning and Control for Dynamic Obstacle Avoidance Using Control Barrier Functions はコメントを受け付けていません

Using Clarke Transform to Create a Framework on the Manifold: From Sampling via Trajectory Generation to Control

要約

任意の数のジョイントを備えた空間変位作用された連続体ロボットのクラーク座標に基づくフレームワークを提示します。
このフレームワークは、3つのモジュラーコンポーネント、つまりマニホールドで定義されたプランナー、軌道ジェネレーター、およびコントローラーで構成されています。
すべてのコンポーネントは計算効率が良く、コンパクトで、分岐しておらず、エンコーダーを使用して、Clarke座標に基づいていない既存のフレームワークコンポーネントをインターフェースできます。
ジョイント空間とマニホールドの運動学的制約とマニホールドの関係を導き出して、マニホールドに滑らかな軌跡を生成します。
さらに、変位制約と並列曲線の間の接続を確立します。
その有効性を実証するために、4つのセグメントを備えた変位作動された連続体ロボットのシミュレーションのデモンストレーションが提示されています。

要約(オリジナル)

We present a framework based on Clarke coordinates for spatial displacement-actuated continuum robots with an arbitrary number of joints. This framework consists of three modular components, i.e., a planner, trajectory generator, and controller defined on the manifold. All components are computationally efficient, compact, and branchless, and an encoder can be used to interface existing framework components that are not based on Clarke coordinates. We derive the relationship between the kinematic constraints in the joint space and on the manifold to generate smooth trajectories on the manifold. Furthermore, we establish the connection between the displacement constraint and parallel curves. To demonstrate its effectiveness, a demonstration in simulation for a displacement-actuated continuum robot with four segments is presented.

arxiv情報

著者 Reinhard M. Grassmann,Jessica Burgner-Kahrs
発行日 2025-02-07 03:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Using Clarke Transform to Create a Framework on the Manifold: From Sampling via Trajectory Generation to Control はコメントを受け付けていません

UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

要約

ロボット操作に関する以前の研究は、基礎となる3D運動の制約とアフォーダンスの限られた理解に基づいています。
これらの課題に対処するために、3Dオブジェクト中心の操作と統一された定式化にタスク理解を統合するUniaffと呼ばれる包括的なパラダイムを提案します。
具体的には、19のカテゴリから900の明確なオブジェクトと12のカテゴリから600のツールで構成される操作関連のキー属性をラベル付けしたデータセットを構築しました。
さらに、MLLMSを活用して、アフォーダンス認識や3Dモーション制約に関する推論など、操作タスクのオブジェクト中心の表現を推測します。
シミュレーションと現実世界の両方の設定での包括的な実験は、Uniaffがツールと明確なオブジェクトのロボット操作の一般化を大幅に改善することを示しています。
Uniaffが将来の統一されたロボット操作タスクの一般的なベースラインとして機能することを願っています。
画像、ビデオ、データセット、およびコードは、プロジェクトWebサイト(https://sites.google.com/view/uni-aff/home)に公開されています。

要約(オリジナル)

Previous studies on robotic manipulation are based on a limited understanding of the underlying 3D motion constraints and affordances. To address these challenges, we propose a comprehensive paradigm, termed UniAff, that integrates 3D object-centric manipulation and task understanding in a unified formulation. Specifically, we constructed a dataset labeled with manipulation-related key attributes, comprising 900 articulated objects from 19 categories and 600 tools from 12 categories. Furthermore, we leverage MLLMs to infer object-centric representations for manipulation tasks, including affordance recognition and reasoning about 3D motion constraints. Comprehensive experiments in both simulation and real-world settings indicate that UniAff significantly improves the generalization of robotic manipulation for tools and articulated objects. We hope that UniAff will serve as a general baseline for unified robotic manipulation tasks in the future. Images, videos, dataset, and code are published on the project website at:https://sites.google.com/view/uni-aff/home

arxiv情報

著者 Qiaojun Yu,Siyuan Huang,Xibin Yuan,Zhengkai Jiang,Ce Hao,Xin Li,Haonan Chang,Junbo Wang,Liu Liu,Hongsheng Li,Peng Gao,Cewu Lu
発行日 2025-02-07 05:25:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models はコメントを受け付けていません

STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion

要約

ヒューマノイドロボットは、人工知能に大きな課題を提示し、高度の高度化システムの正確な調整と制御を必要とします。
このドメインにおける深い強化学習(DRL)の効果的な報酬機能の設計は、依然として重要なボトルネックであり、広範な手動の努力、ドメインの専門知識、反復改良を要求しています。
これらの課題を克服するために、Humanoid Robot Mocomotionタスクの報酬設計、DRLトレーニング、フィードバックの最適化を自動化するために、エージェントエンジニアリングに基づいた新しいフレームワークであるStrideを紹介します。
エージェントエンジニアリングの構造化された原理を、コードライティング、ゼロショット生成、およびコンテキスト内最適化のための大規模な言語モデル(LLMS)と組み合わせることにより、ストライドは、タスク固有のプロンプトやテンプレートに頼らずに報酬機能を生成、評価、および繰り返し洗練します。

ヒューマノイドロボットの形態を特徴とする多様な環境にわたって、Strideは最先端の報酬設計フレームワークEurekaを上回り、効率とタスクのパフォーマンスの大幅な改善を達成します。
ストライド生成の報酬を使用して、シミュレートされたヒューマノイドロボットは、複雑な地形でスプリントレベルの移動を実現し、DRLワークフローとヒューマノイドロボット研究を進める能力を強調します。

要約(オリジナル)

Humanoid robotics presents significant challenges in artificial intelligence, requiring precise coordination and control of high-degree-of-freedom systems. Designing effective reward functions for deep reinforcement learning (DRL) in this domain remains a critical bottleneck, demanding extensive manual effort, domain expertise, and iterative refinement. To overcome these challenges, we introduce STRIDE, a novel framework built on agentic engineering to automate reward design, DRL training, and feedback optimization for humanoid robot locomotion tasks. By combining the structured principles of agentic engineering with large language models (LLMs) for code-writing, zero-shot generation, and in-context optimization, STRIDE generates, evaluates, and iteratively refines reward functions without relying on task-specific prompts or templates. Across diverse environments featuring humanoid robot morphologies, STRIDE outperforms the state-of-the-art reward design framework EUREKA, achieving significant improvements in efficiency and task performance. Using STRIDE-generated rewards, simulated humanoid robots achieve sprint-level locomotion across complex terrains, highlighting its ability to advance DRL workflows and humanoid robotics research.

arxiv情報

著者 Zhenwei Wu,Jinxiong Lu,Yuxiao Chen,Yunxin Liu,Yueting Zhuang,Luhui Hu
発行日 2025-02-07 06:37:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion はコメントを受け付けていません

Adaptive Learning-based Model Predictive Control Strategy for Drift Vehicles

要約

ドリフト車両制御は、極端な条件で安全な自律運転をサポートするための貴重な洞察を提供します。これは、ドリフト平衡点(DEP)の近くで車両状態を維持しながら、特定の経路を追跡することにかかっています。
ただし、従来の追跡方法は、反対のステアリング角度とヨーレートのため、ドリフト車両に適応できません。
このホワイトペーパーでは、ドリフト状態を動的に調整して基準パスに従って調整し、リリースされた計算負荷で一般的に利用される予測パス追跡方法を改善するための適応パス追跡(APT)制御方法を提案します。
さらに、既存の制御戦略では、DEPを計算するために正確なシステムモデルを必要とします。これは、非常に非線形ドリフトダイナミクスと敏感な車両パラメーターのためにより扱いやすい場合があります。
この問題に取り組むために、適応学習ベースのモデル予測制御(ALMPC)戦略がAPTメソッドに基づいて提案されています。この方法では、上位レベルのベイジアン最適化が採用され、DEPおよびAPTコントロール法を学習して低レベルのMPCドリフトを指示することが提案されています。
コントローラ。
この階層システムアーキテクチャは、これらの目的を異なるレイヤーに分離することにより、パス追跡とドリフトの間の固有の制御競合を解決することもできます。
ALMPC戦略はMATLAB-CARSIMプラットフォームで検証されており、シミュレーション結果は、誤認された道路摩擦摩擦パラメーターでさえ、クロクロイドベースの参照パスに従うためのドリフト車両を制御する際の有効性を示しています。

要約(オリジナル)

Drift vehicle control offers valuable insights to support safe autonomous driving in extreme conditions, which hinges on tracking a particular path while maintaining the vehicle states near the drift equilibrium points (DEP). However, conventional tracking methods are not adaptable for drift vehicles due to their opposite steering angle and yaw rate. In this paper, we propose an adaptive path tracking (APT) control method to dynamically adjust drift states to follow the reference path, improving the commonly utilized predictive path tracking methods with released computation burden. Furthermore, existing control strategies necessitate a precise system model to calculate the DEP, which can be more intractable due to the highly nonlinear drift dynamics and sensitive vehicle parameters. To tackle this problem, an adaptive learning-based model predictive control (ALMPC) strategy is proposed based on the APT method, where an upper-level Bayesian optimization is employed to learn the DEP and APT control law to instruct a lower-level MPC drift controller. This hierarchical system architecture can also resolve the inherent control conflict between path tracking and drifting by separating these objectives into different layers. The ALMPC strategy is verified on the Matlab-Carsim platform, and simulation results demonstrate its effectiveness in controlling the drift vehicle to follow a clothoid-based reference path even with the misidentified road friction parameter.

arxiv情報

著者 Bei Zhou,Cheng Hu,Jun Zeng,Zhouheng Li,Johannes Betz,Lei Xie,Hongye Su
発行日 2025-02-07 06:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Adaptive Learning-based Model Predictive Control Strategy for Drift Vehicles はコメントを受け付けていません

Assigning Credit with Partial Reward Decoupling in Multi-Agent Proximal Policy Optimization

要約

マルチエージェント近位政策最適化(MAPPO)は最近、挑戦的なマルチエージェント強化学習タスクに関する最先端のパフォーマンスを実証しました。
ただし、Mappoは依然としてクレジット割り当ての問題に苦労しており、個々のエージェントのアクションに対するクレジットをチームの規模であまり拡大していないという困難です。
この論文では、MAPPOを改善するためにクレジット割り当ての最近の開発を適応させるマルチエージェント強化学習アルゴリズムを提案します。
私たちのアプローチは、部分的な報酬分離(PRD)を活用します。これは、学習した注意メカニズムを使用して、特定のエージェントのチームメイトのどれが学習更新に関連しているかを推定します。
この推定値を使用して、エージェントの大規模なグループをより小さく、より管理しやすいサブグループに動的に分解します。
当社のアプローチであるPRD-Mappoが、予想される将来の報酬に影響を与えないチームメイトのエージェントを離脱し、それによりクレジットの割り当てを合理化することを経験的に実証します。
さらに、PRD-Mappoは、Starcraft IIを含むいくつかのマルチエージェントタスクにわたるMAPPOおよびその他の最先端の方法の両方と比較して、大幅に高いデータ効率と漸近パフォーマンスをもたらすことを示しています。
最後に、PRDが以前は適用されていなかった\ TextIT {Shared}報酬設定に適用できるPRD-Mappoのバージョンを提案し、これがMAPPOのパフォーマンスの改善にもつながることを経験的に示しています。

要約(オリジナル)

Multi-agent proximal policy optimization (MAPPO) has recently demonstrated state-of-the-art performance on challenging multi-agent reinforcement learning tasks. However, MAPPO still struggles with the credit assignment problem, wherein the sheer difficulty in ascribing credit to individual agents’ actions scales poorly with team size. In this paper, we propose a multi-agent reinforcement learning algorithm that adapts recent developments in credit assignment to improve upon MAPPO. Our approach leverages partial reward decoupling (PRD), which uses a learned attention mechanism to estimate which of a particular agent’s teammates are relevant to its learning updates. We use this estimate to dynamically decompose large groups of agents into smaller, more manageable subgroups. We empirically demonstrate that our approach, PRD-MAPPO, decouples agents from teammates that do not influence their expected future reward, thereby streamlining credit assignment. We additionally show that PRD-MAPPO yields significantly higher data efficiency and asymptotic performance compared to both MAPPO and other state-of-the-art methods across several multi-agent tasks, including StarCraft II. Finally, we propose a version of PRD-MAPPO that is applicable to \textit{shared} reward settings, where PRD was previously not applicable, and empirically show that this also leads to performance improvements over MAPPO.

arxiv情報

著者 Aditya Kapoor,Benjamin Freed,Howie Choset,Jeff Schneider
発行日 2025-02-07 10:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO | Assigning Credit with Partial Reward Decoupling in Multi-Agent Proximal Policy Optimization はコメントを受け付けていません

SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels

要約

潜在的なダイナミクスモデルを学習すると、エージェントの環境に対する理解のタスクに依存しない表現が提供されます。
モデルベースの強化学習(RL)のこの知識を活用すると、想像上のロールアウトから学習することにより、モデルのない方法よりもサンプル効率を改善する可能性があります。
さらに、潜在空間は行動モデルへの入力として機能するため、世界モデルによって学んだ有益な表現は、望ましいスキルの効率的な学習を促進します。
ほとんどの既存の方法は、環境状態の全体的な表現に依存しています。
対照的に、人間はオブジェクトとその相互作用についての理由で、行動が周囲の特定の部分にどのように影響するかを予測します。
これに触発されて、オブジェクト中心のダイナミクス(販売)のスロットアテンションを提案します。これは、ピクセル入力から監視されていない方法でオブジェクト中心のダイナミクスモデルを学習する新しいモデルベースのRLアルゴリズムです。
構造化された潜在スペースは、モデルの解釈性を向上させるだけでなく、行動モデルが推論するための貴重な入力空間を提供することを実証します。
我々の結果は、販売が、リレーショナル推論と操作機能を必要とするさまざまなベンチマークロボット環境にわたって、最先端のモデルベースのRLアルゴリズムを超えるDreamerV3およびTD-MPC2を上回ることを示しています。
ビデオはhttps://slot-latent-dynamics.github.io/で入手できます。

要約(オリジナル)

Learning a latent dynamics model provides a task-agnostic representation of an agent’s understanding of its environment. Leveraging this knowledge for model-based reinforcement learning (RL) holds the potential to improve sample efficiency over model-free methods by learning from imagined rollouts. Furthermore, because the latent space serves as input to behavior models, the informative representations learned by the world model facilitate efficient learning of desired skills. Most existing methods rely on holistic representations of the environment’s state. In contrast, humans reason about objects and their interactions, predicting how actions will affect specific parts of their surroundings. Inspired by this, we propose Slot-Attention for Object-centric Latent Dynamics (SOLD), a novel model-based RL algorithm that learns object-centric dynamics models in an unsupervised manner from pixel inputs. We demonstrate that the structured latent space not only improves model interpretability but also provides a valuable input space for behavior models to reason over. Our results show that SOLD outperforms DreamerV3 and TD-MPC2 – state-of-the-art model-based RL algorithms – across a range of benchmark robotic environments that require relational reasoning and manipulation capabilities. Videos are available at https://slot-latent-dynamics.github.io/.

arxiv情報

著者 Malte Mosbach,Jan Niklas Ewertz,Angel Villar-Corrales,Sven Behnke
発行日 2025-02-07 10:52:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels はコメントを受け付けていません

Online Robot Motion Planning Methodology Guided by Group Social Proxemics Feature

要約

現在、ロボットは、社会的またはサービスアプリケーションで人間のような認識、推論、行動パターンを示すことになっています。
ただし、既存のモーション計画方法のほとんどは、上記の要件と互換性がありません。
潜在的な理由は、既存のナビゲーションアルゴリズムが通常、人々を別の種類の障害として扱うことを意図しており、社会的原則や意識を考慮に入れないことです。
このホワイトペーパーでは、グループのプロキシミクスをモデル化し、ロボットのシナリオ認識とナビゲーションに融合しようとします。
この目的のために、社会的関連性と空間的信頼の両方を考慮したグループクラスタリング方法が導入されます。
ロボットが個人を識別し、それらをグループに分割できるようにすることができます。
次に、磁気双極子モデル内の個々のプロキシミクスを定義することを提案し、ベクトルフィールドの重ね合わせによりグループプロキシミクスとシナリオマップをさらに確立します。
グループのクラスタリングおよびプロキシミクスモデリングに基づいて、グループの最適な観測位置(OOPS)を取得する方法を提示します。
OOPSグリッドとシナリオマップが確立されると、ヒューリスティックパスが使用され、インタラクティブな目的のためにグループ間でロボットクルージングをガイドするパスを生成します。
一連の実験が実用的なロボットで提案された方法論を検証するために実施され、結果は、私たちの方法論がグループ認識の精度と経路生成効率に関する有望なパフォーマンスを達成したことを実証しています。
これは、グループの認識が、実際のシナリオでロボットを社会的に振る舞う重要なモジュールとして進化したと結論付けています。

要約(オリジナル)

Nowadays robot is supposed to demonstrate human-like perception, reasoning and behavior pattern in social or service application. However, most of the existing motion planning methods are incompatible with above requirement. A potential reason is that the existing navigation algorithms usually intend to treat people as another kind of obstacle, and hardly take the social principle or awareness into consideration. In this paper, we attempt to model the proxemics of group and blend it into the scenario perception and navigation of robot. For this purpose, a group clustering method considering both social relevance and spatial confidence is introduced. It can enable robot to identify individuals and divide them into groups. Next, we propose defining the individual proxemics within magnetic dipole model, and further established the group proxemics and scenario map through vector-field superposition. On the basis of the group clustering and proxemics modeling, we present the method to obtain the optimal observation positions (OOPs) of group. Once the OOPs grid and scenario map are established, a heuristic path is employed to generate path that guide robot cruising among the groups for interactive purpose. A series of experiments are conducted to validate the proposed methodology on the practical robot, the results have demonstrated that our methodology has achieved promising performance on group recognition accuracy and path-generation efficiency. This concludes that the group awareness evolved as an important module to make robot socially behave in the practical scenario.

arxiv情報

著者 Xuan Mu,Xiaorui Liu,Shuai Guo,Wenzheng Chi,Wei Wang,Shuzhi Sam Ge
発行日 2025-02-07 11:10:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Online Robot Motion Planning Methodology Guided by Group Social Proxemics Feature はコメントを受け付けていません

$TAR^2$: Temporal-Agent Reward Redistribution for Optimal Policy Preservation in Multi-Agent Reinforcement Learning

要約

協力的なマルチエージェント補強学習(MARL)では、グローバルな報酬がまばらで遅れている場合、効果的なポリシーを学習することは困難です。
この困難は、エージェントとタイムステップの両方にクレジットを割り当てる必要性から生じます。これは、既存の方法がエピソードで長老のタスクで対処できないことが多い問題です。
一時的な報酬再分配$ tar^2 $を提案します。これは、エージェント固有のタイムステップ固有のコンポーネントにまばらなグローバルな報酬を分解する新しいアプローチを提案します。
理論的には、$ tar^2 $(i)が潜在的な報酬形状に合わせて、元の環境と同じ最適なポリシーを維持することを示し、(ii)元のスパース報酬の下にあるものと同一のポリシーグラデーションの更新方向を維持し、確実にします。
公平なクレジット信号。
2つの挑戦的なベンチマークであるSmacliteとGoogle Research Footballの経験的結果は、$ tar^2 $が収束を大幅に安定させ、加速し、学習速度と最終パフォーマンスの両方でArelやSTAのような強力なベースラインを上回ることを示しています。
これらの調査結果は、まばらな報酬マルチエージェントシステムにおけるエージェントと同時の信用割り当ての原則的かつ実用的なソリューションとして$ tar^2 $を確立します。

要約(オリジナル)

In cooperative multi-agent reinforcement learning (MARL), learning effective policies is challenging when global rewards are sparse and delayed. This difficulty arises from the need to assign credit across both agents and time steps, a problem that existing methods often fail to address in episodic, long-horizon tasks. We propose Temporal-Agent Reward Redistribution $TAR^2$, a novel approach that decomposes sparse global rewards into agent-specific, time-step-specific components, thereby providing more frequent and accurate feedback for policy learning. Theoretically, we show that $TAR^2$ (i) aligns with potential-based reward shaping, preserving the same optimal policies as the original environment, and (ii) maintains policy gradient update directions identical to those under the original sparse reward, ensuring unbiased credit signals. Empirical results on two challenging benchmarks, SMACLite and Google Research Football, demonstrate that $TAR^2$ significantly stabilizes and accelerates convergence, outperforming strong baselines like AREL and STAS in both learning speed and final performance. These findings establish $TAR^2$ as a principled and practical solution for agent-temporal credit assignment in sparse-reward multi-agent systems.

arxiv情報

著者 Aditya Kapoor,Kale-ab Tessera,Mayank Baranwal,Harshad Khadilkar,Stefano Albrecht,Mingfei Sun
発行日 2025-02-07 12:07:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO | $TAR^2$: Temporal-Agent Reward Redistribution for Optimal Policy Preservation in Multi-Agent Reinforcement Learning はコメントを受け付けていません