DMVC-Tracker: Distributed Multi-Agent Trajectory Planning for Target Tracking Using Dynamic Buffered Voronoi and Inter-Visibility Cells

要約

この手紙は、マルチエージェントの空中追跡のための分散軌跡計画方法を提示します。
提案された方法は、動的緩衝型ボロノイセル(DBVC)と動的視覚間視覚セル(DIVC)を使用して、分散軌道生成を策定します。
具体的には、DBVCとDIVCは、エージェント間の相互衝突や閉塞を防ぐ時間変動空間であり、動きのターゲットから適切な距離を維持できるようにします。
DBVCとDIVCを、以前の研究よりも保守的でないアプローチに改良された効率的なバーンスタイン多項式プリミティブベースの追跡生成法と組み合わせます。
提案されたアルゴリズムは、Intel i7デスクトップ上の数ミリ秒以内に各エージェントの軌跡を計算できます。
多数の障害物を持つ環境を含む、挑戦的なシナリオでの追跡パフォーマンスを検証します。

要約(オリジナル)

This letter presents a distributed trajectory planning method for multi-agent aerial tracking. The proposed method uses a Dynamic Buffered Voronoi Cell (DBVC) and a Dynamic Inter-Visibility Cell (DIVC) to formulate the distributed trajectory generation. Specifically, the DBVC and the DIVC are time-variant spaces that prevent mutual collisions and occlusions among agents, while enabling them to maintain suitable distances from the moving target. We combine the DBVC and the DIVC with an efficient Bernstein polynomial motion primitive-based tracking generation method, which has been refined into a less conservative approach than in our previous work. The proposed algorithm can compute each agent’s trajectory within several milliseconds on an Intel i7 desktop. We validate the tracking performance in challenging scenarios, including environments with dozens of obstacles.

arxiv情報

著者 Yunwoo Lee,Jungwon Park,H. Jin Kim
発行日 2025-03-05 17:37:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | DMVC-Tracker: Distributed Multi-Agent Trajectory Planning for Target Tracking Using Dynamic Buffered Voronoi and Inter-Visibility Cells はコメントを受け付けていません

DROP: Dexterous Reorientation via Online Planning

要約

人間のような器用さを達成することは、コンタクトリッチシステムの計画と制御の複雑さのために、ロボット工学における長年の課題です。
Renforcement Learning(RL)では、1つの一般的なアプローチが、非常に平行化されたドメインランダム化シミュレーションを使用して、膨大な連絡先条件をめぐるポリシーを学習し、堅牢なSIMからReal転送を可能にすることでした。
リアルタイムの並列シミュレーションの最近の進歩に触発されたこの作業は、代わりに、有名な手元のキューブの再配向タスクを研究することにより、連絡先に豊富な操作のためのオンライン計画方法の実行可能性を考慮しています。
サンプリングベースの予測コントローラーとビジョンベースのポーズ推定器を使用して、オンラインで連絡先の制御アクションを検索するシンプルなアーキテクチャを提案します。
徹底的な実験を実施して、メソッドの実際のパフォーマンス、建築設計の選択、および堅牢性の重要な要因を評価し、単純なサンプリングベースのアプローチが以前のRLベースの作品に匹敵するパフォーマンスを達成することを実証します。
補足資料:https://caltech-amber.github.io/drop。

要約(オリジナル)

Achieving human-like dexterity is a longstanding challenge in robotics, in part due to the complexity of planning and control for contact-rich systems. In reinforcement learning (RL), one popular approach has been to use massively-parallelized, domain-randomized simulations to learn a policy offline over a vast array of contact conditions, allowing robust sim-to-real transfer. Inspired by recent advances in real-time parallel simulation, this work considers instead the viability of online planning methods for contact-rich manipulation by studying the well-known in-hand cube reorientation task. We propose a simple architecture that employs a sampling-based predictive controller and vision-based pose estimator to search for contact-rich control actions online. We conduct thorough experiments to assess the real-world performance of our method, architectural design choices, and key factors for robustness, demonstrating that our simple sampling-based approach achieves performance comparable to prior RL-based works. Supplemental material: https://caltech-amber.github.io/drop.

arxiv情報

著者 Albert H. Li,Preston Culbertson,Vince Kurtz,Aaron D. Ames
発行日 2025-03-05 18:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DROP: Dexterous Reorientation via Online Planning はコメントを受け付けていません

Optimal Decision Tree Pruning Revisited: Algorithms and Complexity

要約

意思決定ツリー剪定操作の包括的な古典的およびパラメーター化された複雑さ分析を提示し、小さな決定ツリーを学習する複雑さに関する最近の研究を拡大します。
これにより、解釈可能で効率的な機械学習モデルを開発することの重要な側面である、決定ツリーの簡素化の計算上の課題に関する新しい洞察を提供します。
私たちは、ヒューリスティックで使用されるサブツリーの交換と育成の基本的な剪定操作に焦点を当てています。
驚くべきことに、サブツリー置換のために多項式時間に最適な剪定を実行できますが、問題はサブツリーの飼育ではNP完全です。
したがって、固定パラメーターのトラクション性または硬度につながるパラメーターと組み合わせを特定し、これらの複雑なクラス間の正確な境界線を確立します。
たとえば、サブツリーの上昇は小さなドメインサイズ$ d $または$ d $ of Featureの場合は困難ですが、$ d^{2d} \ cdot | i |^{o(1)} $の時間で解決できます。ここで、$ | i | $は入力サイズです。
予備的な実験結果で理論的発見を補完し、分析の実際的な意味を示しています。

要約(オリジナル)

We present a comprehensive classical and parameterized complexity analysis of decision tree pruning operations, extending recent research on the complexity of learning small decision trees. Thereby, we offer new insights into the computational challenges of decision tree simplification, a crucial aspect of developing interpretable and efficient machine learning models. We focus on fundamental pruning operations of subtree replacement and raising, which are used in heuristics. Surprisingly, while optimal pruning can be performed in polynomial time for subtree replacement, the problem is NP-complete for subtree raising. Therefore, we identify parameters and combinations thereof that lead to fixed-parameter tractability or hardness, establishing a precise borderline between these complexity classes. For example, while subtree raising is hard for small domain size $D$ or number $d$ of features, it can be solved in $D^{2d} \cdot |I|^{O(1)}$ time, where $|I|$ is the input size. We complement our theoretical findings with preliminary experimental results, demonstrating the practical implications of our analysis.

arxiv情報

著者 Juha Harviainen,Frank Sommer,Manuel Sorge,Stefan Szeider
発行日 2025-03-05 15:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Optimal Decision Tree Pruning Revisited: Algorithms and Complexity はコメントを受け付けていません

Efficient Neural SDE Training using Wiener-Space Cubature

要約

神経確率的微分方程式(SDE)は、神経ネットワークによってパラメーター化されたドリフトと拡散項を備えたSDEです。
ニューラルSDEのトレーニング手順は、SDEベクトルフィールド(ニューラルネットワーク)パラメーターを最適化して、無限次元のパススペースでの対物的機能の期待値を最小限に抑えることで構成されています。
既存のトレーニング手法は、これらのパラメーターに関して目的機能の経路ごとの勾配を効率的に計算する方法に焦点を当て、これをモンテカルロシミュレーションとペアにして期待を推定し、確率勾配降下を最適化します。
この作業では、モンテカルロシミュレーションをバイパスして改善する新しいトレーニング手法を紹介します。
結果を拡張して、ウィーナー空間キューブの理論を拡張して、決定論的なODEソリューションの加重合計によって予想される目的機能に近似します。
これにより、効率的なODE ADENTメソッドによって勾配を計算できます。
さらに、合理的な近似を達成するために必要なODEソリューションの数を大幅に減らすために、高次組換えスキームを活用します。
このウィナースペースのキューバチュアアプローチが、モンテカルロシミュレーションのO(1/sqrt(n))速度、または準モンテカルロのo(n)/n)レートを上回ることができることを示しています。

要約(オリジナル)

A neural stochastic differential equation (SDE) is an SDE with drift and diffusion terms parametrized by neural networks. The training procedure for neural SDEs consists of optimizing the SDE vector field (neural network) parameters to minimize the expected value of an objective functional on infinite-dimensional path-space. Existing training techniques focus on methods to efficiently compute path-wise gradients of the objective functional with respect to these parameters, then pair this with Monte-Carlo simulation to estimate the expectation, and stochastic gradient descent to optimize. In this work we introduce a novel training technique which bypasses and improves upon Monte-Carlo simulation; we extend results in the theory of Wiener-space cubature to approximate the expected objective functional by a weighted sum of deterministic ODE solutions. This allows us to compute gradients by efficient ODE adjoint methods. Furthermore, we exploit a high-order recombination scheme to drastically reduce the number of ODE solutions necessary to achieve a reasonable approximation. We show that this Wiener-space cubature approach can surpass the O(1/sqrt(n)) rate of Monte-Carlo simulation, or the O(log(n)/n) rate of quasi-Monte-Carlo, to achieve a O(1/n) rate under reasonable assumptions.

arxiv情報

著者 Luke Snow,Vikram Krishnamurthy
発行日 2025-03-05 15:10:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Efficient Neural SDE Training using Wiener-Space Cubature はコメントを受け付けていません

A Generative System for Robot-to-Human Handovers: from Intent Inference to Spatial Configuration Imagery

要約

人間の同僚の相互作用をエミュレートするロボットから人間へのオブジェクトの引き渡しのための新しいシステムを提案します。
主に把握戦略とモーション計画に焦点を当てたほとんどの既存の研究とは異なり、私たちのシステムは1に焦点を当てています。
最初のものは、人間の意図を推測するために、マルチモーダルの知覚を結合する視覚的および言葉による手がかりを統合します。
2番目は、拡散ベースのモデルを使用してハンドオーバー構成を生成し、ロボットのグリッパー、オブジェクト、および人間の手の間の空間的関係を伴い、それによって運動画像の認知プロセスを模倣します。
実験結果は、私たちのアプローチが人間の手がかりを効果的に解釈し、流fluentで人間のような手ぶれを達成し、共同ロボット工学の有望なソリューションを提供することを示しています。
コード、ビデオ、およびデータは、https://i3handover.github.ioで入手できます。

要約(オリジナル)

We propose a novel system for robot-to-human object handover that emulates human coworker interactions. Unlike most existing studies that focus primarily on grasping strategies and motion planning, our system focus on 1. inferring human handover intents, 2. imagining spatial handover configuration. The first one integrates multimodal perception-combining visual and verbal cues-to infer human intent. The second one using a diffusion-based model to generate the handover configuration, involving the spacial relationship among robot’s gripper, the object, and the human hand, thereby mimicking the cognitive process of motor imagery. Experimental results demonstrate that our approach effectively interprets human cues and achieves fluent, human-like handovers, offering a promising solution for collaborative robotics. Code, videos, and data are available at: https://i3handover.github.io.

arxiv情報

著者 Hanxin Zhang,Abdulqader Dhafer,Zhou Daniel Hao,Hongbiao Dong
発行日 2025-03-05 15:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, I.2.9 | A Generative System for Robot-to-Human Handovers: from Intent Inference to Spatial Configuration Imagery はコメントを受け付けていません

Incentivizing Truthful Collaboration in Heterogeneous Federated Learning

要約

Federated Learning(FL)は、RAWデータの代わりに勾配更新を共有することにより、複数のクライアントが一緒に学習する分散コラボレーション学習方法です。
ただし、FLがクライアントからの操作された更新に対して脆弱であることはよく知られています。
この作業では、データの不均一性がアップデートを操作するためのクライアントのインセンティブに対する影響の影響を研究します。
まず、クライアントがアップデートを変更してより良くすることができる不均一な共同学習シナリオを提示し、これらの操作がモデルのパフォーマンスの低下につながる可能性があることを示します。
このような変更を防ぐために、サーバーモデルを有利に「操縦」するために、クライアントがグラデーションの更新を誤って報告できるゲームを策定します。
FEDSGDプロトコルに基づいて修正された更新の送信を除去することを証明する支払いルールを開発します。
クライアントの支払いとグローバルモデルの収束率の明示的な範囲を導き出します。これにより、不均一性、支払い、収束のトレードオフを研究できます。
最後に、コンピュータービジョンと自然言語処理の3つのタスクに関するFEDSGD、中央値ベースの集約FedSGD、およびFEDAVGプロトコルにおける支払いルールの有効性の実験的評価を提供します。
すべての場合において、私たちのスキームは修正をうまく解かないことがわかります。

要約(オリジナル)

Federated learning (FL) is a distributed collaborative learning method, where multiple clients learn together by sharing gradient updates instead of raw data. However, it is well-known that FL is vulnerable to manipulated updates from clients. In this work we study the impact of data heterogeneity on clients’ incentives to manipulate their updates. First, we present heterogeneous collaborative learning scenarios where a client can modify their updates to be better off, and show that these manipulations can lead to diminishing model performance. To prevent such modifications, we formulate a game in which clients may misreport their gradient updates in order to ‘steer’ the server model to their advantage. We develop a payment rule that provably disincentivizes sending modified updates under the FedSGD protocol. We derive explicit bounds on the clients’ payments and the convergence rate of the global model, which allows us to study the trade-off between heterogeneity, payments and convergence. Finally, we provide an experimental evaluation of the effectiveness of our payment rule in the FedSGD, median-based aggregation FedSGD and FedAvg protocols on three tasks in computer vision and natural language processing. In all cases we find that our scheme successfully disincentivizes modifications.

arxiv情報

著者 Dimitar Chakarov,Nikita Tsoy,Kristian Minchev,Nikola Konstantinov
発行日 2025-03-05 15:32:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, stat.ML | Incentivizing Truthful Collaboration in Heterogeneous Federated Learning はコメントを受け付けていません

Beyond Canonicalization: How Tensorial Messages Improve Equivariant Message Passing

要約

幾何学的な深い学習の多数のアプリケーションでは、研究されたシステムは空間的対称性を示し、これらを実施することが望ましいです。
グローバルな回転と反射の対称性については、これは、$ \ mathrm o(d)$のグループを形成する変換に関して、モデルが等しくなければならないことを意味します。
Equivariantメッセージの合格の多くのアプローチには、非標準の正規化層や非線形性などの専門的なアーキテクチャが必要ですが、ここでは、制限なしであらゆるアーキテクチャと統合できるローカル参照フレーム(「ローカル標準化」)に基づくフレームワークを提示します。
異なるローカル座標フレーム間で一貫して幾何学的情報を通信するためのテンソリアルメッセージを導入することにより、ローカルの標準化に基づいて等縁系メッセージの合格を強化します。
私たちのフレームワークは、任意の次元のユークリッド空間で幾何学的データを渡すメッセージに適用されます。
私たちのアプローチをどのように適応させて、人気のある既存のポイントクラウドアーキテクチャを等しくするためにどのように適応できるかを明示的に示します。
私たちは、テンサリアルメッセージの優位性を実証し、他の標準の3Dポイントクラウドタスクでの通常のベクトル回帰と競争結果に関する最先端の結果を達成します。

要約(オリジナル)

In numerous applications of geometric deep learning, the studied systems exhibit spatial symmetries and it is desirable to enforce these. For the symmetry of global rotations and reflections, this means that the model should be equivariant with respect to the transformations that form the group of $\mathrm O(d)$. While many approaches for equivariant message passing require specialized architectures, including non-standard normalization layers or non-linearities, we here present a framework based on local reference frames (‘local canonicalization’) which can be integrated with any architecture without restrictions. We enhance equivariant message passing based on local canonicalization by introducing tensorial messages to communicate geometric information consistently between different local coordinate frames. Our framework applies to message passing on geometric data in Euclidean spaces of arbitrary dimension. We explicitly show how our approach can be adapted to make a popular existing point cloud architecture equivariant. We demonstrate the superiority of tensorial messages and achieve state-of-the-art results on normal vector regression and competitive results on other standard 3D point cloud tasks.

arxiv情報

著者 Peter Lippmann,Gerrit Gerhartz,Roman Remme,Fred A. Hamprecht
発行日 2025-03-05 15:35:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Beyond Canonicalization: How Tensorial Messages Improve Equivariant Message Passing はコメントを受け付けていません

Dashing for the Golden Snitch: Multi-Drone Time-Optimal Motion Planning with Multi-Agent Reinforcement Learning

要約

自律的なドローンの最近の革新により、単一ドローン構成での時間最適飛行が促進され、最適な制御および学習ベースの方法を適用することにより、マルチドローンシステムでの操縦性が向上しました。
ただし、特に非常に機敏な操作や動的シナリオ中に、マルチドローンシステムの時間最適なモーション計画を達成した研究はほとんどありません。
このペーパーでは、時間最適なマルチドローン飛行のためのマルチエージェント補強学習を使用して、分散型ポリシーネットワークを提示します。
飛行効率と衝突回避のバランスをとるために、最適化ベースの方法に触発された柔らかい衝突のないメカニズムを導入します。
集中型トレーニング、分散型実行(CTDE)ファッションでPPOをカスタマイズすることにより、軽量の実装を確保しながら、トレーニングの効率と安定性を高めます。
広範なシミュレーションによると、単一ドローンシステムと比較してパフォーマンスのトレードオフがわずかにもかかわらず、マルチドローンアプローチは、衝突率が低いため、近距離のパフォーマンスを維持しています。
実世界の実験は、シミュレーションと同じネットワークを使用して、最大速度13.65 m/sと5.5 m * 5.5 m * 2.0 mスペースで13.4 rad/sの最大体速度を達成するのと同じネットワークを使用して、私たちの方法を検証します。

要約(オリジナル)

Recent innovations in autonomous drones have facilitated time-optimal flight in single-drone configurations, and enhanced maneuverability in multi-drone systems by applying optimal control and learning-based methods. However, few studies have achieved time-optimal motion planning for multi-drone systems, particularly during highly agile maneuvers or in dynamic scenarios. This paper presents a decentralized policy network using multi-agent reinforcement learning for time-optimal multi-drone flight. To strike a balance between flight efficiency and collision avoidance, we introduce a soft collision-free mechanism inspired by optimization-based methods. By customizing PPO in a centralized training, decentralized execution (CTDE) fashion, we unlock higher efficiency and stability in training while ensuring lightweight implementation. Extensive simulations show that, despite slight performance trade-offs compared to single-drone systems, our multi-drone approach maintains near-time-optimal performance with a low collision rate. Real-world experiments validate our method, with two quadrotors using the same network as in simulation achieving a maximum speed of 13.65 m/s and a maximum body rate of 13.4 rad/s in a 5.5 m * 5.5 m * 2.0 m space across various tracks, relying entirely on onboard computation.

arxiv情報

著者 Xian Wang,Jin Zhou,Yuanli Feng,Jiahao Mei,Jiming Chen,Shuo Li
発行日 2025-03-05 15:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Dashing for the Golden Snitch: Multi-Drone Time-Optimal Motion Planning with Multi-Agent Reinforcement Learning はコメントを受け付けていません

Capability-Aware Shared Hypernetworks for Flexible Heterogeneous Multi-Robot Coordination

要約

最近の進歩により、異種のマルチロボットチームが複雑で効果的な調整を学ぶことができました。
ただし、異質なチームをサポートする既存の建築設計は、表現力と効率性の間のトレードオフを強制する傾向があります。
各ロボットまたはロボットタイプに固有のIDを使用して入力を追加することにより、単一の共有アーキテクチャ内で多様な動作をエンコードしようとする試みがあります。
これらの設計により、サンプルとパラメーターの効率が向上しますが、行動の多様性を制限する傾向があります。
他の人は各ロボットに個別のポリシーを使用し、効率と一般化を犠牲にして多様性を高めることができます。
これら2つのデザインをスペクトルの終わりと見なし、多様な行動を効率的に学習できる中間地面のアプローチを探ります。
トランスファーラーニングとメタRLの作業、および特性ベースのタスク割り当ての以前の作業に触発された能力対象の共有ハイパーネットワーク(現金)を提案します。これは、ハイパーネットワークを使用して単一のアーキテクチャを使用して各ロボットと現在のコンテキストに動的に適応できる一般的なソフトウェイト共有アーキテクチャです。
直感的に、現金は、ローカルの観測とロボットの個々のおよび集合的能力(速度やペイロードなど)に基づいて、各ロボットに適合できる共有意思決定戦略をエンコードします。
現金は、集団行動に対する能力の影響を明示的に捉えており、目に見えないロボットまたはチームの構成にゼロショットの一般化を可能にします。
SOTAマルチロボットシミュレーション(JaxMarl)およびハードウェア(RoboTarium)プラットフォームを使用して、4つの不均一な調整タスクと3つの学習パラダイム(模倣学習、価値ベース、およびポリシー勾配RL)で実験を実施しました。
すべての条件にわたって、現金は適切に多様な行動を生み出し、トレーニング中のタスクパフォ​​ーマンスとサンプル効率のベースラインアーキテクチャを上回り、学習可能なパラメーターを60%〜80%少なく使用します。

要約(オリジナル)

Recent advances have enabled heterogeneous multi-robot teams to learn complex and effective coordination. However, existing architectural designs that support heterogeneous teams tend to force a trade-off between expressivity and efficiency. Some attempt to encode diverse behaviors within a single shared architecture by appending the input with an ID unique to each robot or robot type. These designs improve sample and parameter efficiency but tend to limit behavioral diversity. Others use a separate policy for each robot, enabling greater diversity at the cost of efficiency and generalization. We view these two designs as ends of a spectrum and explore a middle-ground approach that enables efficient learning of diverse behaviors. Inspired by work in transfer learning and meta RL, and building upon prior work in trait-based task allocation, we propose Capability-Aware Shared Hypernetworks (CASH), a general-purpose soft weight sharing architecture that uses hypernetworks to enable a single architecture to dynamically adapt to each robot and the current context. Intuitively, CASH encodes shared decision making strategies that can be adapted to each robot based on local observations and the robots’ individual and collective capabilities (e.g., speed and payload). CASH explicitly captures the impact of capabilities on collective behavior, enabling zero-shot generalization to unseen robots or team compositions. We conducted experiments across four heterogeneous coordination tasks and three learning paradigms (imitation learning, value-based, and policy-gradient RL) using SOTA multi-robot simulation (JaxMARL) and hardware (Robotarium) platforms. Across all conditions, CASH generates appropriately diverse behaviors and outperforms baseline architectures in task performance and sample efficiency during training and zero-shot generalization while utilizing 60%-80% fewer learnable parameters.

arxiv情報

著者 Kevin Fu,Shalin Jain,Pierce Howell,Harish Ravichandar
発行日 2025-03-05 15:37:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA | Capability-Aware Shared Hypernetworks for Flexible Heterogeneous Multi-Robot Coordination はコメントを受け付けていません

MDP Geometry, Normalization and Reward Balancing Solvers

要約

マルコフ決定プロセス(MDP)の新しい幾何学的解釈を、ポリシーに関するアクションの利点を変更せずに各状態で値関数を調整できる自然な正規化手順を提示します。
MDPのこのアドバンテージを提供する変換は、ほぼ最適なポリシーを簡単に見つけることができるまで、これらの変換を繰り返すことでMDPを解決することにより、MDPを解くバランスをとるアルゴリズムのクラスを動機付けます。
このクラスのいくつかのアルゴリズムの収束分析を提供します。特に、未知の遷移確率のMDPについては、最先端のサンプルの複雑さの結果を改善できることを示しています。

要約(オリジナル)

We present a new geometric interpretation of Markov Decision Processes (MDPs) with a natural normalization procedure that allows us to adjust the value function at each state without altering the advantage of any action with respect to any policy. This advantage-preserving transformation of the MDP motivates a class of algorithms which we call Reward Balancing, which solve MDPs by iterating through these transformations, until an approximately optimal policy can be trivially found. We provide a convergence analysis of several algorithms in this class, in particular showing that for MDPs for unknown transition probabilities we can improve upon state-of-the-art sample complexity results.

arxiv情報

著者 Arsenii Mustafin,Aleksei Pakharev,Alex Olshevsky,Ioannis Ch. Paschalidis
発行日 2025-03-05 15:40:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | MDP Geometry, Normalization and Reward Balancing Solvers はコメントを受け付けていません