STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented Vector Quantization

要約

複雑なアクションを個別のスキル抽象化に変換することは、ロボット操作の強い可能性を実証しています。
既存のアプローチは、主に潜在変数モデル、例えばVQ-VAEを活用して、学習ベクトル(コードブック)を介してスキルの抽象化を学習しますが、コードブックの崩壊と学習スキル間の因果関係のモデル化に苦しんでいます。
これらの制限に対処するために、\ textbf {s} kill \ textbf {t} \ textbf {a} ugented \ textbf {r} otation(\ textbf {star})を紹介します。
具体的には、コードブックの崩壊を防ぐために、回転式の残留スキル量子化(RARSQ)を考案します。
回転ベースの勾配メカニズムにより、エンコーダー出力間の相対角度を勾配流にエンコードします。
同じスキルコード内のポイントは、グラデーションの方向に応じて、引き離されるか、近くに引っ張られることを余儀なくされます。
さらに、スキル間の因果関係を捉えるために、コヒーレントアクション生成の自己回帰メカニズムを通じてスキル表現間の依存関係を明示的にモデル化する因果スキルトランス(CST)を提示します。
広範な実験は、リベロのベンチマークとレアルワールドの両方のタスクでのスターの優位性を示しており、ベースラインよりも約12 \%が改善されています。

要約(オリジナル)

Transforming complex actions into discrete skill abstractions has demonstrated strong potential for robotic manipulation. Existing approaches mainly leverage latent variable models, e.g., VQ-VAE, to learn skill abstractions through learned vectors (codebooks), while they suffer from codebook collapse and modeling the causal relationship between learned skills. To address these limitations, we present \textbf{S}kill \textbf{T}raining with \textbf{A}ugmented \textbf{R}otation (\textbf{STAR}), a framework that advances both skill learning and composition to complete complex behaviors. Specifically, to prevent codebook collapse, we devise rotation-augmented residual skill quantization (RaRSQ). It encodes relative angles between encoder outputs into the gradient flow by rotation-based gradient mechanism. Points within the same skill code are forced to be either pushed apart or pulled closer together depending on gradient directions. Further, to capture the causal relationship between skills, we present causal skill transformer (CST) which explicitly models dependencies between skill representations through an autoregressive mechanism for coherent action generation. Extensive experiments demonstrate the superiority of STAR on both LIBERO benchmark and realworld tasks, with around 12\% improvement over the baselines.

arxiv情報

著者 Hao Li,Qi Lv,Rui Shao,Xiang Deng,Yinchuan Li,Jianye Hao,Liqiang Nie
発行日 2025-06-04 11:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented Vector Quantization はコメントを受け付けていません

FLIP: Flowability-Informed Powder Weighing

要約

粉末の自律的な操作は、科学研究所におけるロボット自動化にとって重要な課題のままです。
流れの粉末の固有の変動性と複雑な物理的相互作用は、実験室条件の変動性と相まって、適応性のある自動化を必要とします。
この作業では、粒状材料の取り扱いのためのロボットポリシー学習を強化するために設計された流動性情報に基づいたパウダーの計量フレームワークであるFlipを紹介します。
私たちの重要な貢献は、ベイジアン推論を通じて物理学ベースのシミュレーションを最適化するために、安価角によって定量化された材料の流れ性を使用することにあります。
これにより、「ロボット化学者」をトレーニングするために、多様な粉末行動を反映する正確なトレーニングデータを生成できる材料固有のシミュレーション環境が得られます。
これに基づいて、Flipは定量化された流動性をカリキュラム学習戦略に統合し、より挑戦的で流れの少ない粉末を徐々に導入することにより、堅牢なロボットポリシーの効率的な獲得を促進します。
現実世界の実験室条件下でのロボットパウダーの計量作業での方法の有効性を検証します。
実験結果は、カリキュラム戦略を使用してフリップが2.12 +-1.53​​ mgの低分配誤差を達成することを示しています。これは、ドメインランダム化(6.11 +-3.92 mg)などの流動性データを活用しない優れた方法です。
これらの結果は、Flipの改善された能力が、以前に見えていなかった、よりまとまりのある粉末と新しいターゲットマスに一般化する能力を示しています。

要約(オリジナル)

Autonomous manipulation of powders remains a significant challenge for robotic automation in scientific laboratories. The inherent variability and complex physical interactions of powders in flow, coupled with variability in laboratory conditions necessitates adaptive automation. This work introduces FLIP, a flowability-informed powder weighing framework designed to enhance robotic policy learning for granular material handling. Our key contribution lies in using material flowability, quantified by the angle of repose, to optimise physics-based simulations through Bayesian inference. This yields material-specific simulation environments capable of generating accurate training data, which reflects diverse powder behaviours, for training `robot chemists’. Building on this, FLIP integrates quantified flowability into a curriculum learning strategy, fostering efficient acquisition of robust robotic policies by gradually introducing more challenging, less flowable powders. We validate the efficacy of our method on a robotic powder weighing task under real-world laboratory conditions. Experimental results show that FLIP with a curriculum strategy achieves a low dispensing error of 2.12 +- 1.53 mg, outperforming methods that do not leverage flowability data, such as domain randomisation (6.11 +- 3.92 mg). These results demonstrate FLIP’s improved ability to generalise to previously unseen, more cohesive powders and to new target masses.

arxiv情報

著者 Nikola Radulov,Alex Wright,Thomas little,Andrew I. Cooper,Gabriella Pizzuto
発行日 2025-06-04 12:52:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FLIP: Flowability-Informed Powder Weighing はコメントを受け付けていません

Future-Oriented Navigation: Dynamic Obstacle Avoidance with One-Shot Energy-Based Multimodal Motion Prediction

要約

このペーパーでは、動的で不確実な環境でのモバイルロボットを安全かつ効率的に制御するための統合アプローチを提案します。
このアプローチは、動的障害の動きを予測するためのワンショットマルチモーダルモーション予測と、これらの予測をモーション計画プロセスに組み込むためのモデル予測制御の2つの重要なステップで構成されています。
モーション予測は、単一の操作で高解像度のマルチステップ予測を生成するエネルギーベースのニューラルネットワークによって駆動されます。
予測の結果は、数学的制約として定式化された幾何学的形状を作成するためにさらに利用されます。
各動的障害を個別に扱う代わりに、予測された障害物は、パフォーマンスと効率を改善するための監視されていない方法で近接によってグループ化されます。
全体的な衝突のないナビゲーションは、プロアクティブな動的障害物回避のための特定の設計を備えたモデル予測制御によって処理されます。
提案されたアプローチにより、モバイルロボットは動的環境で効果的にナビゲートできます。
そのパフォーマンスは、典型的な倉庫設定を表すさまざまなシナリオにアクセスされます。
結果は、提案されたアプローチが他の既存の動的障害回避方法よりも優れていることを示しています。

要約(オリジナル)

This paper proposes an integrated approach for the safe and efficient control of mobile robots in dynamic and uncertain environments. The approach consists of two key steps: one-shot multimodal motion prediction to anticipate motions of dynamic obstacles and model predictive control to incorporate these predictions into the motion planning process. Motion prediction is driven by an energy-based neural network that generates high-resolution, multi-step predictions in a single operation. The prediction outcomes are further utilized to create geometric shapes formulated as mathematical constraints. Instead of treating each dynamic obstacle individually, predicted obstacles are grouped by proximity in an unsupervised way to improve performance and efficiency. The overall collision-free navigation is handled by model predictive control with a specific design for proactive dynamic obstacle avoidance. The proposed approach allows mobile robots to navigate effectively in dynamic environments. Its performance is accessed across various scenarios that represent typical warehouse settings. The results demonstrate that the proposed approach outperforms other existing dynamic obstacle avoidance methods.

arxiv情報

著者 Ze Zhang,Georg Hess,Junjie Hu,Emmanuel Dean,Lennart Svensson,Knut Åkesson
発行日 2025-06-04 14:05:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Future-Oriented Navigation: Dynamic Obstacle Avoidance with One-Shot Energy-Based Multimodal Motion Prediction はコメントを受け付けていません

A Bi-Level Optimization Method for Redundant Dual-Arm Minimum Time Problems

要約

この作業では、冗長なデュアルアームロボットが、位置、速度、および加速制限を条件として、そのジョイント軌道を最適化することにより、一定の経路速度で望ましい相対デカルトパスに従うために必要な時間を最小限に抑える方法を提示します。
この問題は、低レベルが固定軌道のパス速度を最大化する凸型の閉じた型のサブ問題である2レベルの最適化として再定式化されますが、上位レベルは、単一鎖の運動式定式化と低レベルの値のサブ勾配を使用して軌道を更新します。
数値結果は、提案されたアプローチの有効性を示しています。

要約(オリジナル)

In this work, we present a method for minimizing the time required for a redundant dual-arm robot to follow a desired relative Cartesian path at constant path speed by optimizing its joint trajectories, subject to position, velocity, and acceleration limits. The problem is reformulated as a bi-level optimization whose lower level is a convex, closed-form subproblem that maximizes path speed for a fixed trajectory, while the upper level updates the trajectory using a single-chain kinematic formulation and the subgradient of the lower-level value. Numerical results demonstrate the effectiveness of the proposed approach.

arxiv情報

著者 Jonathan Fried,Santiago Paternain
発行日 2025-06-04 14:11:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Bi-Level Optimization Method for Redundant Dual-Arm Minimum Time Problems はコメントを受け付けていません

Safe, Out-of-Distribution-Adaptive MPC with Conformalized Neural Network Ensembles

要約

SoDA-MPCは、予測に学習されたモデルのアンサンブルを使用する安全で分散型に適したモデル予測制御アルゴリズムであり、実行時間モニターを使用して信頼できない分散分布(OOD)予測にフラグを立てます。
OODの状況が検出されると、SODA-MPCはリーチ性に基づいて安全なフォールバック制御戦略をトリガーし、リーチ可能性ベースの制御の安全性を維持しながら、学習ベースのモデルの高性能を達成する制御フレームワークを生成します。
Soda-MPCが歩行者の予測のためにニューラルネットワークアンサンブルを使用する動的な歩行者の間を運転する自律車両のコンテキストで方法を実証します。
適合予測を使用してOOD信号を調整し、ユーザー指定の信頼レベルを考慮して、偽陽性レートを確率的に保証するOOD検出器を導き出します。
分布中の操作中、MPCコントローラーは、アンサンブルの平均によって予測される軌道に基づいて、歩行者との衝突を回避します。
ood条件が検出されると、MPCは到達可能性ベースのコントローラーに切り替えて、歩行者の最大のアクションで安全を保証するために、最大の歩行者速度を想定して歩行者の到達可能なセットとの衝突を回避します。
歩行者を渡るシナリオで、広範な自律運転シミュレーションでソーダ-MPCを確認します。
私たちのモデルアンサンブルは、実際の歩行者データでトレーニングおよび較正されており、当社のOOD検出器が理論的に予測された範囲内で望ましい精度を取得することを示しています。
適応は適応なしでも、適応を使用することなく、2つの最先端のMPCメソッドと比較して、安全性の向上と改善されたタスクの完了を経験的に示しています。
さらに、トレーニングとキャリブレーションのためにNuscenes Datasetの大規模なトラフィックデータを使用して、大規模なマルチエージェント予測子Trajectron ++を使用した方法の有効性を実証します。

要約(オリジナル)

We present SODA-MPC, a Safe, Out-of-Distribution-Adaptive Model Predictive Control algorithm, which uses an ensemble of learned models for prediction, with a runtime monitor to flag unreliable out-of-distribution (OOD) predictions. When an OOD situation is detected, SODA-MPC triggers a safe fallback control strategy based on reachability, yielding a control framework that achieves the high performance of learning-based models while preserving the safety of reachability-based control. We demonstrate the method in the context of an autonomous vehicle, driving among dynamic pedestrians, where SODA-MPC uses a neural network ensemble for pedestrian prediction. We calibrate the OOD signal using conformal prediction to derive an OOD detector with probabilistic guarantees on the false-positive rate, given a user-specified confidence level. During in-distribution operation, the MPC controller avoids collisions with a pedestrian based on the trajectory predicted by the mean of the ensemble. When OOD conditions are detected, the MPC switches to a reachability-based controller to avoid collisions with the reachable set of the pedestrian assuming a maximum pedestrian speed, to guarantee safety under the worst-case actions of the pedestrian. We verify SODA-MPC in extensive autonomous driving simulations in a pedestrian-crossing scenario. Our model ensemble is trained and calibrated with real pedestrian data, showing that our OOD detector obtains the desired accuracy rate within a theoretically-predicted range. We empirically show improved safety and improved task completion compared with two state-of-the-art MPC methods that also use conformal prediction, but without OOD adaptation. Further, we demonstrate the effectiveness of our method with the large-scale multi-agent predictor Trajectron++, using large-scale traffic data from the nuScenes dataset for training and calibration.

arxiv情報

著者 Jose Leopoldo Contreras,Ola Shorinwa,Mac Schwager
発行日 2025-06-04 14:49:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Safe, Out-of-Distribution-Adaptive MPC with Conformalized Neural Network Ensembles はコメントを受け付けていません

Autonomous Vehicle Lateral Control Using Deep Reinforcement Learning with MPC-PID Demonstration

要約

コントローラーは、自律運転パイプラインで最も重要なモジュールの1つであり、車両が望ましい位置に達するようにします。
この作業では、測定エラーと単純化による車両モデルの欠陥にもかかわらず、強化学習ベースの横方向制御アプローチが提示されています。
私たちのアプローチは、制御モジュールと他のモジュールの間のインターフェイスを考慮して、快適で効率的で堅牢な制御性能を保証します。
コントローラーは、従来のモデル予測制御(MPC)パーツの基底とデモンストレーターとして構成されており、MPC-PID部分からオンライン情報を活用するディープ補強学習(DRL)部分で構成されています。
コントローラーのパフォーマンスは、ウェイポイントのグラウンドトゥルースを入力として使用して、カーラで評価されます。
実験結果は、車両情報が不完全であり、DRLのトレーニングをデモンストレーション部分で安定させることができる場合のコントローラーの有効性を示しています。
これらの調査結果は、将来の自律運転パイプラインの開発と統合の取り組みを減らす可能性を強調しています。

要約(オリジナル)

The controller is one of the most important modules in the autonomous driving pipeline, ensuring the vehicle reaches its desired position. In this work, a reinforcement learning based lateral control approach, despite the imperfections in the vehicle models due to measurement errors and simplifications, is presented. Our approach ensures comfortable, efficient, and robust control performance considering the interface between controlling and other modules. The controller consists of the conventional Model Predictive Control (MPC)-PID part as the basis and the demonstrator, and the Deep Reinforcement Learning (DRL) part which leverages the online information from the MPC-PID part. The controller’s performance is evaluated in CARLA using the ground truth of the waypoints as inputs. Experimental results demonstrate the effectiveness of the controller when vehicle information is incomplete, and the training of DRL can be stabilized with the demonstration part. These findings highlight the potential to reduce development and integration efforts for autonomous driving pipelines in the future.

arxiv情報

著者 Chengdong Wu,Sven Kirchner,Nils Purschke,Alois C. Knoll
発行日 2025-06-04 15:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Autonomous Vehicle Lateral Control Using Deep Reinforcement Learning with MPC-PID Demonstration はコメントを受け付けていません

Optimizing Mesh to Improve the Triangular Expansion Algorithm for Computing Visibility Regions

要約

このペーパーでは、三角メッシュの最も有利なインスタンスである前処理構造を見つけることにより、可視性領域を計算するための三角形拡張アルゴリズム(TEA)のクエリパフォーマンスを改善する問題に対処します。
お茶は、目に見える領域を追跡しながら、メッシュを再帰的に横断します。これは、多角形の世界のクエリポイントから見えるすべてのポイントのセットです。
測定されたクエリ時間が、メッシュトラバーサル中の三角エッジ拡張の数にほぼ比例していることを示します。
クエリポイントが既知の確率分布から引き出されると仮定して、予想される拡張の数を最小限に抑える新しいタイプの三角メッシュを提案します。
メッシュに近似し、実際の環境に似た多くの挑戦的なインスタンスでアプローチを評価するためのヒューリスティックな方法を設計します。
提案されたメッシュは、参照制約のあるDelaunayの三角測量と比較して、平均クエリ時間を12〜16%改善します。
このアプローチは、前処理時間に対処せずに何百万ものクエリを計算する必要があるオフラインアプリケーションをブーストするのに適しています。
この実装は、実験を再現し、コミュニティに役立つために公開されています。

要約(オリジナル)

This paper addresses the problem of improving the query performance of the triangular expansion algorithm (TEA) for computing visibility regions by finding the most advantageous instance of the triangular mesh, the preprocessing structure. The TEA recursively traverses the mesh while keeping track of the visible region, the set of all points visible from a query point in a polygonal world. We show that the measured query time is approximately proportional to the number of triangle edge expansions during the mesh traversal. We propose a new type of triangular mesh that minimizes the expected number of expansions assuming the query points are drawn from a known probability distribution. We design a heuristic method to approximate the mesh and evaluate the approach on many challenging instances that resemble real-world environments. The proposed mesh improves the mean query times by 12-16% compared to the reference constrained Delaunay triangulation. The approach is suitable to boost offline applications that require computing millions of queries without addressing the preprocessing time. The implementation is publicly available to replicate our experiments and serve the community.

arxiv情報

著者 Jan Mikula,Miroslav Kulich
発行日 2025-06-04 15:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.RO | Optimizing Mesh to Improve the Triangular Expansion Algorithm for Computing Visibility Regions はコメントを受け付けていません

Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data

要約

現実世界のロボットモーションから直接正確で物理的なシミュレーションを作成すると、安全でスケーラブルで手頃なロボット学習に大きな価値がありますが、非常に挑戦的なままです。
実際のロボットデータには、閉塞、ノイズの多いカメラのポーズ、動的なシーン要素に苦しんでおり、目に見えないオブジェクトの幾何学的に正確で光選挙的なデジタル双子の作成を妨げます。
これらすべての課題に一度に取り組む新しいリアルからシムのフレームワークを紹介します。
私たちの重要な洞察は、単一の表現内の物理シミュレーションに適した明示的なオブジェクトメッシュと3Dガウスのスプラッティングのフォトリアリスティックなレンダリングをマージするハイブリッドシーン表現です。
ムホコ内で微分可能なレンダリングと微分物理学を活用して、オブジェクトのジオメトリと外観からロボットのポーズや物理的パラメーターまで、生および不正確なロボットのトレーズから直接、すべてのシーンコンポーネントを共同で改良するエンドツーエンドの最適化パイプラインを提案します。
この統一された最適化により、同時に高忠実度オブジェクトメッシュの再構築を実現し、光リアリスティックな新規ビューを生成し、注釈のないロボットポーズキャリブレーションを実行することができます。
シミュレーションと、Aloha 2の双方向マニピュレーターを使用した現実世界のシーケンスに挑戦するアプローチの有効性を実証し、より実用的で堅牢な現実からシミュレーションパイプラインを可能にします。

要約(オリジナル)

Creating accurate, physical simulations directly from real-world robot motion holds great value for safe, scalable, and affordable robot learning, yet remains exceptionally challenging. Real robot data suffers from occlusions, noisy camera poses, dynamic scene elements, which hinder the creation of geometrically accurate and photorealistic digital twins of unseen objects. We introduce a novel real-to-sim framework tackling all these challenges at once. Our key insight is a hybrid scene representation merging the photorealistic rendering of 3D Gaussian Splatting with explicit object meshes suitable for physics simulation within a single representation. We propose an end-to-end optimization pipeline that leverages differentiable rendering and differentiable physics within MuJoCo to jointly refine all scene components – from object geometry and appearance to robot poses and physical parameters – directly from raw and imprecise robot trajectories. This unified optimization allows us to simultaneously achieve high-fidelity object mesh reconstruction, generate photorealistic novel views, and perform annotation-free robot pose calibration. We demonstrate the effectiveness of our approach both in simulation and on challenging real-world sequences using an ALOHA 2 bi-manual manipulator, enabling more practical and robust real-to-simulation pipelines.

arxiv情報

著者 Ben Moran,Mauro Comi,Steven Bohez,Tom Erez,Zhibin Li,Leonard Hasenclever
発行日 2025-06-04 16:14:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.RO | Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data はコメントを受け付けていません

Towards Trustworthy Federated Learning with Untrusted Participants

要約

悪意のある参加者とデータのプライバシーに対する回復力は、信頼できる連合学習に不可欠ですが、通常、両方を達成するには通常、信頼できる中央サーバーの強い仮定が必要です。
このホワイトペーパーでは、非常に弱い仮定で十分であることが示されています。参加者の各ペアは、他の人に知られていないランダム性の種を共有しています。
悪意のある参加者が信頼できないサーバーと共謀する可能性のある設定では、参加者間の共有ランダム性を使用して、堅牢な勾配集計と相関ノイズインジェクションを統合するアルゴリズムであるCafcorを提案します。
CAFCORは、サーバーが完全に信頼されている中央のDPユーティリティに近づいている間、信頼の仮定を行うことのないローカルディファレンシャルプライバシー(DP)メソッドを大幅に上回っている強力なプライバシー性の高いトレードオフを達成していることを証明しています。
標準ベンチマークの経験的結果は、Cafcorの実用性を検証し、プライバシーと堅牢性がユーティリティを犠牲にしたり、サーバーを信頼したりせずに分散システムに共存できることを示しています。

要約(オリジナル)

Resilience against malicious participants and data privacy are essential for trustworthy federated learning, yet achieving both with good utility typically requires the strong assumption of a trusted central server. This paper shows that a significantly weaker assumption suffices: each pair of participants shares a randomness seed unknown to others. In a setting where malicious participants may collude with an untrusted server, we propose CafCor, an algorithm that integrates robust gradient aggregation with correlated noise injection, using shared randomness between participants. We prove that CafCor achieves strong privacy-utility trade-offs, significantly outperforming local differential privacy (DP) methods, which do not make any trust assumption, while approaching central DP utility, where the server is fully trusted. Empirical results on standard benchmarks validate CafCor’s practicality, showing that privacy and robustness can coexist in distributed systems without sacrificing utility or trusting the server.

arxiv情報

著者 Youssef Allouah,Rachid Guerraoui,John Stephan
発行日 2025-06-04 15:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.DC, cs.LG | Towards Trustworthy Federated Learning with Untrusted Participants はコメントを受け付けていません

Batched Nonparametric Contextual Bandits

要約

バッチ制約の下でノンパラメトリックコンテキストバンディットを研究します。各アクションの予想される報酬は、共変量のスムーズな機能としてモデル化され、各バッチの観測値の最後にポリシーの更新が行われます。
この設定に対するミニマックスの後悔の下限を確立し、最適な後悔を達成する新しいバッチ学習アルゴリズムを提案します(対数要因まで)。
本質的に、私たちの手順は、共変量空間をより小さなビンに動的に分割し、幅をバッチサイズに注意深く整列させます。
私たちの理論的結果は、ノンパラメトリックの文脈的盗賊の場合、ほぼ一定のポリシー更新が完全にオンラインの設定で最適な後悔を達成できることを示唆しています。

要約(オリジナル)

We study nonparametric contextual bandits under batch constraints, where the expected reward for each action is modeled as a smooth function of covariates, and the policy updates are made at the end of each batch of observations. We establish a minimax regret lower bound for this setting and propose a novel batch learning algorithm that achieves the optimal regret (up to logarithmic factors). In essence, our procedure dynamically splits the covariate space into smaller bins, carefully aligning their widths with the batch size. Our theoretical results suggest that for nonparametric contextual bandits, a nearly constant number of policy updates can attain optimal regret in the fully online setting.

arxiv情報

著者 Rong Jiang,Cong Ma
発行日 2025-06-04 15:26:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | Batched Nonparametric Contextual Bandits はコメントを受け付けていません