ARCADE: Scalable Demonstration Collection and Generation via Augmented Reality for Imitation Learning

要約

ロボット模倣学習 (IL) は、エージェントが人間のデモンストレーションを模倣することで学習する、ロボット学習における重要な技術です。
ただし、IL は、ユーザーフレンドリーではないデモンストレーション収集方法と、効果的なトレーニングに十分な数のデモンストレーションを収集するのに必要な膨大な時間の両方に起因するスケーラビリティの課題に直面しています。
これに応えて、ロボット操作タスクのデモンストレーション収集をスケールアップするように設計された、デモンストレーションの収集と生成のための拡張現実 (ARCADE) フレームワークを導入します。
当社のフレームワークは 2 つの重要な機能を組み合わせています。1) AR を活用して、ユーザーが手を使って日常業務を実行するのと同じくらい簡単にデモンストレーションの収集を行うことができます。2) 単一の人間由来のデモンストレーションから追加の合成デモンストレーションを自動生成できるため、ユーザーの大幅な削減が可能になります。
努力と時間。
3 つのウェイポイント (リーチ、プッシュ、ピックアンドプレイス) の 3 つのロボット タスクにわたって、実際のフェッチ ロボットでの ARCADE のパフォーマンスを評価します。
私たちのフレームワークを使用すると、これら 3 つのタスクにわたって優れた古典的な IL アルゴリズムであるバニラ Behavioral Cloning (BC) を使用してポリシーを迅速にトレーニングすることができました。
また、実際の家事タスク「水を注ぐ」にも ARCADE を導入し、80% の成功率を達成しました。

要約(オリジナル)

Robot Imitation Learning (IL) is a crucial technique in robot learning, where agents learn by mimicking human demonstrations. However, IL encounters scalability challenges stemming from both non-user-friendly demonstration collection methods and the extensive time required to amass a sufficient number of demonstrations for effective training. In response, we introduce the Augmented Reality for Collection and generAtion of DEmonstrations (ARCADE) framework, designed to scale up demonstration collection for robot manipulation tasks. Our framework combines two key capabilities: 1) it leverages AR to make demonstration collection as simple as users performing daily tasks using their hands, and 2) it enables the automatic generation of additional synthetic demonstrations from a single human-derived demonstration, significantly reducing user effort and time. We assess ARCADE’s performance on a real Fetch robot across three robotics tasks: 3-Waypoints-Reach, Push, and Pick-And-Place. Using our framework, we were able to rapidly train a policy using vanilla Behavioral Cloning (BC), a classic IL algorithm, which excelled across these three tasks. We also deploy ARCADE on a real household task, Pouring-Water, achieving an 80% success rate.

arxiv情報

著者 Yue Yang,Bryce Ikeda,Gedas Bertasius,Daniel Szafir
発行日 2024-10-21 13:24:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ARCADE: Scalable Demonstration Collection and Generation via Augmented Reality for Imitation Learning はコメントを受け付けていません

Optimizing BioTac Simulation for Realistic Tactile Perception

要約

触覚センシングは、今日のロボットのインタラクション能力を強化する有望な機会を提供します。
BioTac は、ロボットが物理的な触覚刺激を認識して反応できるようにする、一般的に使用される触覚センサーです。
ただし、センサーの非線形性により、その動作をシミュレーションする際に課題が生じます。
この論文では、まず温度、力、接触点の位置を使用してセンサー出力を予測する BioTac シミュレーションを調査します。
BioTac 温度測定値を使用したトレーニングでは、展開中に正確なセンサー出力予測が得られないことを示します。
その結果、XGBoost リグレッサー、ニューラル ネットワーク、およびトランスフォーマー エンコーダーという 3 つの代替モデルをテストしました。
温度測定値を使用せずにこれらのモデルをトレーニングし、入力ベクトルのウィンドウ サイズの詳細な調査を提供します。
ベースライン ネットワークと比較して統計的に有意な改善が達成されることを実証します。
さらに、私たちの結果は、XGBoost リグレッサーとトランスフォーマーがこのタスクにおいて従来のフィードフォワード ニューラル ネットワークよりも優れたパフォーマンスを発揮することを明らかにしています。
すべてのコードと結果は、https://github.com/wzaielamri/Optimizing_BioTac_Simulation でオンラインで利用できるようにしています。

要約(オリジナル)

Tactile sensing presents a promising opportunity for enhancing the interaction capabilities of today’s robots. BioTac is a commonly used tactile sensor that enables robots to perceive and respond to physical tactile stimuli. However, the sensor’s non-linearity poses challenges in simulating its behavior. In this paper, we first investigate a BioTac simulation that uses temperature, force, and contact point positions to predict the sensor outputs. We show that training with BioTac temperature readings does not yield accurate sensor output predictions during deployment. Consequently, we tested three alternative models, i.e., an XGBoost regressor, a neural network, and a transformer encoder. We train these models without temperature readings and provide a detailed investigation of the window size of the input vectors. We demonstrate that we achieve statistically significant improvements over the baseline network. Furthermore, our results reveal that the XGBoost regressor and transformer outperform traditional feed-forward neural networks in this task. We make all our code and results available online on https://github.com/wzaielamri/Optimizing_BioTac_Simulation.

arxiv情報

著者 Wadhah Zai El Amri,Nicolás Navarro-Guerrero
発行日 2024-10-21 13:28:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Optimizing BioTac Simulation for Realistic Tactile Perception はコメントを受け付けていません

Continuum Robot Shape Estimation Using Magnetic Ball Chains

要約

医療用連続ロボットの形状センシングは、閉ループ制御にとっても、臨床医が体内のロボットを視覚化できるようにするためにも重要です。
安価だが正確な形状センシング技術が必要とされています。
この論文では、ホール効果センサーの外部アレイによって検出できる形状固有の磁場を生成する手段として磁気ボール チェーンを使用することを提案しています。
このようなボールチェーンは、柔軟なポリマースリーブに包まれており、任意の連続ロボットの内腔内に挿入して、リアルタイムの形状フィードバックを提供できます。
内腔全体を使用できるようにするために、手順中に必要に応じてスリーブを取り外すことができます。
このアプローチを調査するために、操縦可能なカテーテル先端の形状センシング モデルが導出され、可観測性と感度の分析が提示されます。
実験によると、全長に対する先端位置の推定誤差は最大 7.1%、平均 2.9% でした。

要約(オリジナル)

Shape sensing of medical continuum robots is important both for closed-loop control as well as for enabling the clinician to visualize the robot inside the body. There is a need for inexpensive, but accurate shape sensing technologies. This paper proposes the use of magnetic ball chains as a means of generating shape-specific magnetic fields that can be detected by an external array of Hall effect sensors. Such a ball chain, encased in a flexible polymer sleeve, could be inserted inside the lumen of any continuum robot to provide real-time shape feedback. The sleeve could be removed, as needed, during the procedure to enable use of the entire lumen. To investigate this approach, a shape-sensing model for a steerable catheter tip is derived and an observability and sensitivity analysis are presented. Experiments show maximum estimation errors of 7.1% and mean of 2.9% of the tip position with respect to total length.

arxiv情報

著者 Giovanni Pittiglio,Abdulhamit Donder,Pierre E. Dupont
発行日 2024-10-21 13:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Continuum Robot Shape Estimation Using Magnetic Ball Chains はコメントを受け付けていません

Collaborative Goal Tracking of Multiple Mobile Robots Based on Geometric Graph Neural Network

要約

複数の移動ロボットは、空間的に分散されたさまざまなタスクで重要な役割を果たしており、作業効率を高めるための協調的な経路計画の重要性が強調されています。
不慣れで反復性のないシナリオでは、世界地図の再構築は時間効率が悪く、非現実的な場合があります。
そこで、世界地図に依存せず、異なる位置にある複数のロボットからのセンサーデータを活用し、リアルタイムの協調計画を実現する研究が行われてきました。
この論文では、幾何グラフ ニューラル ネットワーク (MRPP-GeoGNN) に基づくマルチロボット協調経路計画法を紹介します。
まず、各隣接ロボットの感覚データの特徴が抽出され、隣接ロボットの相対位置が各インタラクション層に統合され、位置の詳細とともに障害物情報が組み込まれます。
その後、GeoGNN は、統合されたローカル環境の特徴を、ロボットの実際の動きの複数の前方向にマッピングします。
ロボットが物理環境内で段階的に前進できるようにエキスパート データ生成方法が考案され、ROS でさまざまなエキスパート データを生成してネットワークをトレーニングします。
提案手法の有効性を検証するために、シミュレーションと物理実験の両方を実施しました。
シミュレーション結果は、エキスパート データセットを使用した CNN のみに基づくモデルと比較して、精度が約 5% 向上していることを示しています。
ROS シミュレーション テストでは、CNN と比較して成功率が約 4% 向上し、フロー時間の増加が約 8% 削減され、他の GNN モデルを上回りました。
物理実験の結果は、提案された方法により、ロボットが実際の環境でうまく移動し、ベンチマーク方法と比較して最短の平均経路長を達成できることを示しています。

要約(オリジナル)

Multiple mobile robots play a significant role in various spatially distributed tasks, highlighting the importance of collaborative path planning to enhance operational efficiency. In unfamiliar and non-repetitive scenarios, reconstructing the global map can be time-inefficient and sometimes unrealistic. Therefore, research has focused on achieving real-time collaborative planning by utilizing sensor data from multiple robots located at different positions, without relying on a global map. This paper introduces a Multi-Robot Collaborative Path Planning method based on a Geometric Graph Neural Network (MRPP-GeoGNN). First, the features of each neighboring robot’s sensory data are extracted, and the relative positions of neighboring robots are integrated into each interaction layer to incorporate obstacle information along with location details. Subsequently, GeoGNN maps the amalgamated local environment features to multiple forward directions for the robot’s actual movement. An expert data generation method is devised for the robot to advance step by step in the physical environment, generating different expert data in ROS to train the network. We conducted both simulations and physical experiments to validate the effectiveness of the proposed method. Simulation results demonstrate approximately a 5% improvement in accuracy compared to the model based solely on CNN using expert datasets. In the ROS simulation test, the success rate is enhanced by about 4% compared to CNN, and the flow time increase is reduced by approximately 8%, surpassing other GNN models. The physical experimental results indicate that the proposed method enables the robot to navigate successfully in the actual environment and achieve the shortest average path length compared to the benchmark method.

arxiv情報

著者 Weining Lu,Qingquan Lin,Litong Meng,Chenxi Li,Bin Liang
発行日 2024-10-21 14:15:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | Collaborative Goal Tracking of Multiple Mobile Robots Based on Geometric Graph Neural Network はコメントを受け付けていません

A Lyapunov-Based Switching Scheme for Selecting the Stable Closed-Loop Fixed Attitude-Error Quaternion During Flight

要約

飛行中の無人航空機 (UAV) の回転自由度を制御するために、姿勢誤差四元数 (AEQ) と角速度誤差の両方を使用するスイッチング スキームを提案します。
このアプローチでは、提案されたコントローラーは、2 つのエネルギーベースのリアプノフ関数で計算されたコスト間の最小コストに対応する安定した閉ループ (CL) 平衡 AEQ を継続的に選択します。
CL スイッチング ダイナミクスの安定性を解析して強化するために、基本的な非線形理論を使用します。
安定した CL 平衡 AEQ の選択が飛行中の制御される UAV の出力とエネルギー要件を直接決定するため、この研究問題は関連性があります。
提案されたアプローチの実装、適合性、機能性、およびパフォーマンスをテストおよび実証するために、飛行中に高速ヨー操縦を実行するように制御された 31 グラムのクアッドローターを使用して得られた実験結果を示します。
これらの飛行テストは、提案されたスイッチング コントローラーが、よく使用されるベンチマーク コントローラーに対応するコントローラーと比較して、制御労力と回転力をそれぞれ平均 49.75 % と 28.14 % も削減できることを示しています。

要約(オリジナル)

We present a switching scheme, which uses both the attitude-error quaternion (AEQ) and the angular-velocity error, for controlling the rotational degrees of freedom of an uncrewed aerial vehicle (UAV) during flight. In this approach, the proposed controller continually selects the stable closed-loop (CL) equilibrium AEQ corresponding to the smallest cost between those computed with two energy-based Lyapunov functions. To analyze and enforce the stability of the CL switching dynamics, we use basic nonlinear theory. This research problem is relevant because the selection of the stable CL equilibrium AEQ directly determines the power and energy requirements of the controlled UAV during flight. To test and demonstrate the implementation, suitability, functionality, and performance of the proposed approach, we present experimental results obtained using a 31-gram quadrotor, which was controlled to execute high-speed yaw maneuvers in flight. These flight tests show that the proposed switching controller can respectively reduce the control effort and rotational power by as much as 49.75 % and 28.14 %, on average, compared to those corresponding to an often-used benchmark controller.

arxiv情報

著者 Francisco M. F. R. Goncalves,Ryan M. Bena,Konstantin I. Matveev,Nestor O. Perez-Arancibia
発行日 2024-10-21 16:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | A Lyapunov-Based Switching Scheme for Selecting the Stable Closed-Loop Fixed Attitude-Error Quaternion During Flight はコメントを受け付けていません

Data Efficient Behavior Cloning for Fine Manipulation via Continuity-based Corrective Labels

要約

私たちは、専門家のデモンストレーションのみにアクセスして模倣学習を検討しますが、その現実世界への応用は、実行中の複合誤差による共変量シフトによって制限されることがよくあります。
私たちは、現実世界の微細操作タスクにおけるこの問題を軽減するための、模倣学習のための連続性ベースの修正ラベル (CCIL) フレームワークの有効性を調査します。
CCIL は、デモンストレーションから局所連続ダイナミクス モデルを学習することで修正ラベルを生成し、エージェントをエキスパート状態に戻すように導きます。
ペグの挿入と細かい把握に関する広範な実験を通じて、接触が多い操作に不連続性が存在するにもかかわらず、CCIL が模倣学習のパフォーマンスを大幅に向上させることができるという最初の経験的検証を提供します。
その結果、(1) 現実世界の操作は CCIL を適用するのに十分な局所的な滑らかさを示し、(2) 生成された修正ラベルは低データ領域で最も有益であり、(3) 推定されたダイナミクス モデル誤差に基づくラベル フィルタリングによりパフォーマンスが向上することがわかりました。
CCIL をロボット ドメインに効果的に適用するために、フレームワークの実用的なインスタンス化と、設計の選択とハイパーパラメーターの選択に関する洞察を提供します。
私たちの研究は、物理的なロボットでの模倣学習における複合エラーを軽減するための CCIL の実用性を実証しています。

要約(オリジナル)

We consider imitation learning with access only to expert demonstrations, whose real-world application is often limited by covariate shift due to compounding errors during execution. We investigate the effectiveness of the Continuity-based Corrective Labels for Imitation Learning (CCIL) framework in mitigating this issue for real-world fine manipulation tasks. CCIL generates corrective labels by learning a locally continuous dynamics model from demonstrations to guide the agent back toward expert states. Through extensive experiments on peg insertion and fine grasping, we provide the first empirical validation that CCIL can significantly improve imitation learning performance despite discontinuities present in contact-rich manipulation. We find that: (1) real-world manipulation exhibits sufficient local smoothness to apply CCIL, (2) generated corrective labels are most beneficial in low-data regimes, and (3) label filtering based on estimated dynamics model error enables performance gains. To effectively apply CCIL to robotic domains, we offer a practical instantiation of the framework and insights into design choices and hyperparameter selection. Our work demonstrates CCIL’s practicality for alleviating compounding errors in imitation learning on physical robots.

arxiv情報

著者 Abhay Deshpande,Liyiming Ke,Quinn Pfeifer,Abhishek Gupta,Siddhartha S. Srinivasa
発行日 2024-10-21 16:44:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Data Efficient Behavior Cloning for Fine Manipulation via Continuity-based Corrective Labels はコメントを受け付けていません

LASER: Script Execution by Autonomous Agents for On-demand Traffic Simulation

要約

自動運転システム (ADS) では、効果的なトレーニングとテストのために安全性が重要な多様な交通シナリオが必要ですが、既存のデータ生成方法では柔軟性と拡張性を提供するのが困難です。
私たちは、大規模言語モデル (LLM) を利用して自然言語入力に基づいて交通シミュレーションを実行する新しいフレームワークである LASER を提案します。
このフレームワークは 2 つの段階で動作します。最初にユーザーが提供した記述からスクリプトを生成し、次に自律エージェントを使用してリアルタイムでスクリプトを実行します。
CARLA シミュレーターで検証された LASER は、複雑なオンデマンド運転シナリオの生成に成功し、ADS トレーニングとテスト データ生成を大幅に改善しました。

要約(オリジナル)

Autonomous Driving Systems (ADS) require diverse and safety-critical traffic scenarios for effective training and testing, but the existing data generation methods struggle to provide flexibility and scalability. We propose LASER, a novel frame-work that leverage large language models (LLMs) to conduct traffic simulations based on natural language inputs. The framework operates in two stages: it first generates scripts from user-provided descriptions and then executes them using autonomous agents in real time. Validated in the CARLA simulator, LASER successfully generates complex, on-demand driving scenarios, significantly improving ADS training and testing data generation.

arxiv情報

著者 Hao Gao,Jingyue Wang,Wenyang Fang,Jingwei Xu,Yunpeng Huang,Taolue Chen,Xiaoxing Ma
発行日 2024-10-21 17:00:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | LASER: Script Execution by Autonomous Agents for On-demand Traffic Simulation はコメントを受け付けていません

ExDBN: Exact learning of Dynamic Bayesian Networks

要約

データからの因果学習は近年大きな注目を集めています。
因果関係を捉える方法の 1 つは、ベイジアン ネットワークを利用することです。
そこでは、確率変数が頂点によって表され、各エッジに関連付けられた重みがそれらの間の因果関係の強さを表す、重み付き有向非巡回グラフが復元されます。
この概念は、構造方程式モデルによって捕捉できる過去のデータへの依存性を導入することで動的効果を捕捉するように拡張されており、このモデルはスコアベースの学習アプローチを定式化するために今回の貢献で利用されています。
混合整数二次プログラムが定式化され、アルゴリズムによる解決策が提案されます。この解決策では、いわゆるブランチ アンド カット (「遅延制約」) 方法を利用することで、指数関数的に多くの非循環性制約の事前生成が回避されます。
新しいアプローチと最先端のアプローチを比較すると、提案されたアプローチが最大 25 の時系列の中小規模の合成インスタンスに適用された場合に優れた結果が得られることがわかります。
最後に、この方法が直接適用されるバイオサイエンスと金融における 2 つの興味深いアプリケーションは、小規模なインスタンスを処理できる高精度でグローバルに収束するソルバーを開発する機会をさらに強調します。

要約(オリジナル)

Causal learning from data has received much attention in recent years. One way of capturing causal relationships is by utilizing Bayesian networks. There, one recovers a weighted directed acyclic graph, in which random variables are represented by vertices, and the weights associated with each edge represent the strengths of the causal relationships between them. This concept is extended to capture dynamic effects by introducing a dependency on past data, which may be captured by the structural equation model, which is utilized in the present contribution to formulate a score-based learning approach. A mixed-integer quadratic program is formulated and an algorithmic solution proposed, in which the pre-generation of exponentially many acyclicity constraints is avoided by utilizing the so-called branch-and-cut (‘lazy constraint’) method. Comparing the novel approach to the state of the art, we show that the proposed approach turns out to produce excellent results when applied to small and medium-sized synthetic instances of up to 25 time-series. Lastly, two interesting applications in bio-science and finance, to which the method is directly applied, further stress the opportunities in developing highly accurate, globally convergent solvers that can handle modest instances.

arxiv情報

著者 Pavel Rytíř,Aleš Wodecki,Georgios Korpas,Jakub Mareček
発行日 2024-10-21 15:27:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | ExDBN: Exact learning of Dynamic Bayesian Networks はコメントを受け付けていません

LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics

要約

大規模モデルをトレーニングするためのメモリ効率の高いオプティマイザーである LDAdam を紹介します。これは、トレーニング中に完全なパラメーター空間を一貫して探索しながら、低次元の部分空間内で適応最適化ステップを実行します。
この戦略により、オプティマイザーのメモリ フットプリントがモデル サイズの一部に抑えられます。
LDAdam は、部分空間間の遷移、つまり投影された勾配の統計の推定を可能にするオプティマイザー状態の新しい投影認識更新ルールに依存しています。
低ランクの射影によるエラーを軽減するために、LDAdam には、勾配とオプティマイザーの状態圧縮の両方を明示的に考慮する、新しい一般化されたエラー フィードバック メカニズムが統合されています。
標準的な仮定の下で LDAdam の収束を証明し、LDAdam が言語モデルの正確かつ効率的な微調整と事前トレーニングを可能にすることを示します。

要約(オリジナル)

We introduce LDAdam, a memory-efficient optimizer for training large models, that performs adaptive optimization steps within lower dimensional subspaces, while consistently exploring the full parameter space during training. This strategy keeps the optimizer’s memory footprint to a fraction of the model size. LDAdam relies on a new projection-aware update rule for the optimizer states that allows for transitioning between subspaces, i.e., estimation of the statistics of the projected gradients. To mitigate the errors due to low-rank projection, LDAdam integrates a new generalized error feedback mechanism, which explicitly accounts for both gradient and optimizer state compression. We prove the convergence of LDAdam under standard assumptions, and show that LDAdam allows for accurate and efficient fine-tuning and pre-training of language models.

arxiv情報

著者 Thomas Robert,Mher Safaryan,Ionut-Vlad Modoranu,Dan Alistarh
発行日 2024-10-21 15:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics はコメントを受け付けていません

Statistical Inference for Temporal Difference Learning with Linear Function Approximation

要約

マルコフ決定プロセス (MDP) における特定のポリシーの価値関数に対する有限サンプル妥当性を備えた統計的推論は、強化学習の信頼性を確保するために重要です。
おそらく政策評価に最も広く使用されているアルゴリズムである時間差分 (TD) 学習は、この目的のための自然なフレームワークとして機能します。この論文では、Polyak-Ruppert 平均化と線形関数近似による TD 学習の一貫性特性を研究し、次の結果を取得します。
既存の結果に比べて 3 つの大幅な改善が見られます。
まず、漸近分散に明示的に依存し、弱い条件下でも成立する、新しいシャープな高次元確率収束保証を導出します。
さらに、文献に記載されているものよりも高速なレートを保証する、凸集合のクラスにわたる洗練された高次元ベリー・エッセン境界を確立します。
最後に、効率的なオンライン計算のために設計された、漸近共分散行列のプラグイン推定器を提案します。
これらの結果により、有限サンプル範囲が保証された、値関数の線形パラメーターの信頼領域と同時信頼区間の構築が可能になります。
数値実験を通じて理論的発見の適用可能性を実証します。

要約(オリジナル)

Statistical inference with finite-sample validity for the value function of a given policy in Markov decision processes (MDPs) is crucial for ensuring the reliability of reinforcement learning. Temporal Difference (TD) learning, arguably the most widely used algorithm for policy evaluation, serves as a natural framework for this purpose.In this paper, we study the consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation, and obtain three significant improvements over existing results. First, we derive a novel sharp high-dimensional probability convergence guarantee that depends explicitly on the asymptotic variance and holds under weak conditions. We further establish refined high-dimensional Berry-Esseen bounds over the class of convex sets that guarantee faster rates than those in the literature. Finally, we propose a plug-in estimator for the asymptotic covariance matrix, designed for efficient online computation. These results enable the construction of confidence regions and simultaneous confidence intervals for the linear parameters of the value function, with guaranteed finite-sample coverage. We demonstrate the applicability of our theoretical findings through numerical experiments.

arxiv情報

著者 Weichen Wu,Gen Li,Yuting Wei,Alessandro Rinaldo
発行日 2024-10-21 15:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Statistical Inference for Temporal Difference Learning with Linear Function Approximation はコメントを受け付けていません