Bench4Merge: A Comprehensive Benchmark for Merging in Realistic Dense Traffic with Micro-Interactive Vehicles

要約

自動運転の機能は急速に進歩していますが、密集した交通への合流は依然として大きな課題であり、このシナリオ向けの動作計画方法が多数提案されていますが、それらを評価するのは困難です。
既存の閉ループ シミュレータのほとんどは、他の車両に対するルールベースの制御に依存しているため、多様性とランダム性が欠如し、高度にインタラクティブなシナリオでの動作計画機能を正確に評価できません。
さらに、従来の評価指標は、密なトラフィックでの合流のパフォーマンスを包括的に評価するには不十分です。
これに応えて、シナリオを統合する際の動作計画能力を評価するための閉ループ評価ベンチマークを提案しました。
私たちのアプローチには、複雑さと多様性を大幅に高める微生物の行動特性を持つ大規模なデータセットでトレーニングされた他の車両が含まれます。
さらに、大規模な言語モデルを活用して、幹線道路に合流する各自動運転車を評価することにより、評価メカニズムを再構築しました。
広範な実験により、この評価ベンチマークの高度な性質が実証されました。
このベンチマークを通じて、既存の手法の評価を取得し、共通の問題を特定しました。
私たちが設計した環境および車両の動作計画モデルには、https://anonymous.4open.science/r/Bench4Merge-EB5D からアクセスできます。

要約(オリジナル)

While the capabilities of autonomous driving have advanced rapidly, merging into dense traffic remains a significant challenge, many motion planning methods for this scenario have been proposed but it is hard to evaluate them. Most existing closed-loop simulators rely on rule-based controls for other vehicles, which results in a lack of diversity and randomness, thus failing to accurately assess the motion planning capabilities in highly interactive scenarios. Moreover, traditional evaluation metrics are insufficient for comprehensively evaluating the performance of merging in dense traffic. In response, we proposed a closed-loop evaluation benchmark for assessing motion planning capabilities in merging scenarios. Our approach involves other vehicles trained in large scale datasets with micro-behavioral characteristics that significantly enhance the complexity and diversity. Additionally, we have restructured the evaluation mechanism by leveraging large language models to assess each autonomous vehicle merging onto the main road. Extensive experiments have demonstrated the advanced nature of this evaluation benchmark. Through this benchmark, we have obtained an evaluation of existing methods and identified common issues. The environment and vehicle motion planning models we have designed can be accessed at https://anonymous.4open.science/r/Bench4Merge-EB5D

arxiv情報

著者 Zhengming Wang,Junli Wang,Pengfei Li,Zhaohan Li,Peng Li,Yilun Chen
発行日 2024-10-21 11:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Bench4Merge: A Comprehensive Benchmark for Merging in Realistic Dense Traffic with Micro-Interactive Vehicles はコメントを受け付けていません

Bimanual Deformable Bag Manipulation Using a Structure-of-Interest Based Neural Dynamics Model

要約

ロボット システムによる変形可能な物体の操作には、その複雑で無限次元の構成空間があるため、大きな課題が生じます。
この論文では、変形可能な布製バッグ内の対象構造物 (SOI) の識別と操作に重点を置く、変形可能なオブジェクト操作 (DOM) への新しいアプローチを紹介します。
我々は、これらの SOI の動作を簡潔に表現および予測するために、グラフ ニューラル ネットワーク (GNN) ベースの潜在力学モデルを活用する両手操作フレームワークを提案します。
私たちのアプローチには、物体の部分的な点群データからグラフ表現を構築し、削減された計算スペース内で布製バッグの本質的な変形を効果的に捕捉する潜在力学モデルを学習することが含まれます。
この潜在力学モデルをモデル予測制御 (MPC) と統合することで、ロボット マニピュレーターが SOI に焦点を当てた正確で安定した操作タスクを実行できるようになります。
私たちは、布製バッグの両手操作における有効性を実証するさまざまな実証実験を通じて、フレームワークを検証してきました。
私たちの貢献は、DOM に固有の複雑さに対処するだけでなく、変形可能なオブジェクトの重要な構造要素に集中することで、変形可能なオブジェクトとのロボットの相互作用を強化するための新しい視点と方法論も提供します。
実験ビデオは https://sites.google.com/view/bagbot から入手できます。

要約(オリジナル)

The manipulation of deformable objects by robotic systems presents a significant challenge due to their complex and infinite-dimensional configuration spaces. This paper introduces a novel approach to Deformable Object Manipulation (DOM) by emphasizing the identification and manipulation of Structures of Interest (SOIs) in deformable fabric bags. We propose a bimanual manipulation framework that leverages a Graph Neural Network (GNN)-based latent dynamics model to succinctly represent and predict the behavior of these SOIs. Our approach involves constructing a graph representation from partial point cloud data of the object and learning the latent dynamics model that effectively captures the essential deformations of the fabric bag within a reduced computational space. By integrating this latent dynamics model with Model Predictive Control (MPC), we empower robotic manipulators to perform precise and stable manipulation tasks focused on the SOIs. We have validated our framework through various empirical experiments demonstrating its efficacy in bimanual manipulation of fabric bags. Our contributions not only address the complexities inherent in DOM but also provide new perspectives and methodologies for enhancing robotic interactions with deformable objects by concentrating on their critical structural elements. Experimental videos can be obtained from https://sites.google.com/view/bagbot.

arxiv情報

著者 Peng Zhou,Pai Zheng,Jiaming Qi,Chenxi Li,Samantha Lee,Chenguang Yang,David Navarro-Alarcon,Jia Pan
発行日 2024-10-21 11:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bimanual Deformable Bag Manipulation Using a Structure-of-Interest Based Neural Dynamics Model はコメントを受け付けていません

Fully distributed and resilient source seeking for robot swarms

要約

私たちは、一定の速度で移動するロボットの群れを使用して、未知の 3D スカラー フィールドの最大値を特定するための、自己完結型で回復力のある完全分散型のソリューションを提案します。
勾配情報に依存する従来の反応型手法とは異なり、私たちの方法論では、群れが任意の精度で発生源に近づくように上昇方向を決定できるようになります。
私たちのソース探索ソリューションは 3 つのアルゴリズムで構成されています。
最初の 2 つのアルゴリズムは、高頻度で順次かつ分散的に実行され、重心座標と上昇方向をそれぞれ個々のロボットに提供します。
3 番目のアルゴリズムは、推定された上昇方向をロボットが追従するための個別制御則です。
より高い頻度の 2 つのアルゴリズムは、一次動的システムの標準コンセンサス プロトコルに基づいているため、最終的な値に指数関数的に収束することを示します。
それらの高周波は、ロボットがスカラー フィールドを通過する速度に依存します。
ロボットは特定の幾何学的構成に制約されず、群れの形状内のロボットの離散的分布と連続的分布の両方を研究します。
形状分析により、ロボットの群れで予想されるような、私たちのアプローチの回復力が明らかになりました。つまり、ロボットを集合させることによって、人が行方不明になったり置き忘れられた場合、あるいはロボット ネットワークが 2 つ以上の切断されたサブネットワークに分割された場合でも、情報源探索機能が確保されます。
さらに、上昇方向が場の勾配とほぼ平行になるという意味で、 \emph{最適} な群れの形状の条件を提示することにより、アルゴリズムの堅牢性も強化します。
私たちはこのような分析を利用して、群れが上昇方向をたどりながら形状を変えて操縦することで未知の環境に適応できるようにします。

要約(オリジナル)

We propose a self-contained, resilient and fully distributed solution for locating the maximum of an unknown 3D scalar field using a swarm of robots that travel at constant speeds. Unlike conventional reactive methods relying on gradient information, our methodology enables the swarm to determine an ascending direction so that it approaches the source with arbitrary precision. Our source-seeking solution consists of three algorithms. The first two algorithms run sequentially and distributively at a high frequency providing barycentric coordinates and the ascending direction respectively to the individual robots. The third algorithm is the individual control law for a robot to track the estimated ascending direction. We show that the two algorithms with higher frequency have an exponential convergence to their eventual values since they are based on the standard consensus protocol for first-order dynamical systems; their high frequency depends on how fast the robots travel through the scalar field. The robots are not constrained to any particular geometric formation, and we study both discrete and continuous distributions of robots within swarm shapes. The shape analysis reveals the resiliency of our approach as expected in robot swarms, i.e., by amassing robots we ensure the source-seeking functionality in the event of missing or misplaced individuals or even if the robot network splits into two or more disconnected subnetworks. In addition, we also enhance the robustness of the algorithm by presenting conditions for \emph{optimal} swarm shapes, in the sense that the ascending directions can be closely parallel to the field’s gradient. We exploit such an analysis so that the swarm can adapt to unknown environments by morphing its shape and maneuvering while still following an ascending direction.

arxiv情報

著者 Jesús Bautista,Antonio Acuaviva,José Hinojosa,Weijia Yao,Juan Jiménez,Héctor García de Marina
発行日 2024-10-21 11:52:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Fully distributed and resilient source seeking for robot swarms はコメントを受け付けていません

SLR: Learning Quadruped Locomotion without Privileged Information

要約

最近主流となっている四足ロボットの強化学習制御は特権情報に依存することが多く、綿密な選択と正確な推定が要求されるため、開発プロセスに制約が課せられています。
この研究では、特権情報を必要とせずに高性能な制御ポリシー学習を実現する自己学習潜在表現 (SLR) 手法を提案します。
提案された方法の評価の信頼性を高めるために、SLR は、オープンソース コード リポジトリと元の構成パラメータを使用して最先端のアルゴリズムと直接比較されました。
注目すべきことに、SLR は限られた固有受容データのみを使用した以前の方法のパフォーマンスを上回り、将来のアプリケーションに対する大きな可能性を示しています。
最終的に、訓練されたポリシーとエンコーダーにより、四足ロボットはさまざまな困難な地形を横断できるようになります。
結果のビデオは、当社の Web サイトでご覧いただけます: https://11chens.github.io/SLR/

要約(オリジナル)

The recent mainstream reinforcement learning control for quadruped robots often relies on privileged information, demanding meticulous selection and precise estimation, thereby imposing constraints on the development process. This work proposes a Self-learning Latent Representation (SLR) method, which achieves high-performance control policy learning without the need for privileged information. To enhance the credibility of the proposed method’s evaluation, SLR was directly compared with state-of-the-art algorithms using their open-source code repositories and original configuration parameters. Remarkably, SLR surpasses the performance of previous methods using only limited proprioceptive data, demonstrating significant potential for future applications. Ultimately, the trained policy and encoder empower the quadruped robot to traverse various challenging terrains. Videos of our results can be found on our website: https://11chens.github.io/SLR/

arxiv情報

著者 Shiyi Chen,Zeyu Wan,Shiyang Yan,Chun Zhang,Weiyi Zhang,Qiang Li,Debing Zhang,Fasih Ud Din Farrukh
発行日 2024-10-21 11:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SLR: Learning Quadruped Locomotion without Privileged Information はコメントを受け付けていません

Neural Predictor for Flight Control with Payload

要約

自由浮遊マニピュレータの形態として、吊り下げられたペイロードを輸送するための空中ロボット工学は、近年大きな関心を集めています。
ただし、質量などのペイロードの事前情報を正確に取得することは、実際には常に困難です。
ペイロードおよび残留ダイナミクスによって生じる力/トルクは、モデル化されていない摂動をシステムに導入し、閉ループのパフォーマンスに悪影響を及ぼします。
推定のような方法とは異なり、この論文では、ペイロードおよび残留力学によって引き起こされる力/トルクを力学システムとしてモデル化する学習ベースのアプローチである Neural Predictor を提案します。
これにより、第一原理ダイナミクスと学習ダイナミクスの両方を含むハイブリッド モデルが生成されます。
このハイブリッド モデルは MPC フレームワークに統合され、閉ループのパフォーマンスが向上します。
提案されたフレームワークの有効性は、数値シミュレーションと現実世界の飛行実験の両方で広範囲に検証されています。
結果は、私たちのアプローチがペイロードと残留ダイナミクスによって引き起こされる力/トルクを正確に捕捉し、それらの変化に迅速に応答し、閉ループ性能を大幅に向上できることを示しています。
特に、Neural Predictor は最先端の学習ベースの推定器を上回り、より少ないサンプルを使用しながら力とトルクの推定誤差を最大 66.15% と 33.33% 削減しました。

要約(オリジナル)

Aerial robotics for transporting suspended payloads as the form of freely-floating manipulator are growing great interest in recent years. However, the prior information of the payload, such as the mass, is always hard to obtain accurately in practice. The force/torque caused by payload and residual dynamics will introduce unmodeled perturbations to the system, which negatively affects the closed-loop performance. Different from estimation-like methods, this paper proposes Neural Predictor, a learning-based approach to model force/torque caused by payload and residual dynamics as a dynamical system. It results a hybrid model including both the first-principles dynamics and the learned dynamics. This hybrid model is then integrated into a MPC framework to improve closed-loop performance. Effectiveness of proposed framework is verified extensively in both numerical simulations and real-world flight experiments. The results indicate that our approach can capture force/torque caused by payload and residual dynamics accurately, respond quickly to the changes of them and improve the closed-loop performance significantly. In particular, Neural Predictor outperforms a state-of-the-art learning-based estimator and has reduced the force and torque estimation errors by up to 66.15% and 33.33% while using less samples.

arxiv情報

著者 Ao Jin,Chenhao Li,Qinyi Wang,Ya Liu,Panfeng Huang,Fan Zhang
発行日 2024-10-21 12:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Neural Predictor for Flight Control with Payload はコメントを受け付けていません

Diffusion Transformer Policy

要約

多様なロボット データセットで事前トレーニングされた最近の大規模な視覚言語アクション モデルは、少数のドメイン内データを持つ新しい環境に一般化できる可能性を示しています。
ただし、これらのアプローチは通常、小さなアクション ヘッドによる離散的または連続的なアクションを予測するため、多様なアクション スペースを処理する能力が制限されます。
対照的に、拡散トランス ポリシーと呼ばれる大きなマルチモーダル拡散トランスを使用して連続アクションをモデル化します。この場合、小さなアクション ヘッドではなく大きなトランス モデルによってアクション チャンクのノイズを直接除去します。
トランスフォーマーのスケーリング機能を活用することで、提案されたアプローチは、大規模で多様なロボット データセットにわたる連続的なエンドエフェクターのアクションを効果的にモデル化し、より優れた汎化パフォーマンスを達成できます。
広範な実験により、多様なロボット データで事前トレーニングされた拡散トランスフォーマー ポリシーが、Maniskill2 や Calvin などのシミュレーション環境や現実世界の Franka アームなど、さまざまな実施形態に一般化できることが実証されています。
具体的には、提案されたアプローチは、追加機能なしで、Calvin の新しいタスク設定 (ABC->D) で 1 つのサードビュー カメラ ストリームのみで最先端のパフォーマンスを達成し、1 回のタスクで完了する平均タスク数を向上させます。
列は 5 から 3.6 であり、事前トレーニング段階により、Calvin の成功シーケンスの長さが 1.2 以上大幅に短縮されます。
コードは公開されます。

要約(オリジナル)

Recent large visual-language action models pretrained on diverse robot datasets have demonstrated the potential for generalizing to new environments with a few in-domain data. However, those approaches usually predict discretized or continuous actions by a small action head, which limits the ability in handling diverse action spaces. In contrast, we model the continuous action with a large multi-modal diffusion transformer, dubbed as Diffusion Transformer Policy, in which we directly denoise action chunks by a large transformer model rather than a small action head. By leveraging the scaling capability of transformers, the proposed approach can effectively model continuous end-effector actions across large diverse robot datasets, and achieve better generalization performance. Extensive experiments demonstrate Diffusion Transformer Policy pretrained on diverse robot data can generalize to different embodiments, including simulation environments like Maniskill2 and Calvin, as well as the real-world Franka arm. Specifically, without bells and whistles, the proposed approach achieves state-of-the-art performance with only a single third-view camera stream in the Calvin novel task setting (ABC->D), improving the average number of tasks completed in a row of 5 to 3.6, and the pretraining stage significantly facilitates the success sequence length on the Calvin by over 1.2. The code will be publicly available.

arxiv情報

著者 Zhi Hou,Tianyi Zhang,Yuwen Xiong,Hengjun Pu,Chengyang Zhao,Ronglei Tong,Yu Qiao,Jifeng Dai,Yuntao Chen
発行日 2024-10-21 12:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Diffusion Transformer Policy はコメントを受け付けていません

OmniRace: 6D Hand Pose Estimation for Intuitive Guidance of Racing Drone

要約

この論文では、6 自由度 (DoF) の手姿勢推定とジェスチャー認識を備えたレーシング ドローンを制御するための OmniRace アプローチを紹介します。
私たちの知る限り、これはジェスチャーを使用して高速ドローンの低レベル制御を可能にする史上初のテクノロジーです。
OmniRace は、コンピューター ビジョンとディープ ニューラル ネットワークに基づくジェスチャ インターフェイスを採用して、6-DoF の手のポーズを推定します。
高度な機械学習アルゴリズムは人間のジェスチャーを堅牢に解釈し、ユーザーがドローンの動きを直感的に制御できるようにします。
レーシングドローンのリアルタイム制御はシステムの有効性を実証し、ドローンレースやその他のアプリケーションに革命をもたらす可能性を検証します。
Gazebo シミュレーション環境で実施された実験結果では、OmniRace を使用すると、ユーザーが UAV レース トラックを大幅に (25.1%) 速く完走でき、テスト ドローンの経路の長さを短縮 (102.9 メートルから 83.7 メートルに) できることが明らかになりました。
ユーザーは、魅力度 (UEQ スコア 1.57)、快楽の質 (UEQ スコア 1.56)、知覚される時間的要求の低さ (NASA-TLX スコア 32.0) の点でジェスチャー インターフェイスを好みましたが、効率の高さ (UEQ スコア 0.75) と物理的要求の低さに注目しました (
NASA-TLX で 19.0 スコア) のベースライン リモート コントローラー。
ディープ ニューラル ネットワークは、正規化されたデータセットと生のデータセットの両方に適用された場合、平均 99.75% の精度を達成します。
OmniRace は、動的で複雑な環境で人間がレーシング ドローンと対話し、操縦する方法を変える可能性があります。
ソース コードは https://github.com/SerValera/OmniRace.git で入手できます。

要約(オリジナル)

This paper presents the OmniRace approach to controlling a racing drone with 6-degree of freedom (DoF) hand pose estimation and gesture recognition. To our knowledge, it is the first-ever technology that allows for low-level control of high-speed drones using gestures. OmniRace employs a gesture interface based on computer vision and a deep neural network to estimate a 6-DoF hand pose. The advanced machine learning algorithm robustly interprets human gestures, allowing users to control drone motion intuitively. Real-time control of a racing drone demonstrates the effectiveness of the system, validating its potential to revolutionize drone racing and other applications. Experimental results conducted in the Gazebo simulation environment revealed that OmniRace allows the users to complite the UAV race track significantly (by 25.1%) faster and to decrease the length of the test drone path (from 102.9 to 83.7 m). Users preferred the gesture interface for attractiveness (1.57 UEQ score), hedonic quality (1.56 UEQ score), and lower perceived temporal demand (32.0 score in NASA-TLX), while noting the high efficiency (0.75 UEQ score) and low physical demand (19.0 score in NASA-TLX) of the baseline remote controller. The deep neural network attains an average accuracy of 99.75% when applied to both normalized datasets and raw datasets. OmniRace can potentially change the way humans interact with and navigate racing drones in dynamic and complex environments. The source code is available at https://github.com/SerValera/OmniRace.git.

arxiv情報

著者 Valerii Serpiva,Aleksey Fedoseev,Sausar Karaf,Ali Alridha Abdulkarim,Dzmitry Tsetserukou
発行日 2024-10-21 13:00:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | OmniRace: 6D Hand Pose Estimation for Intuitive Guidance of Racing Drone はコメントを受け付けていません

Learning Quadrotor Control From Visual Features Using Differentiable Simulation

要約

強化学習 (RL) のサンプルの非効率性は、ロボット工学における重大な課題のままです。
RL には大規模なシミュレーションが必要ですが、それでもトレーニング時間が長くなり、研究やイノベーションが遅くなる可能性があります。
この問題は、信頼できる状態推定値が利用できないビジョンベースの制御タスクで特に顕著です。
微分可能シミュレーションは、ダイナミクス モデルを通じて勾配逆伝播を可能にし、分散の低い分析ポリシー勾配を提供することで、サンプル効率を高める代替手段を提供します。
ただし、現実世界のロボットタスクでの使用はまだ限定されています。
この研究は、クアッドローター制御を学習するための微分可能シミュレーションの大きな可能性を示しています。
微分可能シミュレーションでのトレーニングは、サンプル効率とトレーニング時間の両方の点でモデルフリー RL よりも大幅に優れており、車両の状態を提供する場合は数秒で、視覚的特徴のみに依存する場合は数分でクワッドローターを回復する方法をポリシーで学習できることを示します。
私たちの成功の鍵は 2 つあります。
まず、勾配計算に単純なサロゲート モデルを使用すると、制御パフォーマンスを犠牲にすることなくトレーニングが大幅に高速化されます。
第 2 に、状態表現学習とポリシー学習を組み合わせることで、視覚的な特徴のみが観察可能なタスクの収束速度が向上します。
これらの発見は、現実世界のロボット工学における微分可能なシミュレーションの可能性を強調し、従来の RL アプローチに代わる魅力的な選択肢を提供します。

要約(オリジナル)

The sample inefficiency of reinforcement learning (RL) remains a significant challenge in robotics. RL requires large-scale simulation and, still, can cause long training times, slowing down research and innovation. This issue is particularly pronounced in vision-based control tasks where reliable state estimates are not accessible. Differentiable simulation offers an alternative by enabling gradient back-propagation through the dynamics model, providing low-variance analytical policy gradients and, hence, higher sample efficiency. However, its usage for real-world robotic tasks has yet been limited. This work demonstrates the great potential of differentiable simulation for learning quadrotor control. We show that training in differentiable simulation significantly outperforms model-free RL in terms of both sample efficiency and training time, allowing a policy to learn to recover a quadrotor in seconds when providing vehicle state and in minutes when relying solely on visual features. The key to our success is two-fold. First, the use of a simple surrogate model for gradient computation greatly accelerates training without sacrificing control performance. Second, combining state representation learning with policy learning enhances convergence speed in tasks where only visual features are observable. These findings highlight the potential of differentiable simulation for real-world robotics and offer a compelling alternative to conventional RL approaches.

arxiv情報

著者 Johannes Heeg,Yunlong Song,Davide Scaramuzza
発行日 2024-10-21 13:06:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Quadrotor Control From Visual Features Using Differentiable Simulation はコメントを受け付けていません

Analyzing Closed-loop Training Techniques for Realistic Traffic Agent Models in Autonomous Highway Driving Simulations

要約

シミュレーションは、自動運転車の迅速な開発と安全な展開において重要な役割を果たします。
現実的な交通エージェント モデルは、シミュレーションと現実世界の間のギャップを埋めるために不可欠です。
人間の行動を模倣するための既存のアプローチの多くは、デモンストレーションからの学習に基づいています。
ただし、これらのアプローチは、多くの場合、個々のトレーニング戦略に重点を置くことによって制限されます。
したがって、現実的な交通エージェント モデリングについてのより幅広い理解を促進するために、このホワイト ペーパーでは、高速道路運転シミュレーションの閉ループ手法に焦点を当てて、さまざまなトレーニング原理の広範な比較分析を提供します。
(i) 開ループ マルチエージェント トレーニングと閉ループ マルチエージェント トレーニング、(ii) 敵対的トレーニングと決定論的教師ありトレーニング、(iii) 強化損失の影響、(iv) ログ再生と並行したトレーニングの影響を実験的に比較します。
エージェントが現実的なエージェント モデリングに適したトレーニング手法を特定できるようになります。
さらに、さまざまな閉ループ トレーニング方法の有望な組み合わせを特定します。

要約(オリジナル)

Simulation plays a crucial role in the rapid development and safe deployment of autonomous vehicles. Realistic traffic agent models are indispensable for bridging the gap between simulation and the real world. Many existing approaches for imitating human behavior are based on learning from demonstration. However, these approaches are often constrained by focusing on individual training strategies. Therefore, to foster a broader understanding of realistic traffic agent modeling, in this paper, we provide an extensive comparative analysis of different training principles, with a focus on closed-loop methods for highway driving simulation. We experimentally compare (i) open-loop vs. closed-loop multi-agent training, (ii) adversarial vs. deterministic supervised training, (iii) the impact of reinforcement losses, and (iv) the impact of training alongside log-replayed agents to identify suitable training techniques for realistic agent modeling. Furthermore, we identify promising combinations of different closed-loop training methods.

arxiv情報

著者 Matthias Bitzer,Reinis Cimurs,Benjamin Coors,Johannes Goth,Sebastian Ziesche,Philipp Geiger,Maximilian Naumann
発行日 2024-10-21 13:16:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.LG, cs.MA, cs.RO, I.2.6 | Analyzing Closed-loop Training Techniques for Realistic Traffic Agent Models in Autonomous Highway Driving Simulations はコメントを受け付けていません

ARCADE: Scalable Demonstration Collection and Generation via Augmented Reality for Imitation Learning

要約

ロボット模倣学習 (IL) は、エージェントが人間のデモンストレーションを模倣することで学習する、ロボット学習における重要な技術です。
ただし、IL は、ユーザーフレンドリーではないデモンストレーション収集方法と、効果的なトレーニングに十分な数のデモンストレーションを収集するのに必要な膨大な時間の両方に起因するスケーラビリティの課題に直面しています。
これに応えて、ロボット操作タスクのデモンストレーション収集をスケールアップするように設計された、デモンストレーションの収集と生成のための拡張現実 (ARCADE) フレームワークを導入します。
当社のフレームワークは 2 つの重要な機能を組み合わせています。1) AR を活用して、ユーザーが手を使って日常業務を実行するのと同じくらい簡単にデモンストレーションの収集を行うことができます。2) 単一の人間由来のデモンストレーションから追加の合成デモンストレーションを自動生成できるため、ユーザーの大幅な削減が可能になります。
努力と時間。
3 つのウェイポイント (リーチ、プッシュ、ピックアンドプレイス) の 3 つのロボット タスクにわたって、実際のフェッチ ロボットでの ARCADE のパフォーマンスを評価します。
私たちのフレームワークを使用すると、これら 3 つのタスクにわたって優れた古典的な IL アルゴリズムであるバニラ Behavioral Cloning (BC) を使用してポリシーを迅速にトレーニングすることができました。
また、実際の家事タスク「水を注ぐ」にも ARCADE を導入し、80% の成功率を達成しました。

要約(オリジナル)

Robot Imitation Learning (IL) is a crucial technique in robot learning, where agents learn by mimicking human demonstrations. However, IL encounters scalability challenges stemming from both non-user-friendly demonstration collection methods and the extensive time required to amass a sufficient number of demonstrations for effective training. In response, we introduce the Augmented Reality for Collection and generAtion of DEmonstrations (ARCADE) framework, designed to scale up demonstration collection for robot manipulation tasks. Our framework combines two key capabilities: 1) it leverages AR to make demonstration collection as simple as users performing daily tasks using their hands, and 2) it enables the automatic generation of additional synthetic demonstrations from a single human-derived demonstration, significantly reducing user effort and time. We assess ARCADE’s performance on a real Fetch robot across three robotics tasks: 3-Waypoints-Reach, Push, and Pick-And-Place. Using our framework, we were able to rapidly train a policy using vanilla Behavioral Cloning (BC), a classic IL algorithm, which excelled across these three tasks. We also deploy ARCADE on a real household task, Pouring-Water, achieving an 80% success rate.

arxiv情報

著者 Yue Yang,Bryce Ikeda,Gedas Bertasius,Daniel Szafir
発行日 2024-10-21 13:24:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ARCADE: Scalable Demonstration Collection and Generation via Augmented Reality for Imitation Learning はコメントを受け付けていません