Safety-critical Control with Control Barrier Functions: A Hierarchical Optimization Framework

要約

コントロール バリア機能 (CBF) は、その発明以来、セーフティ クリティカルなシステム設計における基本的なツールとなっています。
通常、二次最適化フレームワークは、CBF、制御リアプノフ関数 (CLF)、その他の制約および公称制御設計に対応するために使用されます。
ただし、制約付き最適化フレームワークには、さまざまな目的と制約をトレードオフするためのハイパーパラメーターが含まれており、事前に適切に調整していないと、システムのパフォーマンスに影響を与え、実行不能につながることもあります。
この論文では、安全第一のアプローチで多目的最適化問題をネストされた最適化サブ問題に分解する階層的最適化フレームワークを提案します。
新しいフレームワークは、安全性とパフォーマンスを可能な限り確保することを前提として、潜在的な実行不可能性に対処し、複数の証明書の場合に簡単に適用できます。
鮮明な視覚化支援機能を使用して、安全性、実現可能性、収束率の観点から、既存の QP ベースの手法と比較した提案手法の利点を系統的に分析します。
さらに、解析を検証し、提案手法の優位性を示す 2 つの数値例が提供されています。

要約(オリジナル)

The control barrier function (CBF) has become a fundamental tool in safety-critical systems design since its invention. Typically, the quadratic optimization framework is employed to accommodate CBFs, control Lyapunov functions (CLFs), other constraints and nominal control design. However, the constrained optimization framework involves hyper-parameters to tradeoff different objectives and constraints, which, if not well-tuned beforehand, impact system performance and even lead to infeasibility. In this paper, we propose a hierarchical optimization framework that decomposes the multi-objective optimization problem into nested optimization sub-problems in a safety-first approach. The new framework addresses potential infeasibility on the premise of ensuring safety and performance as much as possible and applies easily in multi-certificate cases. With vivid visualization aids, we systematically analyze the advantages of our proposed method over existing QP-based ones in terms of safety, feasibility and convergence rates. Moreover, two numerical examples are provided that verify our analysis and show the superiority of our proposed method.

arxiv情報

著者 Junjun Xie,Liang Hu,Jiahu Qin,Jun Yang,Huijun Gao
発行日 2024-10-21 10:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC | Safety-critical Control with Control Barrier Functions: A Hierarchical Optimization Framework はコメントを受け付けていません

Triplane Grasping: Efficient 6-DoF Grasping with Single RGB Images

要約

物体を確実に把握することは、ロボット工学における基本的なタスクの 1 つです。
しかし、限られた視覚情報と現実世界のオブジェクトの複雑さのため、単一画像入力に基づいて把握ポーズを決定することは長い間課題でした。
この論文では、入力として 1 つの RGB のみの画像のみに依存する高速把握意思決定手法である Triplane Grasping を提案します。
Triplane Grasping は、ポイント デコーダとトリプレーン デコーダを通じてハイブリッド トリプレーン ガウス 3D 表現を作成します。これにより、リアルタイムの把握要件を満たすために把握されるオブジェクトの効率的かつ高品質な再構築が生成されます。
エンドツーエンドのネットワークを使用して、潜在的な把握接触として点群内の 3D 点から直接 6-DoF 平行ジョー把握分布を生成し、観測データに把握ポーズを固定することを提案します。
実験は、私たちの方法が日常の物体の迅速なモデリングと把握姿勢の意思決定を達成し、ゼロショットシナリオで高い把握成功率を示すことを示しています。

要約(オリジナル)

Reliable object grasping is one of the fundamental tasks in robotics. However, determining grasping pose based on single-image input has long been a challenge due to limited visual information and the complexity of real-world objects. In this paper, we propose Triplane Grasping, a fast grasping decision-making method that relies solely on a single RGB-only image as input. Triplane Grasping creates a hybrid Triplane-Gaussian 3D representation through a point decoder and a triplane decoder, which produce an efficient and high-quality reconstruction of the object to be grasped to meet real-time grasping requirements. We propose to use an end-to-end network to generate 6-DoF parallel-jaw grasp distributions directly from 3D points in the point cloud as potential grasp contacts and anchor the grasp pose in the observed data. Experiments demonstrate that our method achieves rapid modeling and grasping pose decision-making for daily objects, and exhibits a high grasping success rate in zero-shot scenarios.

arxiv情報

著者 Yiming Li,Hanchi Ren,Jingjing Deng,Xianghua Xie
発行日 2024-10-21 10:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Triplane Grasping: Efficient 6-DoF Grasping with Single RGB Images はコメントを受け付けていません

Distributed Learning for UAV Swarms

要約

無人航空機 (UAV) の群れは、環境モニタリングや監視などの用途のために、動的でデータが豊富な環境にますます導入されています。
これらのシナリオでは、プライバシーとセキュリティを維持しながら効率的なデータ処理が必要となるため、Federated Learning (FL) が有望なソリューションとなります。
FL を使用すると、UAV は生データを共有せずにグローバル モデルを共同でトレーニングできますが、UAV によって収集されたデータの非独立かつ同一分散 (非 IID) の性質により課題が生じます。
この研究では、最先端の FL 手法の UAV Swarm アプリケーションへの統合を示し、特に非依存性の問題への取り組みに焦点を当てて、複数の集計手法 (つまり、FedAvg、FedProx、FedOpt、および MOON) のパフォーマンスを調査します。
さまざまなデータセットに関する IID、特にベースライン パフォーマンスには MNIST、自然物体分類には CIFAR10、環境モニタリングには EuroSAT、監視には CelebA を使用します。
これらのアルゴリズムは、クライアント側の更新とグローバル集約の両方に関する改良された技術をカバーするために選択されました。
結果は、すべてのアルゴリズムが IID データに対して同等のパフォーマンスを発揮する一方で、非 IID 条件下ではパフォーマンスが大幅に低下することを示しています。
FedProx は全体的なパフォーマンスが最も安定していることを実証し、ローカル モデルの大幅な逸脱を軽減するために非 IID 環境でローカル更新を定期化することの重要性を強調しました。

要約(オリジナル)

Unmanned Aerial Vehicle (UAV) swarms are increasingly deployed in dynamic, data-rich environments for applications such as environmental monitoring and surveillance. These scenarios demand efficient data processing while maintaining privacy and security, making Federated Learning (FL) a promising solution. FL allows UAVs to collaboratively train global models without sharing raw data, but challenges arise due to the non-Independent and Identically Distributed (non-IID) nature of the data collected by UAVs. In this study, we show an integration of the state-of-the-art FL methods to UAV Swarm application and invetigate the performance of multiple aggregation methods (namely FedAvg, FedProx, FedOpt, and MOON) with a particular focus on tackling non-IID on a variety of datasets, specifically MNIST for baseline performance, CIFAR10 for natural object classification, EuroSAT for environment monitoring, and CelebA for surveillance. These algorithms were selected to cover improved techniques on both client-side updates and global aggregation. Results show that while all algorithms perform comparably on IID data, their performance deteriorates significantly under non-IID conditions. FedProx demonstrated the most stable overall performance, emphasising the importance of regularising local updates in non-IID environments to mitigate drastic deviations in local models.

arxiv情報

著者 Chen Hu,Hanchi Ren,Jingjing Deng,Xianghua Xie
発行日 2024-10-21 11:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Distributed Learning for UAV Swarms はコメントを受け付けていません

UADA3D: Unsupervised Adversarial Domain Adaptation for 3D Object Detection with Sparse LiDAR and Large Domain Gaps

要約

この研究では、確立された高密度の自動運転データセット間での適応に主に焦点を当ててきた、LiDAR ベースの 3D 物体検出に関する既存の教師なしドメイン適応アプローチのギャップに対処します。
私たちは、よりまばらな点群に焦点を当て、さまざまな視点からシナリオをキャプチャします。道路上の車両だけでなく、大幅に異なる環境条件やセンサー構成に遭遇する歩道上の移動ロボットからも同様です。
3D オブジェクト検出のための教師なし敵対的ドメイン適応 (UADA3D) を導入します。
UADA3D は、事前トレーニングされたソース モデルや教師と生徒のアーキテクチャには依存しません。
代わりに、敵対的なアプローチを使用して、ドメイン不変の特徴を直接学習します。
私たちはさまざまな適応シナリオでその有効性を実証し、自動運転車と移動ロボットの両方の領域で大幅な改善が見られることを示しています。
私たちのコードはオープンソースであり、間もなく公開される予定です。

要約(オリジナル)

In this study, we address a gap in existing unsupervised domain adaptation approaches on LiDAR-based 3D object detection, which have predominantly concentrated on adapting between established, high-density autonomous driving datasets. We focus on sparser point clouds, capturing scenarios from different perspectives: not just from vehicles on the road but also from mobile robots on sidewalks, which encounter significantly different environmental conditions and sensor configurations. We introduce Unsupervised Adversarial Domain Adaptation for 3D Object Detection (UADA3D). UADA3D does not depend on pre-trained source models or teacher-student architectures. Instead, it uses an adversarial approach to directly learn domain-invariant features. We demonstrate its efficacy in various adaptation scenarios, showing significant improvements in both self-driving car and mobile robot domains. Our code is open-source and will be available soon.

arxiv情報

著者 Maciej K Wozniak,Mattias Hansson,Marko Thiel,Patric Jensfelt
発行日 2024-10-21 11:34:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | UADA3D: Unsupervised Adversarial Domain Adaptation for 3D Object Detection with Sparse LiDAR and Large Domain Gaps はコメントを受け付けていません

Bench4Merge: A Comprehensive Benchmark for Merging in Realistic Dense Traffic with Micro-Interactive Vehicles

要約

自動運転の機能は急速に進歩していますが、密集した交通への合流は依然として大きな課題であり、このシナリオ向けの動作計画方法が多数提案されていますが、それらを評価するのは困難です。
既存の閉ループ シミュレータのほとんどは、他の車両に対するルールベースの制御に依存しているため、多様性とランダム性が欠如し、高度にインタラクティブなシナリオでの動作計画機能を正確に評価できません。
さらに、従来の評価指標は、密なトラフィックでの合流のパフォーマンスを包括的に評価するには不十分です。
これに応えて、シナリオを統合する際の動作計画能力を評価するための閉ループ評価ベンチマークを提案しました。
私たちのアプローチには、複雑さと多様性を大幅に高める微生物の行動特性を持つ大規模なデータセットでトレーニングされた他の車両が含まれます。
さらに、大規模な言語モデルを活用して、幹線道路に合流する各自動運転車を評価することにより、評価メカニズムを再構築しました。
広範な実験により、この評価ベンチマークの高度な性質が実証されました。
このベンチマークを通じて、既存の手法の評価を取得し、共通の問題を特定しました。
私たちが設計した環境および車両の動作計画モデルには、https://anonymous.4open.science/r/Bench4Merge-EB5D からアクセスできます。

要約(オリジナル)

While the capabilities of autonomous driving have advanced rapidly, merging into dense traffic remains a significant challenge, many motion planning methods for this scenario have been proposed but it is hard to evaluate them. Most existing closed-loop simulators rely on rule-based controls for other vehicles, which results in a lack of diversity and randomness, thus failing to accurately assess the motion planning capabilities in highly interactive scenarios. Moreover, traditional evaluation metrics are insufficient for comprehensively evaluating the performance of merging in dense traffic. In response, we proposed a closed-loop evaluation benchmark for assessing motion planning capabilities in merging scenarios. Our approach involves other vehicles trained in large scale datasets with micro-behavioral characteristics that significantly enhance the complexity and diversity. Additionally, we have restructured the evaluation mechanism by leveraging large language models to assess each autonomous vehicle merging onto the main road. Extensive experiments have demonstrated the advanced nature of this evaluation benchmark. Through this benchmark, we have obtained an evaluation of existing methods and identified common issues. The environment and vehicle motion planning models we have designed can be accessed at https://anonymous.4open.science/r/Bench4Merge-EB5D

arxiv情報

著者 Zhengming Wang,Junli Wang,Pengfei Li,Zhaohan Li,Peng Li,Yilun Chen
発行日 2024-10-21 11:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Bench4Merge: A Comprehensive Benchmark for Merging in Realistic Dense Traffic with Micro-Interactive Vehicles はコメントを受け付けていません

Bimanual Deformable Bag Manipulation Using a Structure-of-Interest Based Neural Dynamics Model

要約

ロボット システムによる変形可能な物体の操作には、その複雑で無限次元の構成空間があるため、大きな課題が生じます。
この論文では、変形可能な布製バッグ内の対象構造物 (SOI) の識別と操作に重点を置く、変形可能なオブジェクト操作 (DOM) への新しいアプローチを紹介します。
我々は、これらの SOI の動作を簡潔に表現および予測するために、グラフ ニューラル ネットワーク (GNN) ベースの潜在力学モデルを活用する両手操作フレームワークを提案します。
私たちのアプローチには、物体の部分的な点群データからグラフ表現を構築し、削減された計算スペース内で布製バッグの本質的な変形を効果的に捕捉する潜在力学モデルを学習することが含まれます。
この潜在力学モデルをモデル予測制御 (MPC) と統合することで、ロボット マニピュレーターが SOI に焦点を当てた正確で安定した操作タスクを実行できるようになります。
私たちは、布製バッグの両手操作における有効性を実証するさまざまな実証実験を通じて、フレームワークを検証してきました。
私たちの貢献は、DOM に固有の複雑さに対処するだけでなく、変形可能なオブジェクトの重要な構造要素に集中することで、変形可能なオブジェクトとのロボットの相互作用を強化するための新しい視点と方法論も提供します。
実験ビデオは https://sites.google.com/view/bagbot から入手できます。

要約(オリジナル)

The manipulation of deformable objects by robotic systems presents a significant challenge due to their complex and infinite-dimensional configuration spaces. This paper introduces a novel approach to Deformable Object Manipulation (DOM) by emphasizing the identification and manipulation of Structures of Interest (SOIs) in deformable fabric bags. We propose a bimanual manipulation framework that leverages a Graph Neural Network (GNN)-based latent dynamics model to succinctly represent and predict the behavior of these SOIs. Our approach involves constructing a graph representation from partial point cloud data of the object and learning the latent dynamics model that effectively captures the essential deformations of the fabric bag within a reduced computational space. By integrating this latent dynamics model with Model Predictive Control (MPC), we empower robotic manipulators to perform precise and stable manipulation tasks focused on the SOIs. We have validated our framework through various empirical experiments demonstrating its efficacy in bimanual manipulation of fabric bags. Our contributions not only address the complexities inherent in DOM but also provide new perspectives and methodologies for enhancing robotic interactions with deformable objects by concentrating on their critical structural elements. Experimental videos can be obtained from https://sites.google.com/view/bagbot.

arxiv情報

著者 Peng Zhou,Pai Zheng,Jiaming Qi,Chenxi Li,Samantha Lee,Chenguang Yang,David Navarro-Alarcon,Jia Pan
発行日 2024-10-21 11:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bimanual Deformable Bag Manipulation Using a Structure-of-Interest Based Neural Dynamics Model はコメントを受け付けていません

Fully distributed and resilient source seeking for robot swarms

要約

私たちは、一定の速度で移動するロボットの群れを使用して、未知の 3D スカラー フィールドの最大値を特定するための、自己完結型で回復力のある完全分散型のソリューションを提案します。
勾配情報に依存する従来の反応型手法とは異なり、私たちの方法論では、群れが任意の精度で発生源に近づくように上昇方向を決定できるようになります。
私たちのソース探索ソリューションは 3 つのアルゴリズムで構成されています。
最初の 2 つのアルゴリズムは、高頻度で順次かつ分散的に実行され、重心座標と上昇方向をそれぞれ個々のロボットに提供します。
3 番目のアルゴリズムは、推定された上昇方向をロボットが追従するための個別制御則です。
より高い頻度の 2 つのアルゴリズムは、一次動的システムの標準コンセンサス プロトコルに基づいているため、最終的な値に指数関数的に収束することを示します。
それらの高周波は、ロボットがスカラー フィールドを通過する速度に依存します。
ロボットは特定の幾何学的構成に制約されず、群れの形状内のロボットの離散的分布と連続的分布の両方を研究します。
形状分析により、ロボットの群れで予想されるような、私たちのアプローチの回復力が明らかになりました。つまり、ロボットを集合させることによって、人が行方不明になったり置き忘れられた場合、あるいはロボット ネットワークが 2 つ以上の切断されたサブネットワークに分割された場合でも、情報源探索機能が確保されます。
さらに、上昇方向が場の勾配とほぼ平行になるという意味で、 \emph{最適} な群れの形状の条件を提示することにより、アルゴリズムの堅牢性も強化します。
私たちはこのような分析を利用して、群れが上昇方向をたどりながら形状を変えて操縦することで未知の環境に適応できるようにします。

要約(オリジナル)

We propose a self-contained, resilient and fully distributed solution for locating the maximum of an unknown 3D scalar field using a swarm of robots that travel at constant speeds. Unlike conventional reactive methods relying on gradient information, our methodology enables the swarm to determine an ascending direction so that it approaches the source with arbitrary precision. Our source-seeking solution consists of three algorithms. The first two algorithms run sequentially and distributively at a high frequency providing barycentric coordinates and the ascending direction respectively to the individual robots. The third algorithm is the individual control law for a robot to track the estimated ascending direction. We show that the two algorithms with higher frequency have an exponential convergence to their eventual values since they are based on the standard consensus protocol for first-order dynamical systems; their high frequency depends on how fast the robots travel through the scalar field. The robots are not constrained to any particular geometric formation, and we study both discrete and continuous distributions of robots within swarm shapes. The shape analysis reveals the resiliency of our approach as expected in robot swarms, i.e., by amassing robots we ensure the source-seeking functionality in the event of missing or misplaced individuals or even if the robot network splits into two or more disconnected subnetworks. In addition, we also enhance the robustness of the algorithm by presenting conditions for \emph{optimal} swarm shapes, in the sense that the ascending directions can be closely parallel to the field’s gradient. We exploit such an analysis so that the swarm can adapt to unknown environments by morphing its shape and maneuvering while still following an ascending direction.

arxiv情報

著者 Jesús Bautista,Antonio Acuaviva,José Hinojosa,Weijia Yao,Juan Jiménez,Héctor García de Marina
発行日 2024-10-21 11:52:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Fully distributed and resilient source seeking for robot swarms はコメントを受け付けていません

SLR: Learning Quadruped Locomotion without Privileged Information

要約

最近主流となっている四足ロボットの強化学習制御は特権情報に依存することが多く、綿密な選択と正確な推定が要求されるため、開発プロセスに制約が課せられています。
この研究では、特権情報を必要とせずに高性能な制御ポリシー学習を実現する自己学習潜在表現 (SLR) 手法を提案します。
提案された方法の評価の信頼性を高めるために、SLR は、オープンソース コード リポジトリと元の構成パラメータを使用して最先端のアルゴリズムと直接比較されました。
注目すべきことに、SLR は限られた固有受容データのみを使用した以前の方法のパフォーマンスを上回り、将来のアプリケーションに対する大きな可能性を示しています。
最終的に、訓練されたポリシーとエンコーダーにより、四足ロボットはさまざまな困難な地形を横断できるようになります。
結果のビデオは、当社の Web サイトでご覧いただけます: https://11chens.github.io/SLR/

要約(オリジナル)

The recent mainstream reinforcement learning control for quadruped robots often relies on privileged information, demanding meticulous selection and precise estimation, thereby imposing constraints on the development process. This work proposes a Self-learning Latent Representation (SLR) method, which achieves high-performance control policy learning without the need for privileged information. To enhance the credibility of the proposed method’s evaluation, SLR was directly compared with state-of-the-art algorithms using their open-source code repositories and original configuration parameters. Remarkably, SLR surpasses the performance of previous methods using only limited proprioceptive data, demonstrating significant potential for future applications. Ultimately, the trained policy and encoder empower the quadruped robot to traverse various challenging terrains. Videos of our results can be found on our website: https://11chens.github.io/SLR/

arxiv情報

著者 Shiyi Chen,Zeyu Wan,Shiyang Yan,Chun Zhang,Weiyi Zhang,Qiang Li,Debing Zhang,Fasih Ud Din Farrukh
発行日 2024-10-21 11:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SLR: Learning Quadruped Locomotion without Privileged Information はコメントを受け付けていません

Neural Predictor for Flight Control with Payload

要約

自由浮遊マニピュレータの形態として、吊り下げられたペイロードを輸送するための空中ロボット工学は、近年大きな関心を集めています。
ただし、質量などのペイロードの事前情報を正確に取得することは、実際には常に困難です。
ペイロードおよび残留ダイナミクスによって生じる力/トルクは、モデル化されていない摂動をシステムに導入し、閉ループのパフォーマンスに悪影響を及ぼします。
推定のような方法とは異なり、この論文では、ペイロードおよび残留力学によって引き起こされる力/トルクを力学システムとしてモデル化する学習ベースのアプローチである Neural Predictor を提案します。
これにより、第一原理ダイナミクスと学習ダイナミクスの両方を含むハイブリッド モデルが生成されます。
このハイブリッド モデルは MPC フレームワークに統合され、閉ループのパフォーマンスが向上します。
提案されたフレームワークの有効性は、数値シミュレーションと現実世界の飛行実験の両方で広範囲に検証されています。
結果は、私たちのアプローチがペイロードと残留ダイナミクスによって引き起こされる力/トルクを正確に捕捉し、それらの変化に迅速に応答し、閉ループ性能を大幅に向上できることを示しています。
特に、Neural Predictor は最先端の学習ベースの推定器を上回り、より少ないサンプルを使用しながら力とトルクの推定誤差を最大 66.15% と 33.33% 削減しました。

要約(オリジナル)

Aerial robotics for transporting suspended payloads as the form of freely-floating manipulator are growing great interest in recent years. However, the prior information of the payload, such as the mass, is always hard to obtain accurately in practice. The force/torque caused by payload and residual dynamics will introduce unmodeled perturbations to the system, which negatively affects the closed-loop performance. Different from estimation-like methods, this paper proposes Neural Predictor, a learning-based approach to model force/torque caused by payload and residual dynamics as a dynamical system. It results a hybrid model including both the first-principles dynamics and the learned dynamics. This hybrid model is then integrated into a MPC framework to improve closed-loop performance. Effectiveness of proposed framework is verified extensively in both numerical simulations and real-world flight experiments. The results indicate that our approach can capture force/torque caused by payload and residual dynamics accurately, respond quickly to the changes of them and improve the closed-loop performance significantly. In particular, Neural Predictor outperforms a state-of-the-art learning-based estimator and has reduced the force and torque estimation errors by up to 66.15% and 33.33% while using less samples.

arxiv情報

著者 Ao Jin,Chenhao Li,Qinyi Wang,Ya Liu,Panfeng Huang,Fan Zhang
発行日 2024-10-21 12:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Neural Predictor for Flight Control with Payload はコメントを受け付けていません

Diffusion Transformer Policy

要約

多様なロボット データセットで事前トレーニングされた最近の大規模な視覚言語アクション モデルは、少数のドメイン内データを持つ新しい環境に一般化できる可能性を示しています。
ただし、これらのアプローチは通常、小さなアクション ヘッドによる離散的または連続的なアクションを予測するため、多様なアクション スペースを処理する能力が制限されます。
対照的に、拡散トランス ポリシーと呼ばれる大きなマルチモーダル拡散トランスを使用して連続アクションをモデル化します。この場合、小さなアクション ヘッドではなく大きなトランス モデルによってアクション チャンクのノイズを直接除去します。
トランスフォーマーのスケーリング機能を活用することで、提案されたアプローチは、大規模で多様なロボット データセットにわたる連続的なエンドエフェクターのアクションを効果的にモデル化し、より優れた汎化パフォーマンスを達成できます。
広範な実験により、多様なロボット データで事前トレーニングされた拡散トランスフォーマー ポリシーが、Maniskill2 や Calvin などのシミュレーション環境や現実世界の Franka アームなど、さまざまな実施形態に一般化できることが実証されています。
具体的には、提案されたアプローチは、追加機能なしで、Calvin の新しいタスク設定 (ABC->D) で 1 つのサードビュー カメラ ストリームのみで最先端のパフォーマンスを達成し、1 回のタスクで完了する平均タスク数を向上させます。
列は 5 から 3.6 であり、事前トレーニング段階により、Calvin の成功シーケンスの長さが 1.2 以上大幅に短縮されます。
コードは公開されます。

要約(オリジナル)

Recent large visual-language action models pretrained on diverse robot datasets have demonstrated the potential for generalizing to new environments with a few in-domain data. However, those approaches usually predict discretized or continuous actions by a small action head, which limits the ability in handling diverse action spaces. In contrast, we model the continuous action with a large multi-modal diffusion transformer, dubbed as Diffusion Transformer Policy, in which we directly denoise action chunks by a large transformer model rather than a small action head. By leveraging the scaling capability of transformers, the proposed approach can effectively model continuous end-effector actions across large diverse robot datasets, and achieve better generalization performance. Extensive experiments demonstrate Diffusion Transformer Policy pretrained on diverse robot data can generalize to different embodiments, including simulation environments like Maniskill2 and Calvin, as well as the real-world Franka arm. Specifically, without bells and whistles, the proposed approach achieves state-of-the-art performance with only a single third-view camera stream in the Calvin novel task setting (ABC->D), improving the average number of tasks completed in a row of 5 to 3.6, and the pretraining stage significantly facilitates the success sequence length on the Calvin by over 1.2. The code will be publicly available.

arxiv情報

著者 Zhi Hou,Tianyi Zhang,Yuwen Xiong,Hengjun Pu,Chengyang Zhao,Ronglei Tong,Yu Qiao,Jifeng Dai,Yuntao Chen
発行日 2024-10-21 12:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Diffusion Transformer Policy はコメントを受け付けていません