Open-Structure: Structural Benchmark Dataset for SLAM Algorithms

要約

この論文では、ビジュアル オドメトリと SLAM 手法を評価するための新しいベンチマーク データセットである Open-Structure について説明します。
主に生の画像を提供する既存の公開データセットと比較して、Open-Structure は、点と線の測定、対応関係、構造的関連性、および共可視性係数グラフへの直接アクセスを提供します。これらは、SLAM パイプラインのさまざまなステージに供給して、影響を軽減することができます。
アブレーション実験におけるデータ前処理モジュール。
データセットは、シナリオの観点から見た 2 つの異なるタイプのシーケンスで構成されています。
最初のタイプでは、これらの重要な要素がデータセット ジェネレーターを使用して公開画像ベースのシーケンスから抽出されるため、合理的な観察とオクルージョンの関係が維持されます。
対照的に、2 番目のタイプは、広範囲の軌跡と観測を導入することでデータセットの多様性を高める、慎重に設計されたシミュレーション シーケンスで構成されています。
さらに、SLAM システム内でカメラポーズ追跡、パラメータ化、ファクターグラフ最適化などの広く使用されているモジュールを評価するためのベースラインが、当社のデータセットを使用して提案されています。
これらの最先端のアルゴリズムをさまざまなシナリオにわたって評価することで、カメラ追跡および最適化プロセスのコンテキストにおける各モジュールの長所と短所を識別します。
Open-Structure データセットとベースライン システムは、Web サイト \url{https://open-structure.github.io} からオープンにアクセスでき、SLAM 分野でのさらなる研究開発を奨励しています。

要約(オリジナル)

This paper presents Open-Structure, a novel benchmark dataset for evaluating visual odometry and SLAM methods. Compared to existing public datasets that primarily offer raw images, Open-Structure provides direct access to point and line measurements, correspondences, structural associations, and co-visibility factor graphs, which can be fed to various stages of SLAM pipelines to mitigate the impact of data preprocessing modules in ablation experiments. The dataset comprises two distinct types of sequences from the perspective of scenarios. The first type maintains reasonable observation and occlusion relationships, as these critical elements are extracted from public image-based sequences using our dataset generator. In contrast, the second type consists of carefully designed simulation sequences that enhance dataset diversity by introducing a wide range of trajectories and observations. Furthermore, a baseline is proposed using our dataset to evaluate widely used modules, including camera pose tracking, parametrization, and factor graph optimization, within SLAM systems. By evaluating these state-of-the-art algorithms across different scenarios, we discern each module’s strengths and weaknesses in the context of camera tracking and optimization processes. The Open-Structure dataset and baseline system are openly accessible on website: \url{https://open-structure.github.io}, encouraging further research and development in the field of SLAM.

arxiv情報

著者 Yanyan Li,Zhao Guo,Ze Yang,Yanbiao Sun,Liang Zhao,Federico Tombari
発行日 2024-10-17 18:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Open-Structure: Structural Benchmark Dataset for SLAM Algorithms はコメントを受け付けていません

Goal Inference from Open-Ended Dialog

要約

私たちは、身体化されたエージェントが学習し、さまざまなユーザーの目標を達成するためのオンライン方法を提供します。
RLHF のようなオフライン手法はさまざまな目標を実現できますが、大規模なデータセットが必要ですが、私たちのアプローチはオンライン効率で同様の柔軟性を実現します。
大規模言語モデル (LLM) との会話から自然言語の目標表現を抽出します。
LLM に、さまざまな目標を持つ人間としてロールプレイするよう促し、対応する尤度を使用して、潜在的な目標に対してベイズ推論を実行します。
その結果、私たちの方法は、無制限の対話に基づいて複雑な目標に対する不確実性を表現できます。
私たちは、テキストベースのインターフェイスと AI2Thor シミュレーションをそれぞれ使用して、食料品の買い物と家庭用ロボット支援の領域での手法を評価しました。
結果は、私たちの方法が、明示的な目標表現または確率的推論のいずれかを欠いているアブレーションベースラインよりも優れていることを示しています。

要約(オリジナル)

We present an online method for embodied agents to learn and accomplish diverse user goals. While offline methods like RLHF can represent various goals but require large datasets, our approach achieves similar flexibility with online efficiency. We extract natural language goal representations from conversations with Large Language Models (LLMs). We prompt an LLM to role play as a human with different goals and use the corresponding likelihoods to run Bayesian inference over potential goals. As a result, our method can represent uncertainty over complex goals based on unrestricted dialog. We evaluate our method in grocery shopping and home robot assistance domains using a text-based interface and AI2Thor simulation respectively. Results show our method outperforms ablation baselines that lack either explicit goal representation or probabilistic inference.

arxiv情報

著者 Rachel Ma,Jingyi Qu,Andreea Bobu,Dylan Hadfield-Menell
発行日 2024-10-17 18:30:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Goal Inference from Open-Ended Dialog はコメントを受け付けていません

Learning a Stable, Safe, Distributed Feedback Controller for a Heterogeneous Platoon of Autonomous Vehicles

要約

自動運転車の隊列走行は、高速道路での安全性と燃料効率を向上させる可能性があります。
隊列走行の目的は、各車両が隣の車両と安全な距離を保ちながら、指定された速度 (リーダーが設定) で走行することです。
これまでの多くの研究では、隊列走行用のさまざまなコントローラー、最も一般的には線形フィードバックおよび分散モデル予測コントローラーが分析されてきました。
この研究では、異種小隊向けの安定した安全な分散コントローラーを学習するためのアルゴリズムを紹介します。
私たちのアルゴリズムは、ニューラル ネットワークの安定性証明書の学習における最近の開発に依存しています。
私たちはシミュレーションで自律隊列走行用のコントローラーをトレーニングし、4 台の F1Tenth 車両の隊列を​​使用してハードウェア上でそのパフォーマンスを評価します。
次に、100 台の小隊を使用したシミュレーションでさらなる分析を実行します。
実験結果は、ニューラル ネットワーク コントローラーのパフォーマンスを線形フィードバックおよび分散モデル予測コントローラーと比較することにより、アルゴリズムと学習済みコントローラーの実用性を示しています。

要約(オリジナル)

Platooning of autonomous vehicles has the potential to increase safety and fuel efficiency on highways. The goal of platooning is to have each vehicle drive at a specified speed (set by the leader) while maintaining a safe distance from its neighbors. Many prior works have analyzed various controllers for platooning, most commonly linear feedback and distributed model predictive controllers. In this work, we introduce an algorithm for learning a stable, safe, distributed controller for a heterogeneous platoon. Our algorithm relies on recent developments in learning neural network stability certificates. We train a controller for autonomous platooning in simulation and evaluate its performance on hardware with a platoon of four F1Tenth vehicles. We then perform further analysis in simulation with a platoon of 100 vehicles. Experimental results demonstrate the practicality of the algorithm and the learned controller by comparing the performance of the neural network controller to linear feedback and distributed model predictive controllers.

arxiv情報

著者 Michael H. Shaham,Taskin Padir
発行日 2024-10-17 18:45:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO, cs.SY, eess.SY | Learning a Stable, Safe, Distributed Feedback Controller for a Heterogeneous Platoon of Autonomous Vehicles はコメントを受け付けていません

MarineFormer: A Transformer-based Navigation Policy Model for Collision Avoidance in Marine Environment

要約

この研究では、強力な電流が流れる密集した海洋環境における無人水上飛行体 (USV) ナビゲーションの問題を調査します。
静的および動的障害物から生じる複雑さと、海流によって引き起こされる外乱力により、既存の航行プロトコルは安全性を確保し、海上での衝突を回避するには不十分です。
安全で効率的なロボット政策を学習するために、我々は、注意メカニズムを活用して、エージェントと静的障害物および移動障害物との異種相互作用や、時空環境からの流れの乱れを捕捉する新しい方法論を提案します。
特に、空間的に変化する海洋環境向けの Transformer ナビゲーション ポリシーである MarineFormer を使用して時間関数を改良し、強化学習 (RL) でエンドツーエンドでトレーニングしました。
MarineFormer は、トランスフォーマー アーキテクチャを備えた基本的な時空間グラフ アテンションを使用して、2D の乱流海洋条件をシミュレートする環境で空間アテンションと時間シーケンスを処理します。
リカレントモデルの安定性と学習速度を向上させるアーキテクチャの変更を提案します。
流れシミュレーションやセンサーから導出できる流速推定は、モデルフリーの RL フレームワークに組み込まれており、ロボットが激しい渦を含む高強度の電流領域に入ることを防ぎ、流れを利用して輸送を支援する可能性があります。

調査された 2D 海洋環境には、渦、シンク、ソースなどの流れの特異点が含まれており、洪水や海上雷雨に関連する基本的な平面流れパターンを表しています。
私たちが提案する方法は、電流の流れからの静的および動的障害物や外乱に対処するために、新しい報酬モデルを使用してトレーニングされています。

要約(オリジナル)

In this work, we investigate the problem of Unmanned Surface Vehicle (USV) navigation in a dense marine environment with a high-intensity current flow. The complexities arising from static and dynamic obstacles and the disturbance forces caused by current flow render existing navigation protocols inadequate for ensuring safety and avoiding collisions at sea. To learn a safe and efficient robot policy, we propose a novel methodology that leverages attention mechanisms to capture heterogeneous interactions of the agents with the static and moving obstacles and the flow disturbances from the environment in space and time. In particular, we refine a temporal function with MarineFormer, a Transformer navigation policy for spatially variable Marine environment, trained end-to-end with reinforcement learning (RL). MarineFormer uses foundational spatio-temporal graph attention with transformer architecture to process spatial attention and temporal sequences in an environment that simulates a 2D turbulent marine condition. We propose architectural modifications that improve the stability and learning speed of the recurrent models. The flow velocity estimation, which can be derived from flow simulations or sensors, is incorporated into a model-free RL framework to prevent the robot from entering into high-intensity current flow regions including intense vortices, while potentially leveraging the flow to assist in transportation. The investigated 2D marine environment encompasses flow singularities, including vortices, sinks, and sources, representing fundamental planar flow patterns associated with flood or maritime thunderstorms. Our proposed method is trained with a new reward model to deal with static and dynamic obstacles and disturbances from the current flow.

arxiv情報

著者 Ehsan Kazemi,Iman Soltani
発行日 2024-10-17 18:57:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | MarineFormer: A Transformer-based Navigation Policy Model for Collision Avoidance in Marine Environment はコメントを受け付けていません

RecoveryChaining: Learning Local Recovery Policies for Robust Manipulation

要約

モデルベースのプランナーとコントローラーは、さまざまな目的を効率的に最適化し、長期的なタスクに一般化できるため、複雑な操作問題を解決するためによく使用されます。
ただし、モデルの忠実度によって制限があり、多くの場合、展開中に失敗が発生します。
ロボットがそのような障害から回復できるようにするために、階層型強化学習を使用して別の回復ポリシーを学習することを提案します。
回復ポリシーは、感覚観察に基づいて障害が検出されたときにトリガーされ、公称モデルベースのコントローラーを使用してロボットがタスクを完了できる状態にロボットを戻そうとします。
RecoveryChaining と呼ばれる私たちのアプローチでは、ハイブリッド アクション スペースを使用します。モデルベースのコントローラーが追加の \emph{nominal} オプションとして提供され、これにより回復ポリシーが回復方法、いつ公称コントローラーに切り替えるか、どのコントローラーに切り替えるかを決定できます。
\emph{報酬が少ない}のに切り替えます。
私たちは、報酬がまばらな 3 つのマルチステップ操作タスクでアプローチを評価します。このタスクでは、ベースラインによって学習されたポリシーよりもはるかに堅牢な回復ポリシーが学習されます。
最後に、シミュレーションで学習した回復ポリシーを物理ロボットに転送することに成功し、私たちの方法によるシミュレーションからリアルへの転送の実現可能性を実証しました。

要約(オリジナル)

Model-based planners and controllers are commonly used to solve complex manipulation problems as they can efficiently optimize diverse objectives and generalize to long horizon tasks. However, they are limited by the fidelity of their model which oftentimes leads to failures during deployment. To enable a robot to recover from such failures, we propose to use hierarchical reinforcement learning to learn a separate recovery policy. The recovery policy is triggered when a failure is detected based on sensory observations and seeks to take the robot to a state from which it can complete the task using the nominal model-based controllers. Our approach, called RecoveryChaining, uses a hybrid action space, where the model-based controllers are provided as additional \emph{nominal} options which allows the recovery policy to decide how to recover, when to switch to a nominal controller and which controller to switch to even with \emph{sparse rewards}. We evaluate our approach in three multi-step manipulation tasks with sparse rewards, where it learns significantly more robust recovery policies than those learned by baselines. Finally, we successfully transfer recovery policies learned in simulation to a physical robot to demonstrate the feasibility of sim-to-real transfer with our method.

arxiv情報

著者 Shivam Vats,Devesh K. Jha,Maxim Likhachev,Oliver Kroemer,Diego Romeres
発行日 2024-10-17 19:14:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | RecoveryChaining: Learning Local Recovery Policies for Robust Manipulation はコメントを受け付けていません

Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics

要約

追加のトレーニングを必要とせずに、既製のテキストベースのトランスフォーマーが、数ショットのコンテキスト内視覚模倣学習を実行し、視覚的観察をデモンストレーターの動作をエミュレートするアクションシーケンスにマッピングできることを示します。
これは、キーポイント アクション トークン (KAT) と呼ばれるフレームワークを介して、視覚的な観察 (入力) とアクションの軌跡 (出力) を、テキストで事前トレーニングされたトランスフォーマー (GPT-4 Turbo) が取り込んで生成できる一連のトークンに変換することで実現します。
言語のみのトレーニングを受けているにもかかわらず、これらのトランスフォーマーは、トークン化された視覚的なキーポイントの観察を行動の軌跡に変換することに優れ、低データ領域での最先端の模倣学習 (拡散ポリシー) と同等以上のパフォーマンスを発揮することを示します。
現実世界の日常的なタスクのスイート。
KAT は、一般的な言語ドメインで動作するのではなく、テキストベースのトランスフォーマーを活用してビジョンおよびアクション ドメインで動作し、デモンストレーション データの一般的なパターンを学習して高効率の模倣学習を実現します。これは、自然言語モデルを身体化されたタスクに再利用するための有望な新しい手段を示しています。

ビデオは https://www.robot-learning.uk/keypoint-action-tokens でご覧いただけます。

要約(オリジナル)

We show that off-the-shelf text-based Transformers, with no additional training, can perform few-shot in-context visual imitation learning, mapping visual observations to action sequences that emulate the demonstrator’s behaviour. We achieve this by transforming visual observations (inputs) and trajectories of actions (outputs) into sequences of tokens that a text-pretrained Transformer (GPT-4 Turbo) can ingest and generate, via a framework we call Keypoint Action Tokens (KAT). Despite being trained only on language, we show that these Transformers excel at translating tokenised visual keypoint observations into action trajectories, performing on par or better than state-of-the-art imitation learning (diffusion policies) in the low-data regime on a suite of real-world, everyday tasks. Rather than operating in the language domain as is typical, KAT leverages text-based Transformers to operate in the vision and action domains to learn general patterns in demonstration data for highly efficient imitation learning, indicating promising new avenues for repurposing natural language models for embodied tasks. Videos are available at https://www.robot-learning.uk/keypoint-action-tokens.

arxiv情報

著者 Norman Di Palo,Edward Johns
発行日 2024-10-17 19:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, cs.RO | Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics はコメントを受け付けていません

Whisker-Inspired Tactile Sensing: A Sim2Real Approach for Precise Underwater Contact Tracking

要約

鰭脚類などの水生哺乳類は、そのひげを利用して物体を検出および識別し、水の動きを分析するため、接触、表面、水の流れを感知するためのロボットひげの開発が促されています。
ファイバー ブラッグ グレーティング (FBG) テクノロジーに基づく水中ウィスカー センサーの設計と応用について紹介します。
これらの受動的なひげはロボットの外側に沿って取り付けられており、軽くて非侵入的な接触を通じて周囲を感知します。
接触追跡では、シミュレーションでの広範なデータ収集とそれに続くシミュレーションでトレーニングされたモデルを現実世界に転送するためのシミュレーションからリアルへのキャリブレーションプロセスを含む、シミュレーションからリアルへの学習フレームワークを採用しています。
水に浸したひげを使った実験は、私たちのアプローチがロボットの正確な固有受容を必要とせずに、$<2$ mmの精度で接触点を追跡できることを示しています。 このアプローチが目に見えないオブジェクトにも一般化されることを示します。

要約(オリジナル)

Aquatic mammals, such as pinnipeds, utilize their whiskers to detect and discriminate objects and analyze water movements, inspiring the development of robotic whiskers for sensing contacts, surfaces, and water flows. We present the design and application of underwater whisker sensors based on Fiber Bragg Grating (FBG) technology. These passive whiskers are mounted along the robot$’$s exterior to sense its surroundings through light, non-intrusive contacts. For contact tracking, we employ a sim-to-real learning framework, which involves extensive data collection in simulation followed by a sim-to-real calibration process to transfer the model trained in simulation to the real world. Experiments with whiskers immersed in water indicate that our approach can track contact points with an accuracy of $<2$ mm, without requiring precise robot proprioception. We demonstrate that the approach also generalizes to unseen objects.

arxiv情報

著者 Hao Li,Chengyi Xing,Saad Khan,Miaoya Zhong,Mark R. Cutkosky
発行日 2024-10-17 20:19:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Whisker-Inspired Tactile Sensing: A Sim2Real Approach for Precise Underwater Contact Tracking はコメントを受け付けていません

Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand

要約

自律的な器用な操作を促進するために、微調整された視覚言語動作 (VLA) モデルと拡散モデルの相対的な利点を組み合わせたハイブリッド制御手法を提案します。
VLA モデルは、高度に一般化可能な言語命令による高レベルの計画を提供します。一方、拡散モデルは、特定のオブジェクトや環境に必要な精度と堅牢性を提供する低レベルの相互作用を処理します。
トレーニング データに切り替え信号を組み込むことで、ターゲット オブジェクトと配置場所が言語を通じて命令されるピック アンド プレイス タスクのこれら 2 つのモデル間のイベント ベースの遷移が可能になります。
このアプローチは、当社の擬人化 ADAPT Hand 2 (13DoF ロボット ハンド) に導入されており、一連の弾性作動によるコンプライアンスが組み込まれており、あらゆるインタラクションに対する復元力を実現しています。これは、VLA モデルで制御される多指ハンドの最初の使用例を示しています。
このモデル切り替えアプローチにより、VLA モデルのみを使用した場合の成功率が 40% 未満であるのに対し、80% 以上になることを実証します。これは、VLA モデルによる正確な物体近くのアーム動作と、エラー回復機能を備えたマルチモーダル把握動作によって可能になります。
拡散モデルの能力。

要約(オリジナル)

To advance autonomous dexterous manipulation, we propose a hybrid control method that combines the relative advantages of a fine-tuned Vision-Language-Action (VLA) model and diffusion models. The VLA model provides language commanded high-level planning, which is highly generalizable, while the diffusion model handles low-level interactions which offers the precision and robustness required for specific objects and environments. By incorporating a switching signal into the training-data, we enable event based transitions between these two models for a pick-and-place task where the target object and placement location is commanded through language. This approach is deployed on our anthropomorphic ADAPT Hand 2, a 13DoF robotic hand, which incorporates compliance through series elastic actuation allowing for resilience for any interactions: showing the first use of a multi-fingered hand controlled with a VLA model. We demonstrate this model switching approach results in a over 80\% success rate compared to under 40\% when only using a VLA model, enabled by accurate near-object arm motion by the VLA model and a multi-modal grasping motion with error recovery abilities from the diffusion model.

arxiv情報

著者 Cheng Pan,Kai Junge,Josie Hughes
発行日 2024-10-17 20:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand はコメントを受け付けていません

Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems

要約

自律兵器システム (AWS) を軍事作戦に統合することは、重要な機会と課題の両方をもたらします。
このペーパーでは、AWS における信頼の多面的な性質を検討し、偏見、運用上の失敗、説明責任に関連するリスクを軽減するために信頼性が高く透明性のあるシステムを確立する必要性を強調します。
人工知能 (AI) の進歩にもかかわらず、特に一か八かの軍事用途において、これらのシステムの信頼性は依然として重要な問題です。
この調査では、既存の文献を体系的にレビューすることで、AWS の開発およびデプロイメント段階における信頼のダイナミクスの理解におけるギャップを特定しています。
これらの進行中の課題に対処するために、技術者、倫理学者、軍事戦略家を含む協力的なアプローチを提唱しています。
この調査結果は、説明責任と国際人道法の順守を確保するために、人間と機械のチーム化とシステムの分かりやすさの向上の重要性を強調しています。
最終的に、このペーパーは、AWS の倫理的影響と、防衛の文脈における信頼できる AI の必須事項に関する現在進行中の議論に貢献することを目的としています。

要約(オリジナル)

The integration of Autonomous Weapon Systems (AWS) into military operations presents both significant opportunities and challenges. This paper explores the multifaceted nature of trust in AWS, emphasising the necessity of establishing reliable and transparent systems to mitigate risks associated with bias, operational failures, and accountability. Despite advancements in Artificial Intelligence (AI), the trustworthiness of these systems, especially in high-stakes military applications, remains a critical issue. Through a systematic review of existing literature, this research identifies gaps in the understanding of trust dynamics during the development and deployment phases of AWS. It advocates for a collaborative approach that includes technologists, ethicists, and military strategists to address these ongoing challenges. The findings underscore the importance of Human-Machine teaming and enhancing system intelligibility to ensure accountability and adherence to International Humanitarian Law. Ultimately, this paper aims to contribute to the ongoing discourse on the ethical implications of AWS and the imperative for trustworthy AI in defense contexts.

arxiv情報

著者 Kasper Cools,Clara Maathuis
発行日 2024-10-17 21:22:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.RO | Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems はコメントを受け付けていません

Latent Weight Diffusion: Generating Policies from Trajectories

要約

オープンソースのロボット データの利用可能性が高まるにつれて、模倣学習はロボットの操作と移動の両方に対する実行可能なアプローチとして浮上しています。
現在、大規模な一般化されたポリシーは、マルチモーダルなアクション分布を学習するという望ましい特性を備えた拡散モデルを使用して制御または軌道を予測するようにトレーニングされています。
ただし、一般化可能性にはコストが伴います。つまり、モデルのサイズが大きくなり、推論が遅くなります。
さらに、拡散ポリシー (つまり、軌道の拡散) のパフォーマンスとアクション範囲の間には既知のトレードオフがあります。つまり、拡散クエリが少ないほど、蓄積される軌道追跡エラーが大きくなります。
したがって、ロボットの計算上の制約に従って、これらのモデルを高い推論頻度で実行するのが一般的です。
これらの制限に対処するために、我々は潜在重量拡散 (LWD) を提案します。これは、拡散を使用して、軌道全体ではなく、ロボット タスクのポリシー全体の分布を学習する方法です。
私たちのアプローチは、デモンストレーションの軌跡を潜在空間にエンコードし、ハイパーネットワークを使用してポリシーにデコードします。
この潜在空間内で拡散ノイズ除去モデルを使用して、その分布を学習します。
LWD が軌跡データセットを生成した元のポリシーの動作を再構築できることを実証します。
LWD では、推論中にポリシー ネットワークが大幅に小さくなるという利点があり、必要な拡散モデル クエリが少なくなります。
Metaworld MT10 ベンチマークでテストした場合、LWD は、推論中に最大 18 分の 1 小さいモデルを使用しながら、通常のマルチタスク ポリシーと比較して高い成功率を達成します。
さらに、LWD は閉ループ ポリシーを生成するため、アクション期間が長い設定では拡散ポリシーよりも優れたパフォーマンスを示し、ロールアウト中の拡散クエリが減少します。

要約(オリジナル)

With the increasing availability of open-source robotic data, imitation learning has emerged as a viable approach for both robot manipulation and locomotion. Currently, large generalized policies are trained to predict controls or trajectories using diffusion models, which have the desirable property of learning multimodal action distributions. However, generalizability comes with a cost – namely, larger model size and slower inference. Further, there is a known trade-off between performance and action horizon for Diffusion Policy (i.e., diffusing trajectories): fewer diffusion queries accumulate greater trajectory tracking errors. Thus, it is common practice to run these models at high inference frequency, subject to robot computational constraints. To address these limitations, we propose Latent Weight Diffusion (LWD), a method that uses diffusion to learn a distribution over policies for robotic tasks, rather than over trajectories. Our approach encodes demonstration trajectories into a latent space and then decodes them into policies using a hypernetwork. We employ a diffusion denoising model within this latent space to learn its distribution. We demonstrate that LWD can reconstruct the behaviors of the original policies that generated the trajectory dataset. LWD offers the benefits of considerably smaller policy networks during inference and requires fewer diffusion model queries. When tested on the Metaworld MT10 benchmark, LWD achieves a higher success rate compared to a vanilla multi-task policy, while using models up to ~18x smaller during inference. Additionally, since LWD generates closed-loop policies, we show that it outperforms Diffusion Policy in long action horizon settings, with reduced diffusion queries during rollout.

arxiv情報

著者 Shashank Hegde,Gautam Salhotra,Gaurav S. Sukhatme
発行日 2024-10-17 21:30:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Latent Weight Diffusion: Generating Policies from Trajectories はコメントを受け付けていません