Open-Source Factor Graph Optimization Package for GNSS: Examples and Applications

要約

因子グラフ最適化(FGO)を使用した状態推定方法は、グローバルナビゲーション衛星システム(GNSS)研究に大きな注意を払っています。
FGOは、最小二乗またはカルマンフィルターに依存する従来の状態推定方法と比較して、優れた推定精度を示します。
ただし、GNSS観測に特化したFGOライブラリはごくわずかです。
このペーパーでは、GTSAM \ _GNSSという名前のオープンソースGNSS FGOパッケージを紹介します。これは、単純な構造を持ち、GNSSの研究開発に簡単に適用できます。
このパッケージは、GNSS観測の前処理を因子の最適化から分離します。
さらに、GNSS因子のエラー関数を簡単な方法で説明し、汎用入力を可能にします。
この設計により、通常の最小二乗ベースのポジショニングからFGOへの移行が促進され、ユーザー固有のGNSS研究をサポートします。
さらに、GTSAM \ _GNSSには、実際の都市環境でGNSSデータを使用したさまざまな要因を含む分析例が含まれています。
このホワイトペーパーでは、堅牢なエラーモデルの使用、キャリアフェーズでの整数の曖昧さの推定、およびスマートフォンからのGNSSの組み合わせ、および慣性測定の3つのアプリケーションの例を紹介します。
提案されたフレームワークは、すべてのユースケースで優れた状態推定パフォーマンスを示しています。

要約(オリジナル)

State estimation methods using factor graph optimization (FGO) have garnered significant attention in global navigation satellite system (GNSS) research. FGO exhibits superior estimation accuracy compared with traditional state estimation methods that rely on least-squares or Kalman filters. However, only a few FGO libraries are specialized for GNSS observations. This paper introduces an open-source GNSS FGO package named gtsam\_gnss, which has a simple structure and can be easily applied to GNSS research and development. This package separates the preprocessing of GNSS observations from factor optimization. Moreover, it describes the error function of the GNSS factor in a straightforward manner, allowing for general-purpose inputs. This design facilitates the transition from ordinary least-squares-based positioning to FGO and supports user-specific GNSS research. In addition, gtsam\_gnss includes analytical examples involving various factors using GNSS data in real urban environments. This paper presents three application examples: the use of a robust error model, estimation of integer ambiguity in the carrier phase, and combination of GNSS and inertial measurements from smartphones. The proposed framework demonstrates excellent state estimation performance across all use cases.

arxiv情報

著者 Taro Suzuki
発行日 2025-02-12 06:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Open-Source Factor Graph Optimization Package for GNSS: Examples and Applications はコメントを受け付けていません

Machine Learning-Based Estimation Of Wave Direction For Unmanned Surface Vehicles

要約

無人の表面車両(USV)は、海洋探査、環境監視、および自律的なナビゲーションのための重要なツールになりました。
USVナビゲーションを改善し、運用上の安全性を確保するためには、波方向の正確な推定が不可欠ですが、従来の方法は高いコストと限られた空間解像度に苦しむことがよくあります。
このペーパーでは、USVSから収集されたセンサーデータを使用して波方向を予測するために、LSTM(長期短期メモリ)ネットワークを活用する機械学習ベースのアプローチを提案します。
実験結果は、LSTMモデルが時間的依存関係を学習し、正確な予測を提供し、より単純なベースラインを上回る能力を示しています。

要約(オリジナル)

Unmanned Surface Vehicles (USVs) have become critical tools for marine exploration, environmental monitoring, and autonomous navigation. Accurate estimation of wave direction is essential for improving USV navigation and ensuring operational safety, but traditional methods often suffer from high costs and limited spatial resolution. This paper proposes a machine learning-based approach leveraging LSTM (Long Short-Term Memory) networks to predict wave direction using sensor data collected from USVs. Experimental results show the capability of the LSTM model to learn temporal dependencies and provide accurate predictions, outperforming simpler baselines.

arxiv情報

著者 Manele Ait Habouche,Mickaël Kerboeuf,Goulven Guillou,Jean-Philippe Babau
発行日 2025-02-12 09:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, eess.SP | Machine Learning-Based Estimation Of Wave Direction For Unmanned Surface Vehicles はコメントを受け付けていません

Robotic Grasping of Harvested Tomato Trusses Using Vision and Online Learning

要約

現在、Truss Tomatoの計量とパッケージには、かなりの手動作業が必要です。
自動化の主な障害は、すでに収穫されたトラスのための信頼できるロボット把持システムを開発するのが難しいことにあります。
かなりの混乱のある木枠に積み重ねられたトラスを把握する方法を提案します。これは、収穫後に一般的に保管および輸送される方法です。
この方法は、最初に木枠内の個々のトラスを識別し、ステムの適切な把握位置を決定するための深い学習ベースのビジョンシステムで構成されています。
この目的のために、オンライン学習機能を備えた把握ポーズランキングアルゴリズムを導入しました。
最も有望な把握ポーズを選択した後、ロボットはタッチセンサーや幾何学モデルを必要とせずにピンチの把握を実行します。
目の中のRGB-Dカメラを備えたロボットマニピュレーターを使用したラボ実験では、パイルからすべてのトラスを選択するように任された場合、100%のクリアランス率が示されました。
トラスの93%は最初の試みで正常に把握されましたが、残りの7%はさらに多くの試みを必要としました。

要約(オリジナル)

Currently, truss tomato weighing and packaging require significant manual work. The main obstacle to automation lies in the difficulty of developing a reliable robotic grasping system for already harvested trusses. We propose a method to grasp trusses that are stacked in a crate with considerable clutter, which is how they are commonly stored and transported after harvest. The method consists of a deep learning-based vision system to first identify the individual trusses in the crate and then determine a suitable grasping location on the stem. To this end, we have introduced a grasp pose ranking algorithm with online learning capabilities. After selecting the most promising grasp pose, the robot executes a pinch grasp without needing touch sensors or geometric models. Lab experiments with a robotic manipulator equipped with an eye-in-hand RGB-D camera showed a 100% clearance rate when tasked to pick all trusses from a pile. 93% of the trusses were successfully grasped on the first try, while the remaining 7% required more attempts.

arxiv情報

著者 Luuk van den Bent,Tomás Coleman,Robert Babuška
発行日 2025-02-12 10:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Robotic Grasping of Harvested Tomato Trusses Using Vision and Online Learning はコメントを受け付けていません

Noise-conditioned Energy-based Annealed Rewards (NEAR): A Generative Framework for Imitation Learning from Observation

要約

このペーパーでは、州のみの専門家モーション軌跡を通じて、複雑で物理依存のロボットモーションポリシーを学習できるエネルギーベースの生成モデルに基づいた新しい模倣学習フレームワークを紹介します。
ノイズコンディショニングエネルギーベースのアニール報酬(近く)と呼ばれるアルゴリズムは、エキスパートのモーションデータ分布のいくつかの乱れたバージョンを構築し、除去スコアマッチングを使用してデータ分布のエネルギー関数のスムーズで明確に定義された表現を学習します。
これらの学習エネルギー関数を報酬関数として使用して、補強学習を通じて模倣ポリシーを学習することを提案します。
また、学習したエネルギー関数を徐々に切り替える戦略を提示し、学習した報酬が常に政策生成されたサンプルの多様体で明確に定義されていることを保証します。
運動や武道などの複雑なヒューマノイドタスクに関するアルゴリズムを評価し、敵対的な動き事項(AMP)のような州のみの敵対的な模倣学習アルゴリズムと比較します。
私たちのフレームワークは、敵対的な模倣学習技術の最適化の課題を避け、複数の模倣設定にわたるいくつかの定量的メトリックでAMPに匹敵する結果を生成します。

要約(オリジナル)

This paper introduces a new imitation learning framework based on energy-based generative models capable of learning complex, physics-dependent, robot motion policies through state-only expert motion trajectories. Our algorithm, called Noise-conditioned Energy-based Annealed Rewards (NEAR), constructs several perturbed versions of the expert’s motion data distribution and learns smooth, and well-defined representations of the data distribution’s energy function using denoising score matching. We propose to use these learnt energy functions as reward functions to learn imitation policies via reinforcement learning. We also present a strategy to gradually switch between the learnt energy functions, ensuring that the learnt rewards are always well-defined in the manifold of policy-generated samples. We evaluate our algorithm on complex humanoid tasks such as locomotion and martial arts and compare it with state-only adversarial imitation learning algorithms like Adversarial Motion Priors (AMP). Our framework sidesteps the optimisation challenges of adversarial imitation learning techniques and produces results comparable to AMP in several quantitative metrics across multiple imitation settings.

arxiv情報

著者 Anish Abhijit Diwan,Julen Urain,Jens Kober,Jan Peters
発行日 2025-02-12 10:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Noise-conditioned Energy-based Annealed Rewards (NEAR): A Generative Framework for Imitation Learning from Observation はコメントを受け付けていません

Continual Learning through Human-Robot Interaction: Human Perceptions of a Continual Learning Robot in Repeated Interactions

要約

動的な現実世界環境での長期展開のために、支援ロボットは環境を学び、適応させ続ける必要があります。
研究者は、ロボットが限られたトレーニングデータから継続的に学習できるようにし、以前の知識を忘れないようにするための継続的な学習(CL)のためのさまざまな計算モデルを開発しました。
これらのCLモデルは、静的で体系的に収集されたデータセットで忘れを緩和することができますが、人間のユーザーがそれらとの複数の相互作用を継続的に学習するロボットをどのように知覚するかは不明です。
この論文では、オブジェクト認識のためのCLモデルをフェッチモバイルマニピュレーターロボットと統合し、人間の参加者が複数のセッションでロボットを直接教えてテストできるようにするシステムを開発しました。
私たちは、300セッション(参加者ごとに5セッション)でシステムと対話した60人の参加者と対面研究を実施しました。
複数のセッションで継続的な学習ロボットに対する人間の認識を理解するために、3つの異なるCLモデルを使用した被験者間研究を実施しました。
私たちの結果は、ロボットが以前に学んだオブジェクトを忘れた場合、継続的な学習ロボットの信頼、能力、および継続的な学習ロボットの使いやすさに対する参加者の認識が大幅に減少することを示唆しています。
ただし、ロボットが以前に学習したオブジェクトを忘れても、ロボットを教育およびテストするための参加者の知覚されたタスクロードは、複数のセッションで同じままです。
また、私たちの結果は、人間の参加者と対話するロボットに適用された場合、最先端のCLモデルが不当に機能する可能性があることを示しています。
さらに、継続的な学習ロボットは、基礎となる継続的な学習モデルやセッション番号に関係なく、人間の参加者によって非常に信頼できる、または有能であると認識されていません。

要約(オリジナル)

For long-term deployment in dynamic real-world environments, assistive robots must continue to learn and adapt to their environments. Researchers have developed various computational models for continual learning (CL) that can allow robots to continually learn from limited training data, and avoid forgetting previous knowledge. While these CL models can mitigate forgetting on static, systematically collected datasets, it is unclear how human users might perceive a robot that continually learns over multiple interactions with them. In this paper, we developed a system that integrates CL models for object recognition with a Fetch mobile manipulator robot and allows human participants to directly teach and test the robot over multiple sessions. We conducted an in-person study with 60 participants that interacted with our system in 300 sessions (5 sessions per participant). We conducted a between-subject study with three different CL models to understand human perceptions of continual learning robots over multiple sessions. Our results suggest that participants’ perceptions of trust, competence, and usability of a continual learning robot significantly decrease over multiple sessions if the robot forgets previously learned objects. However, the perceived task load on participants for teaching and testing the robot remains the same over multiple sessions even if the robot forgets previously learned objects. Our results also indicate that state-of-the-art CL models might perform unreliably when applied on robots interacting with human participants. Further, continual learning robots are not perceived as very trustworthy or competent by human participants, regardless of the underlying continual learning model or the session number.

arxiv情報

著者 Ali Ayub,Zachary De Francesco,Patrick Holthaus,Chrystopher L. Nehaniv,Kerstin Dautenhahn
発行日 2025-02-12 13:07:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Continual Learning through Human-Robot Interaction: Human Perceptions of a Continual Learning Robot in Repeated Interactions はコメントを受け付けていません

Learning Humanoid Standing-up Control across Diverse Postures

要約

スタンディングアップコントロールは、ヒューマノイドロボットにとって非常に重要であり、秋の回復などの現在の移動や局所操作システムに統合する可能性があります。
既存のアプローチは、ハードウェアの制約を見落とすシミュレーションに限定されているか、事前に定義された地上固有の動きの軌跡に依存しており、実際のシーンで姿勢を横切って立ち上がることができません。
このギャップを埋めるために、私たちは、スタンディングアップコントロールをゼロから学習する強化学習フレームワークであるホスト(ヒューマノイドスタンディングアップコントロール)を提示し、多様な姿勢で堅牢なSIMからリアルへの転送を可能にします。
ホストは、多様なシミュレートされた地形に関するマルチクリティックアーキテクチャとカリキュラムベースのトレーニングを活用することにより、姿勢に適応する動きを効果的に学習します。
現実世界の展開を成功させるために、物理ハードウェアの振動と暴力の動きをそれぞれ緩和するために、滑らかさの正則化と暗黙の動き速度で動きを制限します。
シミュレーションベースのトレーニングの後、学習した制御ポリシーは、Unitree G1ヒューマノイドロボットに直接展開されます。
私たちの実験結果は、コントローラーが幅広い実験室および屋外環境で滑らかで安定した、堅牢なスタンディングモーションを実現することを示しています。
ビデオはhttps://taohuang13.github.io/humanoid-standingup.github.io/で入手できます。

要約(オリジナル)

Standing-up control is crucial for humanoid robots, with the potential for integration into current locomotion and loco-manipulation systems, such as fall recovery. Existing approaches are either limited to simulations that overlook hardware constraints or rely on predefined ground-specific motion trajectories, failing to enable standing up across postures in real-world scenes. To bridge this gap, we present HoST (Humanoid Standing-up Control), a reinforcement learning framework that learns standing-up control from scratch, enabling robust sim-to-real transfer across diverse postures. HoST effectively learns posture-adaptive motions by leveraging a multi-critic architecture and curriculum-based training on diverse simulated terrains. To ensure successful real-world deployment, we constrain the motion with smoothness regularization and implicit motion speed bound to alleviate oscillatory and violent motions on physical hardware, respectively. After simulation-based training, the learned control policies are directly deployed on the Unitree G1 humanoid robot. Our experimental results demonstrate that the controllers achieve smooth, stable, and robust standing-up motions across a wide range of laboratory and outdoor environments. Videos are available at https://taohuang13.github.io/humanoid-standingup.github.io/.

arxiv情報

著者 Tao Huang,Junli Ren,Huayi Wang,Zirui Wang,Qingwei Ben,Muning Wen,Xiao Chen,Jianan Li,Jiangmiao Pang
発行日 2025-02-12 13:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Learning Humanoid Standing-up Control across Diverse Postures はコメントを受け付けていません

Data Scaling Laws in Imitation Learning for Robotic Manipulation

要約

データスケーリングは、自然言語処理やコンピュータービジョンなどの分野に革命をもたらし、モデルに顕著な一般化能力を提供しています。
このホワイトペーパーでは、特にロボット操作に類似のデータスケーリング法が存在するかどうか、および適切なデータスケーリングが、あらゆる環境の同じカテゴリ内のオブジェクトのゼロショットを展開できるシングルタスクロボットポリシーを生成できるかどうかを調査します。
この目的のために、模倣学習におけるデータスケーリングに関する包括的な経験的研究を実施します。
多数の環境とオブジェクトにわたってデータを収集することにより、トレーニング環境、オブジェクト、デモの数とともにポリシーの一般化パフォーマンスがどのように変化するかを研究します。
調査全体を通して、40,000を超えるデモンストレーションを収集し、厳密な評価プロトコルの下で15,000を超える実世界のロボットロールアウトを実行します。
私たちの調査結果は、いくつかの興味深い結果を明らかにしています。ポリシーの一般化パフォーマンスは、環境やオブジェクトの数との大まかな権力の関係に従います。
環境とオブジェクトの多様性は、デモの絶対数よりもはるかに重要です。
環境またはオブジェクトごとのデモの数が特定のしきい値に達すると、追加のデモンストレーションは最小限の効果があります。
これらの洞察に基づいて、効率的なデータ収集戦略を提案します。
1つの午後、4つのデータコレクターが働いているため、目に見えないオブジェクトを持つ新しい環境で約90%の成功率を達成できる2つのタスクのポリシーを可能にするのに十分なデータを収集します。

要約(オリジナル)

Data scaling has revolutionized fields like natural language processing and computer vision, providing models with remarkable generalization capabilities. In this paper, we investigate whether similar data scaling laws exist in robotics, particularly in robotic manipulation, and whether appropriate data scaling can yield single-task robot policies that can be deployed zero-shot for any object within the same category in any environment. To this end, we conduct a comprehensive empirical study on data scaling in imitation learning. By collecting data across numerous environments and objects, we study how a policy’s generalization performance changes with the number of training environments, objects, and demonstrations. Throughout our research, we collect over 40,000 demonstrations and execute more than 15,000 real-world robot rollouts under a rigorous evaluation protocol. Our findings reveal several intriguing results: the generalization performance of the policy follows a roughly power-law relationship with the number of environments and objects. The diversity of environments and objects is far more important than the absolute number of demonstrations; once the number of demonstrations per environment or object reaches a certain threshold, additional demonstrations have minimal effect. Based on these insights, we propose an efficient data collection strategy. With four data collectors working for one afternoon, we collect sufficient data to enable the policies for two tasks to achieve approximately 90% success rates in novel environments with unseen objects.

arxiv情報

著者 Fanqi Lin,Yingdong Hu,Pingyue Sheng,Chuan Wen,Jiacheng You,Yang Gao
発行日 2025-02-12 13:40:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Data Scaling Laws in Imitation Learning for Robotic Manipulation はコメントを受け付けていません

Robot-Initiated Social Control of Sedentary Behavior: Comparing the Impact of Relationship- and Target-Focused Strategies

要約

ソーシャルロボットを設計して健康行動の変化を効果的に促進するには、これらのロボットが採用しているさまざまな健康コミュニケーション戦略に人々がどのように対応するかを理解することが不可欠です。
この研究では、社会的ロボットからの2種類の社会的統制戦略、関係に焦点を当てた戦略(関係的結果を強調)、およびターゲット中心の戦略(健康への影響を強調)の有効性を検証し、人々が座りがちな行動を減らすことを奨励します。
2セッションラボの実験が行われ(n = 135)、参加者は最初にロボットでゲームをプレイし、その後ロボットが立ち上がって戦略のいずれかを使用して動くように説得しました。
参加者の半分が2回目のセッションに参加して、ロボットとの繰り返しのやり取りを行いました。
結果は、関係に焦点を当てた戦略により、参加者がより長くアクティブを維持するように動機付けたことが示されました。
繰り返しのセッションは、ロボットとの参加者の関係を強化しませんでしたが、ロボットにもっと執着していると感じた人は、ターゲット中心の戦略に対してより積極的に対応しました。
これらの調査結果は、健康コミュニケーションの文脈における社会ロボットの説得力のある戦略を設計するための貴重な洞察を提供します。

要約(オリジナル)

To design social robots to effectively promote health behavior change, it is essential to understand how people respond to various health communication strategies employed by these robots. This study examines the effectiveness of two types of social control strategies from a social robot, relationship-focused strategies (emphasizing relational consequences) and target-focused strategies (emphasizing health consequences), in encouraging people to reduce sedentary behavior. A two-session lab experiment was conducted (n = 135), where participants first played a game with a robot, followed by the robot persuading them to stand up and move using one of the strategies. Half of the participants joined a second session to have a repeated interaction with the robot. Results showed that relationship-focused strategies motivated participants to stay active longer. Repeated sessions did not strengthen participants’ relationship with the robot, but those who felt more attached to the robot responded more actively to the target-focused strategies. These findings offer valuable insights for designing persuasive strategies for social robots in health communication contexts.

arxiv情報

著者 Jiaxin Xu,Sterre Anna Mariam van der Horst,Chao Zhang,Raymond H. Cuijpers,Wijnand A. IJsselsteijn
発行日 2025-02-12 14:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Robot-Initiated Social Control of Sedentary Behavior: Comparing the Impact of Relationship- and Target-Focused Strategies はコメントを受け付けていません

Learning Manipulation Skills through Robot Chain-of-Thought with Sparse Failure Guidance

要約

スキル学習の報酬機能を定義することは、ロボット工学における長年の課題でした。
最近、Vision-Language Models(VLM)は、ロボットの操作スキルを教えるための報酬シグナルを定義する際に有望を示しています。
ただし、既存の作業は、多くの場合、粗すぎる報酬ガイダンスを提供し、学習プロセスが不十分であることがあります。
この論文では、より微調整された報酬ガイダンスを実装することにより、この問題に対処します。
この分解を使用して、VLMSでより有益な報酬ガイダンスを提供するために、タスクをより単純なサブタスクに分解します。
また、学習を高速化するために、VLMベースの自己模倣学習プロセスを提案します。
経験的証拠は、私たちのアルゴリズムがClip、Liv、Roboclipなどのベースラインを常に上回ることを示しています。
具体的には、当社のアルゴリズムは、一連の操作タスクにわたって、ベストベースラインであるロボクリップと比較して、5.4 \タイムの平均成功率を達成します。

要約(オリジナル)

Defining reward functions for skill learning has been a long-standing challenge in robotics. Recently, vision-language models (VLMs) have shown promise in defining reward signals for teaching robots manipulation skills. However, existing work often provides reward guidance that is too coarse, leading to insufficient learning processes. In this paper, we address this issue by implementing more fine-grained reward guidance. We decompose tasks into simpler sub-tasks, using this decomposition to offer more informative reward guidance with VLMs. We also propose a VLM-based self imitation learning process to speed up learning. Empirical evidence demonstrates that our algorithm consistently outperforms baselines such as CLIP, LIV, and RoboCLIP. Specifically, our algorithm achieves a $5.4 \times$ higher average success rates compared to the best baseline, RoboCLIP, across a series of manipulation tasks.

arxiv情報

著者 Kaifeng Zhang,Zhao-Heng Yin,Weirui Ye,Yang Gao
発行日 2025-02-12 14:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Manipulation Skills through Robot Chain-of-Thought with Sparse Failure Guidance はコメントを受け付けていません

GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation

要約

ロボットの指示に従い、多様な3D操作タスクを実行する能力は、ロボット学習に不可欠です。
従来の模倣学習ベースの方法は、見られたタスクではうまく機能しますが、変動性のために斬新で目に見えないタスクと格闘しています。
最近のアプローチでは、大規模な基礎モデルを活用して、新しいタスクの理解を支援し、それによってこの問題を軽減します。
ただし、これらの方法にはタスク固有の学習プロセスがありません。これは、3D環境を正確に理解するために不可欠であり、しばしば実行障害につながることがあります。
この論文では、模倣学習と基礎モデルの強みを組み合わせた、サブゴール駆動型の言語条件付きアクション拡散フレームワークであるGravmadを紹介します。
私たちのアプローチは、言語の指示に基づいてタスクをサブゴールに分割し、トレーニングと推論の両方で補助ガイダンスを可能にします。
トレーニング中に、サブゴールキーポーズ発見を導入して、デモンストレーションからキーサブゴールを特定します。
推論はトレーニングとは異なり、デモンストレーションが利用できないため、事前に訓練された基礎モデルを使用してギャップを埋め、現在のタスクのサブゴールを特定します。
両方のフェーズで、グラブマップはサブゴールから生成され、固定された3D位置と比較してより柔軟な3D空間ガイダンスをGravmadに提供します。
RLBenchの経験的評価は、Gravmadが最先端の方法を大幅に上回ることを示しており、新しいタスクが28.63%改善され、トレーニング中に遭遇したタスクで13.36%の増加が得られます。
現実世界のロボットタスクに関する評価はさらに、Gravmadが実際のタスクについて推論し、関連する視覚情報に関連付けられ、新しいタスクに一般化できることを示しています。
これらの結果は、3D操作におけるGravmadの強力なマルチタスク学習と一般化を示しています。
ビデオデモンストレーションは、https://gravmad.github.ioで入手できます。

要約(オリジナル)

Robots’ ability to follow language instructions and execute diverse 3D manipulation tasks is vital in robot learning. Traditional imitation learning-based methods perform well on seen tasks but struggle with novel, unseen ones due to variability. Recent approaches leverage large foundation models to assist in understanding novel tasks, thereby mitigating this issue. However, these methods lack a task-specific learning process, which is essential for an accurate understanding of 3D environments, often leading to execution failures. In this paper, we introduce GravMAD, a sub-goal-driven, language-conditioned action diffusion framework that combines the strengths of imitation learning and foundation models. Our approach breaks tasks into sub-goals based on language instructions, allowing auxiliary guidance during both training and inference. During training, we introduce Sub-goal Keypose Discovery to identify key sub-goals from demonstrations. Inference differs from training, as there are no demonstrations available, so we use pre-trained foundation models to bridge the gap and identify sub-goals for the current task. In both phases, GravMaps are generated from sub-goals, providing GravMAD with more flexible 3D spatial guidance compared to fixed 3D positions. Empirical evaluations on RLBench show that GravMAD significantly outperforms state-of-the-art methods, with a 28.63% improvement on novel tasks and a 13.36% gain on tasks encountered during training. Evaluations on real-world robotic tasks further show that GravMAD can reason about real-world tasks, associate them with relevant visual information, and generalize to novel tasks. These results demonstrate GravMAD’s strong multi-task learning and generalization in 3D manipulation. Video demonstrations are available at: https://gravmad.github.io.

arxiv情報

著者 Yangtao Chen,Zixuan Chen,Junhui Yin,Jing Huo,Pinzhuo Tian,Jieqi Shi,Yang Gao
発行日 2025-02-12 14:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation はコメントを受け付けていません