AToM: Adaptive Theory-of-Mind-Based Human Motion Prediction in Long-Term Human-Robot Interactions

要約

人間は観察と経験から学び、行動をより良いパフォーマンスに向けて調整します。
ロボットは安全で効率的な操作のために人間を正確に予測する必要があるため、このような動的な人間とのやり取りは挑戦的です。
動的な人間との長期的な相互作用は、以前の作品によって広範囲に研究されていません。
私たちは、人間が他人の行動と意図を推測できるようにする基本的な社会的認知能力である、精神理論(TOM)に基づいた適応的な人間の予測モデルを提案します。
ナビゲーションシナリオですべてのエージェントの将来の動きを予測するゲーム理論モデルを使用して、他の人についての人間の内部信念を定式化します。
進化する信念を推定するために、無香料のKalmanフィルターを使用して、人間の内部モデルの行動パラメーターを更新します。
私たちの定式化は、人間がロボットをどのように予測するかを推測することにより、動的な人間の行動に対する独自の解釈可能性を提供します。
私たちは、シミュレーションと現実世界の両方の設定での長期実験を通じて、予測が下流のロボット計画の安全性と効率を効果的に促進することを実証します。
コードはhttps://github.com/centilinda/atom-human-prediction.gitで入手できます。

要約(オリジナル)

Humans learn from observations and experiences to adjust their behaviours towards better performance. Interacting with such dynamic humans is challenging, as the robot needs to predict the humans accurately for safe and efficient operations. Long-term interactions with dynamic humans have not been extensively studied by prior works. We propose an adaptive human prediction model based on the Theory-of-Mind (ToM), a fundamental social-cognitive ability that enables humans to infer others’ behaviours and intentions. We formulate the human internal belief about others using a game-theoretic model, which predicts the future motions of all agents in a navigation scenario. To estimate an evolving belief, we use an Unscented Kalman Filter to update the behavioural parameters in the human internal model. Our formulation provides unique interpretability to dynamic human behaviours by inferring how the human predicts the robot. We demonstrate through long-term experiments in both simulations and real-world settings that our prediction effectively promotes safety and efficiency in downstream robot planning. Code will be available at https://github.com/centiLinda/AToM-human-prediction.git.

arxiv情報

著者 Yuwen Liao,Muqing Cao,Xinhang Xu,Lihua Xie
発行日 2025-02-12 06:33:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | AToM: Adaptive Theory-of-Mind-Based Human Motion Prediction in Long-Term Human-Robot Interactions はコメントを受け付けていません

Open-Source Factor Graph Optimization Package for GNSS: Examples and Applications

要約

因子グラフ最適化(FGO)を使用した状態推定方法は、グローバルナビゲーション衛星システム(GNSS)研究に大きな注意を払っています。
FGOは、最小二乗またはカルマンフィルターに依存する従来の状態推定方法と比較して、優れた推定精度を示します。
ただし、GNSS観測に特化したFGOライブラリはごくわずかです。
このペーパーでは、GTSAM \ _GNSSという名前のオープンソースGNSS FGOパッケージを紹介します。これは、単純な構造を持ち、GNSSの研究開発に簡単に適用できます。
このパッケージは、GNSS観測の前処理を因子の最適化から分離します。
さらに、GNSS因子のエラー関数を簡単な方法で説明し、汎用入力を可能にします。
この設計により、通常の最小二乗ベースのポジショニングからFGOへの移行が促進され、ユーザー固有のGNSS研究をサポートします。
さらに、GTSAM \ _GNSSには、実際の都市環境でGNSSデータを使用したさまざまな要因を含む分析例が含まれています。
このホワイトペーパーでは、堅牢なエラーモデルの使用、キャリアフェーズでの整数の曖昧さの推定、およびスマートフォンからのGNSSの組み合わせ、および慣性測定の3つのアプリケーションの例を紹介します。
提案されたフレームワークは、すべてのユースケースで優れた状態推定パフォーマンスを示しています。

要約(オリジナル)

State estimation methods using factor graph optimization (FGO) have garnered significant attention in global navigation satellite system (GNSS) research. FGO exhibits superior estimation accuracy compared with traditional state estimation methods that rely on least-squares or Kalman filters. However, only a few FGO libraries are specialized for GNSS observations. This paper introduces an open-source GNSS FGO package named gtsam\_gnss, which has a simple structure and can be easily applied to GNSS research and development. This package separates the preprocessing of GNSS observations from factor optimization. Moreover, it describes the error function of the GNSS factor in a straightforward manner, allowing for general-purpose inputs. This design facilitates the transition from ordinary least-squares-based positioning to FGO and supports user-specific GNSS research. In addition, gtsam\_gnss includes analytical examples involving various factors using GNSS data in real urban environments. This paper presents three application examples: the use of a robust error model, estimation of integer ambiguity in the carrier phase, and combination of GNSS and inertial measurements from smartphones. The proposed framework demonstrates excellent state estimation performance across all use cases.

arxiv情報

著者 Taro Suzuki
発行日 2025-02-12 06:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Open-Source Factor Graph Optimization Package for GNSS: Examples and Applications はコメントを受け付けていません

Machine Learning-Based Estimation Of Wave Direction For Unmanned Surface Vehicles

要約

無人の表面車両(USV)は、海洋探査、環境監視、および自律的なナビゲーションのための重要なツールになりました。
USVナビゲーションを改善し、運用上の安全性を確保するためには、波方向の正確な推定が不可欠ですが、従来の方法は高いコストと限られた空間解像度に苦しむことがよくあります。
このペーパーでは、USVSから収集されたセンサーデータを使用して波方向を予測するために、LSTM(長期短期メモリ)ネットワークを活用する機械学習ベースのアプローチを提案します。
実験結果は、LSTMモデルが時間的依存関係を学習し、正確な予測を提供し、より単純なベースラインを上回る能力を示しています。

要約(オリジナル)

Unmanned Surface Vehicles (USVs) have become critical tools for marine exploration, environmental monitoring, and autonomous navigation. Accurate estimation of wave direction is essential for improving USV navigation and ensuring operational safety, but traditional methods often suffer from high costs and limited spatial resolution. This paper proposes a machine learning-based approach leveraging LSTM (Long Short-Term Memory) networks to predict wave direction using sensor data collected from USVs. Experimental results show the capability of the LSTM model to learn temporal dependencies and provide accurate predictions, outperforming simpler baselines.

arxiv情報

著者 Manele Ait Habouche,Mickaël Kerboeuf,Goulven Guillou,Jean-Philippe Babau
発行日 2025-02-12 09:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, eess.SP | Machine Learning-Based Estimation Of Wave Direction For Unmanned Surface Vehicles はコメントを受け付けていません

Robotic Grasping of Harvested Tomato Trusses Using Vision and Online Learning

要約

現在、Truss Tomatoの計量とパッケージには、かなりの手動作業が必要です。
自動化の主な障害は、すでに収穫されたトラスのための信頼できるロボット把持システムを開発するのが難しいことにあります。
かなりの混乱のある木枠に積み重ねられたトラスを把握する方法を提案します。これは、収穫後に一般的に保管および輸送される方法です。
この方法は、最初に木枠内の個々のトラスを識別し、ステムの適切な把握位置を決定するための深い学習ベースのビジョンシステムで構成されています。
この目的のために、オンライン学習機能を備えた把握ポーズランキングアルゴリズムを導入しました。
最も有望な把握ポーズを選択した後、ロボットはタッチセンサーや幾何学モデルを必要とせずにピンチの把握を実行します。
目の中のRGB-Dカメラを備えたロボットマニピュレーターを使用したラボ実験では、パイルからすべてのトラスを選択するように任された場合、100%のクリアランス率が示されました。
トラスの93%は最初の試みで正常に把握されましたが、残りの7%はさらに多くの試みを必要としました。

要約(オリジナル)

Currently, truss tomato weighing and packaging require significant manual work. The main obstacle to automation lies in the difficulty of developing a reliable robotic grasping system for already harvested trusses. We propose a method to grasp trusses that are stacked in a crate with considerable clutter, which is how they are commonly stored and transported after harvest. The method consists of a deep learning-based vision system to first identify the individual trusses in the crate and then determine a suitable grasping location on the stem. To this end, we have introduced a grasp pose ranking algorithm with online learning capabilities. After selecting the most promising grasp pose, the robot executes a pinch grasp without needing touch sensors or geometric models. Lab experiments with a robotic manipulator equipped with an eye-in-hand RGB-D camera showed a 100% clearance rate when tasked to pick all trusses from a pile. 93% of the trusses were successfully grasped on the first try, while the remaining 7% required more attempts.

arxiv情報

著者 Luuk van den Bent,Tomás Coleman,Robert Babuška
発行日 2025-02-12 10:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Robotic Grasping of Harvested Tomato Trusses Using Vision and Online Learning はコメントを受け付けていません

Noise-conditioned Energy-based Annealed Rewards (NEAR): A Generative Framework for Imitation Learning from Observation

要約

このペーパーでは、州のみの専門家モーション軌跡を通じて、複雑で物理依存のロボットモーションポリシーを学習できるエネルギーベースの生成モデルに基づいた新しい模倣学習フレームワークを紹介します。
ノイズコンディショニングエネルギーベースのアニール報酬(近く)と呼ばれるアルゴリズムは、エキスパートのモーションデータ分布のいくつかの乱れたバージョンを構築し、除去スコアマッチングを使用してデータ分布のエネルギー関数のスムーズで明確に定義された表現を学習します。
これらの学習エネルギー関数を報酬関数として使用して、補強学習を通じて模倣ポリシーを学習することを提案します。
また、学習したエネルギー関数を徐々に切り替える戦略を提示し、学習した報酬が常に政策生成されたサンプルの多様体で明確に定義されていることを保証します。
運動や武道などの複雑なヒューマノイドタスクに関するアルゴリズムを評価し、敵対的な動き事項(AMP)のような州のみの敵対的な模倣学習アルゴリズムと比較します。
私たちのフレームワークは、敵対的な模倣学習技術の最適化の課題を避け、複数の模倣設定にわたるいくつかの定量的メトリックでAMPに匹敵する結果を生成します。

要約(オリジナル)

This paper introduces a new imitation learning framework based on energy-based generative models capable of learning complex, physics-dependent, robot motion policies through state-only expert motion trajectories. Our algorithm, called Noise-conditioned Energy-based Annealed Rewards (NEAR), constructs several perturbed versions of the expert’s motion data distribution and learns smooth, and well-defined representations of the data distribution’s energy function using denoising score matching. We propose to use these learnt energy functions as reward functions to learn imitation policies via reinforcement learning. We also present a strategy to gradually switch between the learnt energy functions, ensuring that the learnt rewards are always well-defined in the manifold of policy-generated samples. We evaluate our algorithm on complex humanoid tasks such as locomotion and martial arts and compare it with state-only adversarial imitation learning algorithms like Adversarial Motion Priors (AMP). Our framework sidesteps the optimisation challenges of adversarial imitation learning techniques and produces results comparable to AMP in several quantitative metrics across multiple imitation settings.

arxiv情報

著者 Anish Abhijit Diwan,Julen Urain,Jens Kober,Jan Peters
発行日 2025-02-12 10:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Noise-conditioned Energy-based Annealed Rewards (NEAR): A Generative Framework for Imitation Learning from Observation はコメントを受け付けていません

Continual Learning through Human-Robot Interaction: Human Perceptions of a Continual Learning Robot in Repeated Interactions

要約

動的な現実世界環境での長期展開のために、支援ロボットは環境を学び、適応させ続ける必要があります。
研究者は、ロボットが限られたトレーニングデータから継続的に学習できるようにし、以前の知識を忘れないようにするための継続的な学習(CL)のためのさまざまな計算モデルを開発しました。
これらのCLモデルは、静的で体系的に収集されたデータセットで忘れを緩和することができますが、人間のユーザーがそれらとの複数の相互作用を継続的に学習するロボットをどのように知覚するかは不明です。
この論文では、オブジェクト認識のためのCLモデルをフェッチモバイルマニピュレーターロボットと統合し、人間の参加者が複数のセッションでロボットを直接教えてテストできるようにするシステムを開発しました。
私たちは、300セッション(参加者ごとに5セッション)でシステムと対話した60人の参加者と対面研究を実施しました。
複数のセッションで継続的な学習ロボットに対する人間の認識を理解するために、3つの異なるCLモデルを使用した被験者間研究を実施しました。
私たちの結果は、ロボットが以前に学んだオブジェクトを忘れた場合、継続的な学習ロボットの信頼、能力、および継続的な学習ロボットの使いやすさに対する参加者の認識が大幅に減少することを示唆しています。
ただし、ロボットが以前に学習したオブジェクトを忘れても、ロボットを教育およびテストするための参加者の知覚されたタスクロードは、複数のセッションで同じままです。
また、私たちの結果は、人間の参加者と対話するロボットに適用された場合、最先端のCLモデルが不当に機能する可能性があることを示しています。
さらに、継続的な学習ロボットは、基礎となる継続的な学習モデルやセッション番号に関係なく、人間の参加者によって非常に信頼できる、または有能であると認識されていません。

要約(オリジナル)

For long-term deployment in dynamic real-world environments, assistive robots must continue to learn and adapt to their environments. Researchers have developed various computational models for continual learning (CL) that can allow robots to continually learn from limited training data, and avoid forgetting previous knowledge. While these CL models can mitigate forgetting on static, systematically collected datasets, it is unclear how human users might perceive a robot that continually learns over multiple interactions with them. In this paper, we developed a system that integrates CL models for object recognition with a Fetch mobile manipulator robot and allows human participants to directly teach and test the robot over multiple sessions. We conducted an in-person study with 60 participants that interacted with our system in 300 sessions (5 sessions per participant). We conducted a between-subject study with three different CL models to understand human perceptions of continual learning robots over multiple sessions. Our results suggest that participants’ perceptions of trust, competence, and usability of a continual learning robot significantly decrease over multiple sessions if the robot forgets previously learned objects. However, the perceived task load on participants for teaching and testing the robot remains the same over multiple sessions even if the robot forgets previously learned objects. Our results also indicate that state-of-the-art CL models might perform unreliably when applied on robots interacting with human participants. Further, continual learning robots are not perceived as very trustworthy or competent by human participants, regardless of the underlying continual learning model or the session number.

arxiv情報

著者 Ali Ayub,Zachary De Francesco,Patrick Holthaus,Chrystopher L. Nehaniv,Kerstin Dautenhahn
発行日 2025-02-12 13:07:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Continual Learning through Human-Robot Interaction: Human Perceptions of a Continual Learning Robot in Repeated Interactions はコメントを受け付けていません

Learning Humanoid Standing-up Control across Diverse Postures

要約

スタンディングアップコントロールは、ヒューマノイドロボットにとって非常に重要であり、秋の回復などの現在の移動や局所操作システムに統合する可能性があります。
既存のアプローチは、ハードウェアの制約を見落とすシミュレーションに限定されているか、事前に定義された地上固有の動きの軌跡に依存しており、実際のシーンで姿勢を横切って立ち上がることができません。
このギャップを埋めるために、私たちは、スタンディングアップコントロールをゼロから学習する強化学習フレームワークであるホスト(ヒューマノイドスタンディングアップコントロール)を提示し、多様な姿勢で堅牢なSIMからリアルへの転送を可能にします。
ホストは、多様なシミュレートされた地形に関するマルチクリティックアーキテクチャとカリキュラムベースのトレーニングを活用することにより、姿勢に適応する動きを効果的に学習します。
現実世界の展開を成功させるために、物理ハードウェアの振動と暴力の動きをそれぞれ緩和するために、滑らかさの正則化と暗黙の動き速度で動きを制限します。
シミュレーションベースのトレーニングの後、学習した制御ポリシーは、Unitree G1ヒューマノイドロボットに直接展開されます。
私たちの実験結果は、コントローラーが幅広い実験室および屋外環境で滑らかで安定した、堅牢なスタンディングモーションを実現することを示しています。
ビデオはhttps://taohuang13.github.io/humanoid-standingup.github.io/で入手できます。

要約(オリジナル)

Standing-up control is crucial for humanoid robots, with the potential for integration into current locomotion and loco-manipulation systems, such as fall recovery. Existing approaches are either limited to simulations that overlook hardware constraints or rely on predefined ground-specific motion trajectories, failing to enable standing up across postures in real-world scenes. To bridge this gap, we present HoST (Humanoid Standing-up Control), a reinforcement learning framework that learns standing-up control from scratch, enabling robust sim-to-real transfer across diverse postures. HoST effectively learns posture-adaptive motions by leveraging a multi-critic architecture and curriculum-based training on diverse simulated terrains. To ensure successful real-world deployment, we constrain the motion with smoothness regularization and implicit motion speed bound to alleviate oscillatory and violent motions on physical hardware, respectively. After simulation-based training, the learned control policies are directly deployed on the Unitree G1 humanoid robot. Our experimental results demonstrate that the controllers achieve smooth, stable, and robust standing-up motions across a wide range of laboratory and outdoor environments. Videos are available at https://taohuang13.github.io/humanoid-standingup.github.io/.

arxiv情報

著者 Tao Huang,Junli Ren,Huayi Wang,Zirui Wang,Qingwei Ben,Muning Wen,Xiao Chen,Jianan Li,Jiangmiao Pang
発行日 2025-02-12 13:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Learning Humanoid Standing-up Control across Diverse Postures はコメントを受け付けていません

Data Scaling Laws in Imitation Learning for Robotic Manipulation

要約

データスケーリングは、自然言語処理やコンピュータービジョンなどの分野に革命をもたらし、モデルに顕著な一般化能力を提供しています。
このホワイトペーパーでは、特にロボット操作に類似のデータスケーリング法が存在するかどうか、および適切なデータスケーリングが、あらゆる環境の同じカテゴリ内のオブジェクトのゼロショットを展開できるシングルタスクロボットポリシーを生成できるかどうかを調査します。
この目的のために、模倣学習におけるデータスケーリングに関する包括的な経験的研究を実施します。
多数の環境とオブジェクトにわたってデータを収集することにより、トレーニング環境、オブジェクト、デモの数とともにポリシーの一般化パフォーマンスがどのように変化するかを研究します。
調査全体を通して、40,000を超えるデモンストレーションを収集し、厳密な評価プロトコルの下で15,000を超える実世界のロボットロールアウトを実行します。
私たちの調査結果は、いくつかの興味深い結果を明らかにしています。ポリシーの一般化パフォーマンスは、環境やオブジェクトの数との大まかな権力の関係に従います。
環境とオブジェクトの多様性は、デモの絶対数よりもはるかに重要です。
環境またはオブジェクトごとのデモの数が特定のしきい値に達すると、追加のデモンストレーションは最小限の効果があります。
これらの洞察に基づいて、効率的なデータ収集戦略を提案します。
1つの午後、4つのデータコレクターが働いているため、目に見えないオブジェクトを持つ新しい環境で約90%の成功率を達成できる2つのタスクのポリシーを可能にするのに十分なデータを収集します。

要約(オリジナル)

Data scaling has revolutionized fields like natural language processing and computer vision, providing models with remarkable generalization capabilities. In this paper, we investigate whether similar data scaling laws exist in robotics, particularly in robotic manipulation, and whether appropriate data scaling can yield single-task robot policies that can be deployed zero-shot for any object within the same category in any environment. To this end, we conduct a comprehensive empirical study on data scaling in imitation learning. By collecting data across numerous environments and objects, we study how a policy’s generalization performance changes with the number of training environments, objects, and demonstrations. Throughout our research, we collect over 40,000 demonstrations and execute more than 15,000 real-world robot rollouts under a rigorous evaluation protocol. Our findings reveal several intriguing results: the generalization performance of the policy follows a roughly power-law relationship with the number of environments and objects. The diversity of environments and objects is far more important than the absolute number of demonstrations; once the number of demonstrations per environment or object reaches a certain threshold, additional demonstrations have minimal effect. Based on these insights, we propose an efficient data collection strategy. With four data collectors working for one afternoon, we collect sufficient data to enable the policies for two tasks to achieve approximately 90% success rates in novel environments with unseen objects.

arxiv情報

著者 Fanqi Lin,Yingdong Hu,Pingyue Sheng,Chuan Wen,Jiacheng You,Yang Gao
発行日 2025-02-12 13:40:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Data Scaling Laws in Imitation Learning for Robotic Manipulation はコメントを受け付けていません

Robot-Initiated Social Control of Sedentary Behavior: Comparing the Impact of Relationship- and Target-Focused Strategies

要約

ソーシャルロボットを設計して健康行動の変化を効果的に促進するには、これらのロボットが採用しているさまざまな健康コミュニケーション戦略に人々がどのように対応するかを理解することが不可欠です。
この研究では、社会的ロボットからの2種類の社会的統制戦略、関係に焦点を当てた戦略(関係的結果を強調)、およびターゲット中心の戦略(健康への影響を強調)の有効性を検証し、人々が座りがちな行動を減らすことを奨励します。
2セッションラボの実験が行われ(n = 135)、参加者は最初にロボットでゲームをプレイし、その後ロボットが立ち上がって戦略のいずれかを使用して動くように説得しました。
参加者の半分が2回目のセッションに参加して、ロボットとの繰り返しのやり取りを行いました。
結果は、関係に焦点を当てた戦略により、参加者がより長くアクティブを維持するように動機付けたことが示されました。
繰り返しのセッションは、ロボットとの参加者の関係を強化しませんでしたが、ロボットにもっと執着していると感じた人は、ターゲット中心の戦略に対してより積極的に対応しました。
これらの調査結果は、健康コミュニケーションの文脈における社会ロボットの説得力のある戦略を設計するための貴重な洞察を提供します。

要約(オリジナル)

To design social robots to effectively promote health behavior change, it is essential to understand how people respond to various health communication strategies employed by these robots. This study examines the effectiveness of two types of social control strategies from a social robot, relationship-focused strategies (emphasizing relational consequences) and target-focused strategies (emphasizing health consequences), in encouraging people to reduce sedentary behavior. A two-session lab experiment was conducted (n = 135), where participants first played a game with a robot, followed by the robot persuading them to stand up and move using one of the strategies. Half of the participants joined a second session to have a repeated interaction with the robot. Results showed that relationship-focused strategies motivated participants to stay active longer. Repeated sessions did not strengthen participants’ relationship with the robot, but those who felt more attached to the robot responded more actively to the target-focused strategies. These findings offer valuable insights for designing persuasive strategies for social robots in health communication contexts.

arxiv情報

著者 Jiaxin Xu,Sterre Anna Mariam van der Horst,Chao Zhang,Raymond H. Cuijpers,Wijnand A. IJsselsteijn
発行日 2025-02-12 14:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Robot-Initiated Social Control of Sedentary Behavior: Comparing the Impact of Relationship- and Target-Focused Strategies はコメントを受け付けていません

Learning Manipulation Skills through Robot Chain-of-Thought with Sparse Failure Guidance

要約

スキル学習の報酬機能を定義することは、ロボット工学における長年の課題でした。
最近、Vision-Language Models(VLM)は、ロボットの操作スキルを教えるための報酬シグナルを定義する際に有望を示しています。
ただし、既存の作業は、多くの場合、粗すぎる報酬ガイダンスを提供し、学習プロセスが不十分であることがあります。
この論文では、より微調整された報酬ガイダンスを実装することにより、この問題に対処します。
この分解を使用して、VLMSでより有益な報酬ガイダンスを提供するために、タスクをより単純なサブタスクに分解します。
また、学習を高速化するために、VLMベースの自己模倣学習プロセスを提案します。
経験的証拠は、私たちのアルゴリズムがClip、Liv、Roboclipなどのベースラインを常に上回ることを示しています。
具体的には、当社のアルゴリズムは、一連の操作タスクにわたって、ベストベースラインであるロボクリップと比較して、5.4 \タイムの平均成功率を達成します。

要約(オリジナル)

Defining reward functions for skill learning has been a long-standing challenge in robotics. Recently, vision-language models (VLMs) have shown promise in defining reward signals for teaching robots manipulation skills. However, existing work often provides reward guidance that is too coarse, leading to insufficient learning processes. In this paper, we address this issue by implementing more fine-grained reward guidance. We decompose tasks into simpler sub-tasks, using this decomposition to offer more informative reward guidance with VLMs. We also propose a VLM-based self imitation learning process to speed up learning. Empirical evidence demonstrates that our algorithm consistently outperforms baselines such as CLIP, LIV, and RoboCLIP. Specifically, our algorithm achieves a $5.4 \times$ higher average success rates compared to the best baseline, RoboCLIP, across a series of manipulation tasks.

arxiv情報

著者 Kaifeng Zhang,Zhao-Heng Yin,Weirui Ye,Yang Gao
発行日 2025-02-12 14:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Manipulation Skills through Robot Chain-of-Thought with Sparse Failure Guidance はコメントを受け付けていません