Robi Butler: Multimodal Remote Interaction with a Household Robot Assistant

要約

ロボットをズームコールして家事をリモートで管理できる未来を想像してください。
この作業は、この方向に一歩を踏み出します。
ロビ・バトラーは、シームレスなマルチモーダルリモートインタラクションを可能にする新しい家庭用ロボットアシスタントです。
これにより、人間のユーザーは、一人称ビューから環境を監視し、音声またはテキストコマンドを発行し、手指のジェスチャーを介してターゲットオブジェクトを指定できます。
コアでは、大規模な言語モデル(LLMS)を搭載した高レベルの動作モジュールが、マルチモーダル命令を解釈してマルチステップアクションプランを生成します。
各プランは、ビジョン言語モデルによってサポートされているオープンボキャブラリープリミティブで構成されており、ロボットがテキスト入力とジェスチャー入力の両方を処理できるようにします。
Zoomは、人間とロボットの間にリモートの相互作用を実装するための便利なインターフェイスを提供します。
これらのコンポーネントを統合することで、Robi Butlerが現実世界のホーム環境でリモートマルチモーダル命令をゼロショットで接地できます。
さまざまな家庭用タスクでシステムを評価し、複雑なユーザーコマンドをマルチモーダル入力で実行する能力を実証しました。
また、マルチモーダルの相互作用がリモートの人間とロボットの相互作用におけるユーザーエクスペリエンスにどのように影響するかを調べるために、ユーザー調査を実施しました。
これらの結果は、Robot Foundationモデルの進歩により、遠隔地の家庭用ロボットアシスタントの現実に近づいていることを示唆しています。

要約(オリジナル)

Imagine a future when we can Zoom-call a robot to manage household chores remotely. This work takes one step in this direction. Robi Butler is a new household robot assistant that enables seamless multimodal remote interaction. It allows the human user to monitor its environment from a first-person view, issue voice or text commands, and specify target objects through hand-pointing gestures. At its core, a high-level behavior module, powered by Large Language Models (LLMs), interprets multimodal instructions to generate multistep action plans. Each plan consists of open-vocabulary primitives supported by vision-language models, enabling the robot to process both textual and gestural inputs. Zoom provides a convenient interface to implement remote interactions between the human and the robot. The integration of these components allows Robi Butler to ground remote multimodal instructions in real-world home environments in a zero-shot manner. We evaluated the system on various household tasks, demonstrating its ability to execute complex user commands with multimodal inputs. We also conducted a user study to examine how multimodal interaction influences user experiences in remote human-robot interaction. These results suggest that with the advances in robot foundation models, we are moving closer to the reality of remote household robot assistants.

arxiv情報

著者 Anxing Xiao,Nuwan Janaka,Tianrun Hu,Anshul Gupta,Kaixin Li,Cunjun Yu,David Hsu
発行日 2025-03-10 06:00:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | Robi Butler: Multimodal Remote Interaction with a Household Robot Assistant はコメントを受け付けていません

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

要約

事前に訓練されたビジョンモデル(PVM)は、最新のロボット工学の基本ですが、最適な構成は不明のままです。
体系的な評価を通じて、ディノとイボットは視覚運動制御および知覚タスク全体でMAEを上回る一方で、非(単一)オブジェクト中心(NOC)データで訓練されたときに苦労していることがわかります。
この調査は、非オブジェクト中心のロボット工学データセットからオブジェクト中心の表現を形成する能力がPVMの成功の鍵であることを示しています。
この発見に動機付けられた私たちは、セマンティックボトルネックを導入してオブジェクト中心のボトルネックを導入して、オブジェクトの出現とマルチビューの不変性を促進するためのクロスビューの一貫性の正規化を促進することにより、オブジェクト中心の表現を誘導する方法を設計しました。
私たちの実験には、オブジェクト中心、シーン中心、Webがクロールされた、自我中心のデータに関するトレーニング前の実験が含まれます。
すべての設定で、私たちのアプローチは転送可能な表現を学習し、画像認識、シーンの理解、およびロボット学習評価の以前の作業よりも大幅な改善を達成します。
百万スケールのデータセットで拡大すると、この方法は優れたデータ効率とスケーラビリティも示します。
私たちのコードとモデルは、https://github.com/cvmi-lab/slotmimで公開されています。

要約(オリジナル)

Pre-trained vision models (PVMs) are fundamental to modern robotics, yet their optimal configuration remains unclear. Through systematic evaluation, we find that while DINO and iBOT outperform MAE across visuomotor control and perception tasks, they struggle when trained on non-(single-)object-centric (NOC) data–a limitation strongly correlated with their diminished ability to learn object-centric representations. This investigation indicates that the ability to form object-centric representations from the non-object-centric robotics dataset is the key to success for PVMs. Motivated by this discovery, we designed SlotMIM, a method that induces object-centric representations by introducing a semantic bottleneck to reduce the number of prototypes to encourage the emergence of objectness as well as cross-view consistency regularization for encouraging multiview invariance. Our experiments encompass pre-training on object-centric, scene-centric, web-crawled, and ego-centric data. Across all settings, our approach learns transferrable representations and achieves significant improvements over prior work in image recognition, scene understanding, and robot learning evaluations. When scaled up with million-scale datasets, our method also demonstrates superior data efficiency and scalability. Our code and models are publicly available at https://github.com/CVMI-Lab/SlotMIM.

arxiv情報

著者 Xin Wen,Bingchen Zhao,Yilun Chen,Jiangmiao Pang,Xiaojuan Qi
発行日 2025-03-10 06:18:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning はコメントを受け付けていません

Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition

要約

海上マルチシーン認識は、特に海洋保護、環境監視、災害対応などの用途で、インテリジェントな海洋ロボット工学の能力を高めるために重要です。
ただし、このタスクは、海洋条件が画質を分解する環境干渉と、正確な認識のためのより深い推論が必要な海上シーンの複雑さのために大きな課題を提示します。
純粋なビジョンモデルだけでは、これらの問題に対処するには不十分です。
これらの制限を克服するために、画像データ、テキストの説明、およびマルチモーダル大手言語モデル(MLLM)によって生成された分類ベクターを統合する新しいマルチモーダル人工知能(AI)フレームワークを提案し、より豊かなセマンティック理解を提供し、認識の精度を改善します。
私たちのフレームワークは、複雑な海上環境でのモデルの堅牢性と適応性をさらに高めるために、効率的なマルチモーダル融合メカニズムを採用しています。
実験結果は、私たちのモデルが98 $ \%$の精度を達成し、以前のSOTAモデルを3.5 $ \%$を超えることを示しています。
リソース制約のあるプラットフォームでの展開を最適化するために、アクティベーションアウェア重量量子化(AWQ)を軽量技術として採用し、計算オーバーヘッドを大幅に低下させながら、0.5 $ \%$ $の精度低下でモデルサイズを68.75MBに削減します。
この作業は、リアルタイムの海上シーン認識のための高性能ソリューションを提供し、リソースに制限された設定での環境監視と災害対応をサポートする自律的な地表車(ASV)を可能にします。

要約(オリジナル)

Maritime Multi-Scene Recognition is crucial for enhancing the capabilities of intelligent marine robotics, particularly in applications such as marine conservation, environmental monitoring, and disaster response. However, this task presents significant challenges due to environmental interference, where marine conditions degrade image quality, and the complexity of maritime scenes, which requires deeper reasoning for accurate recognition. Pure vision models alone are insufficient to address these issues. To overcome these limitations, we propose a novel multimodal Artificial Intelligence (AI) framework that integrates image data, textual descriptions and classification vectors generated by a Multimodal Large Language Model (MLLM), to provide richer semantic understanding and improve recognition accuracy. Our framework employs an efficient multimodal fusion mechanism to further enhance model robustness and adaptability in complex maritime environments. Experimental results show that our model achieves 98$\%$ accuracy, surpassing previous SOTA models by 3.5$\%$. To optimize deployment on resource-constrained platforms, we adopt activation-aware weight quantization (AWQ) as a lightweight technique, reducing the model size to 68.75MB with only a 0.5$\%$ accuracy drop while significantly lowering computational overhead. This work provides a high-performance solution for real-time maritime scene recognition, enabling Autonomous Surface Vehicles (ASVs) to support environmental monitoring and disaster response in resource-limited settings.

arxiv情報

著者 Xinyu Xi,Hua Yang,Shentai Zhang,Yijie Liu,Sijin Sun,Xiuju Fu
発行日 2025-03-10 06:47:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition はコメントを受け付けていません

Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark

要約

大幅な進歩にもかかわらず、自律駆動システムは、単一視点センシングの固有の制限により、閉塞されたオブジェクトと長距離検出に苦労し続けています。
空中協力は、UAVの航空ビューを地上車両のローカル観測と統合することにより、有望なソリューションを提供します。
ただし、この新興分野の進捗は、パブリックデータセットと標準化された評価ベンチマークがないことにより妨げられています。
To address this gap, this paper presents a comprehensive solution for aerial-ground cooperative 3D perception through three key contributions: (1) Griffin, a large-scale multi-modal dataset featuring over 200 dynamic scenes (30k+ frames) with varied UAV altitudes (20-60m), diverse weather conditions, and occlusion-aware 3D annotations, enhanced by CARLA-AirSim co-simulation
現実的なUAVダイナミクスのため。
(2)通信効率、潜在耐性、高度適応性を評価するためのプロトコルを含む、航空地面の協調的検出および追跡タスクのための統一されたベンチマークフレームワーク。
(3)アジャイルは、クエリベースの相互作用を通じてクロスビューの特徴を動的に整列させ、通信オーバーヘッドと知覚精度の有利なバランスを達成するインスタンスレベルの中間融合ベースラインです。
広範な実験は、航空機の協同組合の認識の有効性を証明し、さらなる研究の方向を実証します。
データセットとコードは、https://github.com/wang-jh18-svm/griffinで入手できます。

要約(オリジナル)

Despite significant advancements, autonomous driving systems continue to struggle with occluded objects and long-range detection due to the inherent limitations of single-perspective sensing. Aerial-ground cooperation offers a promising solution by integrating UAVs’ aerial views with ground vehicles’ local observations. However, progress in this emerging field has been hindered by the absence of public datasets and standardized evaluation benchmarks. To address this gap, this paper presents a comprehensive solution for aerial-ground cooperative 3D perception through three key contributions: (1) Griffin, a large-scale multi-modal dataset featuring over 200 dynamic scenes (30k+ frames) with varied UAV altitudes (20-60m), diverse weather conditions, and occlusion-aware 3D annotations, enhanced by CARLA-AirSim co-simulation for realistic UAV dynamics; (2) A unified benchmarking framework for aerial-ground cooperative detection and tracking tasks, including protocols for evaluating communication efficiency, latency tolerance, and altitude adaptability; (3) AGILE, an instance-level intermediate fusion baseline that dynamically aligns cross-view features through query-based interaction, achieving an advantageous balance between communication overhead and perception accuracy. Extensive experiments prove the effectiveness of aerial-ground cooperative perception and demonstrate the direction of further research. The dataset and codes are available at https://github.com/wang-jh18-SVM/Griffin.

arxiv情報

著者 Jiahao Wang,Xiangyu Cao,Jiaru Zhong,Yuner Zhang,Haibao Yu,Lei He,Shaobing Xu
発行日 2025-03-10 07:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark はコメントを受け付けていません

Parametric Value Approximation for General-sum Differential Games with State Constraints

要約

一般的な微分ゲームは、情報が不完全な場合に効率的な推論のためのハミルトン・ジャコビ・イサクス(HJI)方程式によって解決される値を近似できます。
ただし、従来の方法でそのようなゲームを解決することは、次元(COD)の呪いに遭遇します。
物理学に基づいたニューラルネットワーク(PINN)は、CODと近似値を軽減するためのスケーラブルなアプローチを提供しますが、状態の制約が特に安全性が批判的なアプリケーションで大きなリプシッツ定数を持つ値につながる場合、バニラPINNを介した値近似に収束の問題が存在します。
CODのアドレス指定に加えて、特定のプレーヤータイプの構成ごとに複数のゲームをトレーニングするのではなく、ゲームのパラメトリックスペースで一般化可能な値を学習する必要があります。
これらの課題を克服するために、ハイブリッドニューラルオペレーター(HNO)を提案します。これは、ゲームのパラメーター関数をマッピングして関数を評価できるオペレーターです。
HNOは、モデル改良のための空間的空間空間全体にわたって有益な監視されたデータとサンプルPDE駆動型データを活用します。
非線形ダイナミクスと状態制約を備えた9Dおよび13DシナリオでHNOを評価し、それを監視されたニューラル演算子(Deeponetのバリアント)と比較します。
同じ計算予算とトレーニングデータの下で、HNOは安全性能のためにSNOを上回ります。
この作業は、複雑なヒトロボットまたはマルチエージェント相互作用のリアルタイム推論を可能にするスケーラブルで一般化可能な値関数近似に向けたステップを提供します。

要約(オリジナル)

General-sum differential games can approximate values solved by Hamilton-Jacobi-Isaacs (HJI) equations for efficient inference when information is incomplete. However, solving such games through conventional methods encounters the curse of dimensionality (CoD). Physics-informed neural networks (PINNs) offer a scalable approach to alleviate the CoD and approximate values, but there exist convergence issues for value approximations through vanilla PINNs when state constraints lead to values with large Lipschitz constants, particularly in safety-critical applications. In addition to addressing CoD, it is necessary to learn a generalizable value across a parametric space of games, rather than training multiple ones for each specific player-type configuration. To overcome these challenges, we propose a Hybrid Neural Operator (HNO), which is an operator that can map parameter functions for games to value functions. HNO leverages informative supervised data and samples PDE-driven data across entire spatial-temporal space for model refinement. We evaluate HNO on 9D and 13D scenarios with nonlinear dynamics and state constraints, comparing it against a Supervised Neural Operator (a variant of DeepONet). Under the same computational budget and training data, HNO outperforms SNO for safety performance. This work provides a step toward scalable and generalizable value function approximation, enabling real-time inference for complex human-robot or multi-agent interactions.

arxiv情報

著者 Lei Zhang,Mukesh Ghimire,Wenlong Zhang,Zhe Xu,Yi Ren
発行日 2025-03-10 07:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Parametric Value Approximation for General-sum Differential Games with State Constraints はコメントを受け付けていません

Physics-informed Neural Network Predictive Control for Quadruped Locomotion

要約

この研究では、オンラインペイロード識別ベースの物理学に基づいたニューラルネットワーク予測制御(OPI-PINNPC)と名付けられた、未知のペイロードを使用した正確な四足動力の課題に対処する統一された制御フレームワークを紹介します。
オンラインペイロード識別を物理学に基づいたニューラルネットワーク(PINN)と統合することにより、このアプローチは、識別された質量パラメーターをニューラルネットワークの損失関数に直接埋め込み、負荷条件の変化に適応しながら物理的な一貫性を確保します。
物理的に制約された神経表現は、非線形モデル予測コントローラー内の効率的な代理モデルとして機能し、足の移動の複雑なダイナミクスにもかかわらずリアルタイムの最適化を可能にします。
四足動物プラットフォームでの実験的検証は、多様なペイロード条件(25〜100 kg)にわたって位置と方向追跡の精度が35%改善され、以前の適応制御方法と比較して大幅に速い収束を示しています。
私たちのフレームワークは、計算効率を犠牲にすることなく、可変ペイロード条件下で移動性能を維持するための適応ソリューションを提供します。

要約(オリジナル)

This study introduces a unified control framework that addresses the challenge of precise quadruped locomotion with unknown payloads, named as online payload identification-based physics-informed neural network predictive control (OPI-PINNPC). By integrating online payload identification with physics-informed neural networks (PINNs), our approach embeds identified mass parameters directly into the neural network’s loss function, ensuring physical consistency while adapting to changing load conditions. The physics-constrained neural representation serves as an efficient surrogate model within our nonlinear model predictive controller, enabling real-time optimization despite the complex dynamics of legged locomotion. Experimental validation on our quadruped robot platform demonstrates 35% improvement in position and orientation tracking accuracy across diverse payload conditions (25-100 kg), with substantially faster convergence compared to previous adaptive control methods. Our framework provides a adaptive solution for maintaining locomotion performance under variable payload conditions without sacrificing computational efficiency.

arxiv情報

著者 Haolin Li,Yikang Chai,Bailin Lv,Lecheng Ruan,Hang Zhao,Ye Zhao,Jianwen Luo
発行日 2025-03-10 07:19:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Physics-informed Neural Network Predictive Control for Quadruped Locomotion はコメントを受け付けていません

Offline Adaptation of Quadruped Locomotion using Diffusion Models

要約

複数のスキルと(モード)との間の学習と補間の制限に同時に対処し、トレーニング後に新しい移動行動に適応する(モード)補間に対処する四角形の移動に対する拡散ベースのアプローチを提示します。
これは、四足動力に分類器を使用していない誘導拡散を適用し、元々の非標識データセットから目標条件付けされた動作を抽出することにより、その有効性を実証する最初のフレームワークです。
これらの機能は、マルチスキルポリシーと互換性があり、ほとんど変更と最小限のコンピューティングオーバーヘッドで適用できることを示しています。
Anymal四足動物プラットフォームでのハードウェア実験でアプローチの妥当性を検証します。

要約(オリジナル)

We present a diffusion-based approach to quadrupedal locomotion that simultaneously addresses the limitations of learning and interpolating between multiple skills and of (modes) offline adapting to new locomotion behaviours after training. This is the first framework to apply classifier-free guided diffusion to quadruped locomotion and demonstrate its efficacy by extracting goal-conditioned behaviour from an originally unlabelled dataset. We show that these capabilities are compatible with a multi-skill policy and can be applied with little modification and minimal compute overhead, i.e., running entirely on the robots onboard CPU. We verify the validity of our approach with hardware experiments on the ANYmal quadruped platform.

arxiv情報

著者 Reece O’Mahoney,Alexander L. Mitchell,Wanming Yu,Ingmar Posner,Ioannis Havoutis
発行日 2025-03-10 07:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Offline Adaptation of Quadruped Locomotion using Diffusion Models はコメントを受け付けていません

HELM: Human-Preferred Exploration with Language Models

要約

自律調査タスクでは、動的で不確実な条件で効率的に計画しながら、未知の環境を探索およびマッピングするためにロボットが必要です。
環境の大幅なばらつきを考えると、人間のオペレーターは、特定の領域の優先順位付けや効率のさまざまな側面の最適化など、探索の特定の優先要件をしばしば持っています。
ただし、既存の方法は、これらの人間の好みに適応的に対応するのに苦労しており、多くの場合、広範なパラメーターチューニングまたはネットワーク再訓練が必要です。
テキストベースの計画と複雑な推論に広く適用されている大規模な言語モデル(LLMS)の最近の進歩により、自律探査を強化する可能性はますます有望になっています。
これに動機付けられて、モバイルロボットシステムをLLMとシームレスに統合するLLMベースのヒトプロファーレーリングエクスプレーションフレームワークを提案します。
LLMSの推論と適応性を活用することにより、当社のアプローチにより、最先端の従来の方法に匹敵するタスクの成功率を維持しながら、自然言語を通じて直感的で柔軟な選好制御が可能になります。
実験結果は、私たちのフレームワークが、自律探査における人間の意図と政策選好のギャップを効果的に橋渡しし、実際のロボットアプリケーション向けのよりユーザーフレンドリーで適応性のあるソリューションを提供することを示しています。

要約(オリジナル)

In autonomous exploration tasks, robots are required to explore and map unknown environments while efficiently planning in dynamic and uncertain conditions. Given the significant variability of environments, human operators often have specific preference requirements for exploration, such as prioritizing certain areas or optimizing for different aspects of efficiency. However, existing methods struggle to accommodate these human preferences adaptively, often requiring extensive parameter tuning or network retraining. With the recent advancements in Large Language Models (LLMs), which have been widely applied to text-based planning and complex reasoning, their potential for enhancing autonomous exploration is becoming increasingly promising. Motivated by this, we propose an LLM-based human-preferred exploration framework that seamlessly integrates a mobile robot system with LLMs. By leveraging the reasoning and adaptability of LLMs, our approach enables intuitive and flexible preference control through natural language while maintaining a task success rate comparable to state-of-the-art traditional methods. Experimental results demonstrate that our framework effectively bridges the gap between human intent and policy preference in autonomous exploration, offering a more user-friendly and adaptable solution for real-world robotic applications.

arxiv情報

著者 Shuhao Liao,Xuxin Lv,Yuhong Cao,Jeric Lew,Wenjun Wu,Guillaume Sartoretti
発行日 2025-03-10 07:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HELM: Human-Preferred Exploration with Language Models はコメントを受け付けていません

Learning Nash Equilibrial Hamiltonian for Two-Player Collision-Avoiding Interactions

要約

2プレイヤーのリスクに敏感な衝突を回避する相互作用のためのナッシュ平衡ポリシーを学ぶ問題を検討します。
このような一般的な微分ゲームのハミルトン・ジャコビ・イサクス方程式をリアルタイムで解決することは、状態空間の平衡値の不連続性のために、オープンな挑戦です。
一般的な解決策は、特定のシステム状態とアクションの平衡ハミルトニアンに近いニューラルネットワークを学習することです。
ただし、学習は通常監視されており、衝突のリスクを軽減するために、さまざまな初期状態からの大量のサンプル平衡ポリシーが必要です。
このホワイトペーパーでは、平衡ポリシーのよりデータ効率の高い学習に対する2つの貢献を主張しています。まず、バリューネットワークを介してハミルトニアンを計算する代わりに、平衡回避がエージェントの損失機能を支配する場合、衝突回避がエージェントの損失機能を支配している場合、したがって学習するためのデータ効率であることを示します。
第二に、理論主導のアクティブ学習を導入してデータサンプリングをガイドします。ここでは、取得関数が予測された共同ステートのポントリアギンの最大原則へのコンプライアンスを測定します。
制御されていない交差点の場合、提案された方法は、同じデータ収集予算の下での最先端よりも平衡ポリシーのより一般化可能な近似につながり、衝突確率が低くなります。

要約(オリジナル)

We consider the problem of learning Nash equilibrial policies for two-player risk-sensitive collision-avoiding interactions. Solving the Hamilton-Jacobi-Isaacs equations of such general-sum differential games in real time is an open challenge due to the discontinuity of equilibrium values on the state space. A common solution is to learn a neural network that approximates the equilibrium Hamiltonian for given system states and actions. The learning, however, is usually supervised and requires a large amount of sample equilibrium policies from different initial states in order to mitigate the risks of collisions. This paper claims two contributions towards more data-efficient learning of equilibrium policies: First, instead of computing Hamiltonian through a value network, we show that the equilibrium co-states have simple structures when collision avoidance dominates the agents’ loss functions and system dynamics is linear, and therefore are more data-efficient to learn. Second, we introduce theory-driven active learning to guide data sampling, where the acquisition function measures the compliance of the predicted co-states to Pontryagin’s Maximum Principle. On an uncontrolled intersection case, the proposed method leads to more generalizable approximation of the equilibrium policies, and in turn, lower collision probabilities, than the state-of-the-art under the same data acquisition budget.

arxiv情報

著者 Lei Zhang,Siddharth Das,Tanner Merry,Wenlong Zhang,Yi Ren
発行日 2025-03-10 07:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.RO | Learning Nash Equilibrial Hamiltonian for Two-Player Collision-Avoiding Interactions はコメントを受け付けていません

How to Train Your Robots? The Impact of Demonstration Modality on Imitation Learning

要約

模倣学習は、ユーザーが提供するデータを使用してロボットポリシーを学習するための有望なアプローチです。
デモンストレーションが提供される方法、つまりデモのモダリティは、データの品質に影響を与えます。
既存の研究では、活動性の教育(ロボットの物理的ガイド)が直感性と使いやすさのためにユーザーが好むことを示していますが、既存の操作データセットの大部分はVRコントローラーまたは空間を介してテレオ操作を通じて収集されました。
この作業では、さまざまなデモのモダリティがダウンストリーム学習パフォーマンスとユーザーエクスペリエンスにどのように影響するかを調査します。
具体的には、運動感覚教育、VRコントローラーによるテレオ操作、宇宙造影剤コントローラーとのテレオ操作など、低コストのデモンストレーションモダリティを比較します。
さまざまなモーション制約を備えた3つのテーブルトップ操作タスクを実験します。
さまざまなデモモダリティからのデータを使用して、模倣学習パフォーマンスを評価および比較し、ユーザーエクスペリエンスに関する主観的なフィードバックを収集しました。
私たちの結果は、運動感覚の教育がロボットを制御するのに最も直感的であると評価されており、最高の下流の学習パフォーマンスのための最もクリーンなデータを提供することを示しています。
ただし、物理的な負荷のため、大規模なデータ収集の方法としては好まれません。
このような洞察に基づいて、少数のデータ収集の努力を維持しながら、テレオ操作を通じて収集されたデータと混合されたデータと混合された少数の運動感覚デモに依存する単純なデータ収集スキームを提案します。

要約(オリジナル)

Imitation learning is a promising approach for learning robot policies with user-provided data. The way demonstrations are provided, i.e., demonstration modality, influences the quality of the data. While existing research shows that kinesthetic teaching (physically guiding the robot) is preferred by users for the intuitiveness and ease of use, the majority of existing manipulation datasets were collected through teleoperation via a VR controller or spacemouse. In this work, we investigate how different demonstration modalities impact downstream learning performance as well as user experience. Specifically, we compare low-cost demonstration modalities including kinesthetic teaching, teleoperation with a VR controller, and teleoperation with a spacemouse controller. We experiment with three table-top manipulation tasks with different motion constraints. We evaluate and compare imitation learning performance using data from different demonstration modalities, and collected subjective feedback on user experience. Our results show that kinesthetic teaching is rated the most intuitive for controlling the robot and provides cleanest data for best downstream learning performance. However, it is not preferred as the way for large-scale data collection due to the physical load. Based on such insight, we propose a simple data collection scheme that relies on a small number of kinesthetic demonstrations mixed with data collected through teleoperation to achieve the best overall learning performance while maintaining low data-collection effort.

arxiv情報

著者 Haozhuo Li,Yuchen Cui,Dorsa Sadigh
発行日 2025-03-10 07:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | How to Train Your Robots? The Impact of Demonstration Modality on Imitation Learning はコメントを受け付けていません