Disentangled Iterative Surface Fitting for Contact-stable Grasp Planning

要約

この作業では、表面フィッティングベースのグラスプランニングアルゴリズムの制限に対処します。これは、主にグリッパーとオブジェクトの表面の幾何学的アライメントに焦点を当て、接触点分布の安定性を見落とし、しばしば不安定な接触構成による不安定な握りをもたらします。
この制限を克服するために、幾何学的互換性を維持しながら接触の安定性を統合する新しい表面フィッティングアルゴリズムを提案します。
人間の把握行動に触発されて、私たちの方法は、把握の最適化を3つの順次ステップに分解しません:(1)接触正常性を調整するための回転最適化、(2)質量の中心(COM)アライメントを改善するための翻訳改善、および(3)グリッパーアパーチャ調整
コンタクトポイント分布を最適化します。
10個のYCBデータセットオブジェクトのシミュレーションを通じてアプローチを検証し、接触の安定性を無視する従来の表面フィッティング方法よりも把握成功の80%の改善を示しています。
詳細については、プロジェクトページのページをご覧ください:https://tomoya-yamanokuchi.github.io/disf-project-page/。

要約(オリジナル)

In this work, we address the limitation of surface fitting-based grasp planning algorithm, which primarily focuses on geometric alignment between the gripper and object surface while overlooking the stability of contact point distribution, often resulting in unstable grasps due to inadequate contact configurations. To overcome this limitation, we propose a novel surface fitting algorithm that integrates contact stability while preserving geometric compatibility. Inspired by human grasping behavior, our method disentangles the grasp pose optimization into three sequential steps: (1) rotation optimization to align contact normals, (2) translation refinement to improve Center of Mass (CoM) alignment, and (3) gripper aperture adjustment to optimize contact point distribution. We validate our approach through simulations on ten YCB dataset objects, demonstrating an 80% improvement in grasp success over conventional surface fitting methods that disregard contact stability. Further details can be found on our project page: https://tomoya-yamanokuchi.github.io/disf-project-page/.

arxiv情報

著者 Tomoya Yamanokuchi,Alberto Bacchin,Emilio Olivastri,Takamitsu Matsubara,Emanuele Menegatti
発行日 2025-02-17 08:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Disentangled Iterative Surface Fitting for Contact-stable Grasp Planning はコメントを受け付けていません

EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents

要約

不均一なマルチロボットシステム(HMR)は、単一のロボットが単独で管理できない複雑なタスクに取り組むための強力なアプローチとして浮上しています。
現在の大型言語モデルベースのマルチエージェントシステム(LLMベースのMAS)は、ソフトウェア開発やオペレーティングシステムなどの分野で成功を示していますが、これらのシステムをロボットコントロールに適用すると、独自の課題が発生します。
特に、マルチロボットシステムの各エージェントの機能は、事前定義された役割ではなく、ロボットの物理的構成に本質的に結び付けられています。
この問題に対処するために、さまざまな実施形態と能力を備えた不均一ロボット間の効果的なコラボレーションと、Habitat-Masという名前の新しいベンチマークとともに設計された新しいマルチエージェントフレームワークを紹介します。
私たちの重要なデザインの1つは$ \ textit {robot resume} $です。人間が設計したロールプレイを採用する代わりに、エージェントがロボットURDFファイルを理解し、ロボット運動学ツールを呼び出して物理能力の説明を生成する自己宣伝アプローチを提案します。
タスクの計画と行動の実行における行動を導く。
Habitat-MASベンチマークは、マルチエージェントフレームワークが、1)操作、2)知覚、3)ナビゲーション、4)包括的な多階建てのオブジェクトの再配置を含む、具体化された推論を必要とするタスクをどのように処理するかを評価するように設計されています。
実験結果は、ロボットの履歴書とマルチエージェントシステムの階層設計が、この複雑な問題コンテキスト内で不均一なマルチロボットシステムの効果的な動作に不可欠であることを示しています。

要約(オリジナル)

Heterogeneous multi-robot systems (HMRS) have emerged as a powerful approach for tackling complex tasks that single robots cannot manage alone. Current large-language-model-based multi-agent systems (LLM-based MAS) have shown success in areas like software development and operating systems, but applying these systems to robot control presents unique challenges. In particular, the capabilities of each agent in a multi-robot system are inherently tied to the physical composition of the robots, rather than predefined roles. To address this issue, we introduce a novel multi-agent framework designed to enable effective collaboration among heterogeneous robots with varying embodiments and capabilities, along with a new benchmark named Habitat-MAS. One of our key designs is $\textit{Robot Resume}$: Instead of adopting human-designed role play, we propose a self-prompted approach, where agents comprehend robot URDF files and call robot kinematics tools to generate descriptions of their physics capabilities to guide their behavior in task planning and action execution. The Habitat-MAS benchmark is designed to assess how a multi-agent framework handles tasks that require embodiment-aware reasoning, which includes 1) manipulation, 2) perception, 3) navigation, and 4) comprehensive multi-floor object rearrangement. The experimental results indicate that the robot’s resume and the hierarchical design of our multi-agent system are essential for the effective operation of the heterogeneous multi-robot system within this intricate problem context.

arxiv情報

著者 Junting Chen,Checheng Yu,Xunzhe Zhou,Tianqi Xu,Yao Mu,Mengkang Hu,Wenqi Shao,Yikai Wang,Guohao Li,Lin Shao
発行日 2025-02-17 08:33:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO, I.2.10 | EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents はコメントを受け付けていません

High-quality Unknown Object Instance Segmentation via Quadruple Boundary Error Refinement

要約

構造化されていない環境での未知のオブジェクトの正確で効率的なセグメンテーションは、ロボット操作に不可欠です。
不明なオブジェクトインスタンスセグメンテーション(UOIS)は、不明なカテゴリと背景のすべてのオブジェクトを識別することを目的としており、さまざまなロボットタスクの重要な機能となっています。
ただし、既存の方法は、過剰セグメンテーションとセグメンテーションを過小評価することに苦労しており、把握などの操作タスクの失敗につながります。
これらの課題に対処するために、高品質のUOIのための新しいエラー情報の改良アプローチであるQuber(四重境界誤差の改良)を提案します。
Quberは、最初の推定四重境界誤差 – 正常陽性、真のネガティブ、偽陽性、および偽陰性ピクセル – 初期セグメンテーションのインスタンス境界で。
次に、エラーガイド付き融合メカニズムを使用してセグメンテーションを改良し、微細粒度とインスタンスレベルのセグメンテーションエラーの両方を効果的に修正します。
3つのパブリックベンチマークでの広範な評価は、Quberが最先端の方法を上回り、0.1秒未満の高速推論時間を維持しながら、さまざまなUOIメソッドを一貫して改善することを示しています。
さらに、Quberが乱雑な環境でターゲットオブジェクトを把握することの成功率を改善することを示します。
コードと補足資料は、https://sites.google.com/view/uois-quberで入手できます。

要約(オリジナル)

Accurate and efficient segmentation of unknown objects in unstructured environments is essential for robotic manipulation. Unknown Object Instance Segmentation (UOIS), which aims to identify all objects in unknown categories and backgrounds, has become a key capability for various robotic tasks. However, existing methods struggle with over-segmentation and under-segmentation, leading to failures in manipulation tasks such as grasping. To address these challenges, we propose QuBER (Quadruple Boundary Error Refinement), a novel error-informed refinement approach for high-quality UOIS. QuBER first estimates quadruple boundary errors-true positive, true negative, false positive, and false negative pixels-at the instance boundaries of the initial segmentation. It then refines the segmentation using an error-guided fusion mechanism, effectively correcting both fine-grained and instance-level segmentation errors. Extensive evaluations on three public benchmarks demonstrate that QuBER outperforms state-of-the-art methods and consistently improves various UOIS methods while maintaining a fast inference time of less than 0.1 seconds. Furthermore, we show that QuBER improves the success rate of grasping target objects in cluttered environments. Code and supplementary materials are available at https://sites.google.com/view/uois-quber.

arxiv情報

著者 Seunghyeok Back,Sangbeom Lee,Kangmin Kim,Joosoon Lee,Sungho Shin,Jemo Maeng,Kyoobin Lee
発行日 2025-02-17 08:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | High-quality Unknown Object Instance Segmentation via Quadruple Boundary Error Refinement はコメントを受け付けていません

Leader and Follower: Interactive Motion Generation under Trajectory Constraints

要約

ゲームと映画制作の急速な進歩により、テキストからインタラクティブな動きを生み出すことは、コンテンツの作成プロセスに革命をもたらす可能性のために大きな注目を集めています。
多くの実用的なアプリケーションでは、仮想文字のモーション範囲または軌跡に厳格な制約を課す必要があります。
ただし、テキスト入力のみに依存する既存の方法は、特に望ましい軌跡を指定​​する際に、ユーザーの意図を正確にキャプチャする上で大きな課題に直面しています。
その結果、生成された動きは、しばしばもっともらしいと精度を欠いています。
さらに、カスタマイズされたモーション生成のための既存の軌跡ベースの方法は、単一の俳優シナリオの再訓練に依存しています。これにより、さまざまなデータセットへの柔軟性と適応性が制限され、2因子の動きにおけるインタラクティブが制限されます。
指定された軌跡に続いてインタラクティブな動きを生成するために、このペーパーは、パートナーダンスの役割の割り当てに触発された、複雑な動きをリーダーに隔離します。フォロワーダイナミックです。
このフレームワークに基づいて、このペーパーでは、インタラクティブモーション生成におけるモーション範囲の改良プロセスを調査し、ペースコントローラーと運動学的同期アダプターを統合するトレーニングなしのアプローチを提案します。
このフレームワークは、リーダーの動きを制御し、リーダーと整合するためのフォロワーの動きを修正することにより、軌道に準拠する動きを生成する既存のモデルの能力を高めます。
実験結果は、提案されたアプローチが、軌道情報をよりよく活用することにより、リアリズムと精度の両方で既存の方法を上回ることを示しています。

要約(オリジナル)

With the rapid advancement of game and film production, generating interactive motion from texts has garnered significant attention due to its potential to revolutionize content creation processes. In many practical applications, there is a need to impose strict constraints on the motion range or trajectory of virtual characters. However, existing methods that rely solely on textual input face substantial challenges in accurately capturing the user’s intent, particularly in specifying the desired trajectory. As a result, the generated motions often lack plausibility and accuracy. Moreover, existing trajectory – based methods for customized motion generation rely on retraining for single – actor scenarios, which limits flexibility and adaptability to different datasets, as well as interactivity in two-actor motions. To generate interactive motion following specified trajectories, this paper decouples complex motion into a Leader – Follower dynamic, inspired by role allocation in partner dancing. Based on this framework, this paper explores the motion range refinement process in interactive motion generation and proposes a training-free approach, integrating a Pace Controller and a Kinematic Synchronization Adapter. The framework enhances the ability of existing models to generate motion that adheres to trajectory by controlling the leader’s movement and correcting the follower’s motion to align with the leader. Experimental results show that the proposed approach, by better leveraging trajectory information, outperforms existing methods in both realism and accuracy.

arxiv情報

著者 Runqi Wang,Caoyuan Ma,Jian Zhao,Hanrui Xu,Dongfang Sun,Haoyang Chen,Lin Xiong,Zheng Wang,Xuelong Li
発行日 2025-02-17 08:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Leader and Follower: Interactive Motion Generation under Trajectory Constraints はコメントを受け付けていません

Bridging Language and Action: A Survey of Language-Conditioned Robot Manipulation

要約

言語条件付きロボット操作は、自然言語で伝えられた指示を理解して実行するためにロボットを教えることにより、人間とロボットエージェントの間のシームレスなコミュニケーションと協力を可能にすることを目的とした新興分野です。
この学際的な分野は、人間の指示とロボット行動の間のギャップを埋めるために、シーンの理解、言語処理、およびポリシー学習を統合します。
この包括的な調査では、言語条件付きのロボット操作における最近の進歩を体系的に調査します。
既存の方法を、言語条件付きの報酬形状、言語条件付けされた政策学習、神経反体系人工知能、および大規模な言語モデル(LLM)やビジョン言語モデル(VLM)などの基礎モデル(FM)の利用に分類します。
具体的には、意味情報抽出、環境と評価、補助タスク、およびタスク表現戦略に関する最先端の手法を分析します。
比較分析を実施することにより、言語の指示をロボットアクションでブリッジングする際の現在のアプローチの強みと制限を強調します。
最後に、一般化能力の向上を可能にし、言語条件付きロボットマニピュレーターの安全性の問題に対処することに焦点を当てた、オープンな課題と将来の研究の方向性について説明します。

要約(オリジナル)

Language-conditioned robot manipulation is an emerging field aimed at enabling seamless communication and cooperation between humans and robotic agents by teaching robots to comprehend and execute instructions conveyed in natural language. This interdisciplinary area integrates scene understanding, language processing, and policy learning to bridge the gap between human instructions and robotic actions. In this comprehensive survey, we systematically explore recent advancements in language-conditioned robotic manipulation. We categorize existing methods into language-conditioned reward shaping, language-conditioned policy learning, neuro-symbolic artificial intelligence, and the utilization of foundational models (FMs) such as large language models (LLMs) and vision-language models (VLMs). Specifically, we analyze state-of-the-art techniques concerning semantic information extraction, environment and evaluation, auxiliary tasks, and task representation strategies. By conducting a comparative analysis, we highlight the strengths and limitations of current approaches in bridging language instructions with robot actions. Finally, we discuss open challenges and future research directions, focusing on potentially enhancing generalization capabilities and addressing safety issues in language-conditioned robot manipulators.

arxiv情報

著者 Hongkuan Zhou,Xiangtong Yao,Oier Mees,Yuan Meng,Ted Xiao,Yonatan Bisk,Jean Oh,Edward Johns,Mohit Shridhar,Dhruv Shah,Jesse Thomason,Kai Huang,Joyce Chai,Zhenshan Bing,Alois Knoll
発行日 2025-02-17 10:45:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bridging Language and Action: A Survey of Language-Conditioned Robot Manipulation はコメントを受け付けていません

Omnidirectional Sensor Placement: A Large-Scale Computational Study and Novel Hybrid Accelerated-Refinement Heuristics

要約

このペーパーでは、全方向性センサー配置問題(OSPP)を研究します。これには、センサー数を最小限に抑えながら、ユーザー定義のカバレッジ要件を実現するために、連続2D環境に静的センサーを配置することが含まれます。
この問題は、特に環境検査、ターゲット検索、地域のパトロールなどの可視性ベースのルート計画タスクを最適化するために、モバイルロボット工学のアプリケーションによって動機付けられています。
Lidar、360度カメラ、マルチセンサーアレイなどの実際のセンシングテクノロジーに関連しながら、センサーの向きの制約を排除する全方向性視認性モデルに焦点を当てています。
3つの重要なモデルが考慮されます。無制限の可視性、物理的またはアプリケーション固有の制約を反映する限られた範囲の可視性、およびロボット工学のセンサー配置の不確実性を説明するためのローカリゼーションの不確実性の可視性。
私たちの最初の貢献は、OSPPの古典的な凸分配とサンプリングベースのヒューリスティックを比較し、ランタイム効率とソリューション品質のトレードオフを分析する大規模な計算研究です。
私たちの2番目の貢献は、新しいクラスのハイブリッド加速施設(HAR)ヒューリスティックです。これは、複数のセンサー配置方法からの出力を組み合わせて洗練しながら、前処理技術を組み込み、洗練を加速させます。
結果は、HARヒューリスティックが従来の方法を大幅に上回り、センサー数が最も低く、サンプリングベースのアプローチのランタイムを改善することを示しています。
さらに、特定のHARヒューリスティックをローカリゼーション不確実性の可視性モデルに適応させ、小規模から中程度のローカリゼーションの不確実性に必要なカバレッジを達成することを示しています。
将来の作業では、HARを可視性ベースのルート計画タスクに適用したり、新しいセンサー配置アプローチを検討して、不確実性の下で正式なカバレッジ保証を達成します。

要約(オリジナル)

This paper studies the omnidirectional sensor-placement problem (OSPP), which involves placing static sensors in a continuous 2D environment to achieve a user-defined coverage requirement while minimizing sensor count. The problem is motivated by applications in mobile robotics, particularly for optimizing visibility-based route planning tasks such as environment inspection, target search, and region patrolling. We focus on omnidirectional visibility models, which eliminate sensor orientation constraints while remaining relevant to real-world sensing technologies like LiDAR, 360-degree cameras, and multi-sensor arrays. Three key models are considered: unlimited visibility, limited-range visibility to reflect physical or application-specific constraints, and localization-uncertainty visibility to account for sensor placement uncertainty in robotics. Our first contribution is a large-scale computational study comparing classical convex-partitioning and sampling-based heuristics for the OSPP, analyzing their trade-off between runtime efficiency and solution quality. Our second contribution is a new class of hybrid accelerated-refinement (HAR) heuristics, which combine and refine outputs from multiple sensor-placement methods while incorporating preprocessing techniques to accelerate refinement. Results demonstrate that HAR heuristics significantly outperform traditional methods, achieving the lowest sensor counts and improving the runtime of sampling-based approaches. Additionally, we adapt a specific HAR heuristic to the localization-uncertainty visibility model, showing that it achieves the required coverage for small to moderate localization uncertainty. Future work may apply HAR to visibility-based route planning tasks or explore novel sensor-placement approaches to achieve formal coverage guarantees under uncertainty.

arxiv情報

著者 Jan Mikula,Miroslav Kulich
発行日 2025-02-17 11:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.RO | Omnidirectional Sensor Placement: A Large-Scale Computational Study and Novel Hybrid Accelerated-Refinement Heuristics はコメントを受け付けていません

Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation

要約

マルチタスクロボット操作の視覚運動ポリシーを学ぶことは、ロボットコミュニティにとって長年の課題でした。
難易度はアクション空間の多様性にあります。通常、目標は複数の方法で達成できるため、単一のタスクのマルチモーダルアクション分布になります。
アクション分布の複雑さは、タスクの数が増えるとエスカレートします。
この作業では、マルチタスク操作スキルが可能な普遍的なエージェントをトレーニングするためのロボット学習方法である\ textBF {Disclete Policy}を提案します。
離散ポリシーは、ベクトル量子化を使用して、アクションシーケンスを離散潜在スペースにマッピングし、タスク固有のコードの学習を促進します。
これらのコードは、観測と言語指導を条件とするアクションスペースに再構築されます。
シミュレーションと複数の現実世界の実施形態の両方で、単一腕と両腕の両方のロボット設定を含む方法を評価します。
提案された個別のポリシーは、確立された拡散ポリシーのベースラインと、ACT、Octo、OpenVLAなどの多くの最先端のアプローチよりも優れていることを実証します。
たとえば、5つのタスクを備えた現実世界のマルチタスクトレーニング設定では、個別のポリシーは、拡散ポリシーよりも26 \%高く、OpenVLAよりも15%高い平均成功率を達成します。
タスクの数が12に増加すると、離散ポリシーと拡散ポリシーのパフォーマンスギャップは32.5 \%に広がり、アプローチの利点をさらに紹介します。
私たちの研究は、潜在空間内でマルチタスクポリシーを学習することが、汎用エージェントを達成するための重要なステップであることを経験的に示しています。

要約(オリジナル)

Learning visuomotor policy for multi-task robotic manipulation has been a long-standing challenge for the robotics community. The difficulty lies in the diversity of action space: typically, a goal can be accomplished in multiple ways, resulting in a multimodal action distribution for a single task. The complexity of action distribution escalates as the number of tasks increases. In this work, we propose \textbf{Discrete Policy}, a robot learning method for training universal agents capable of multi-task manipulation skills. Discrete Policy employs vector quantization to map action sequences into a discrete latent space, facilitating the learning of task-specific codes. These codes are then reconstructed into the action space conditioned on observations and language instruction. We evaluate our method on both simulation and multiple real-world embodiments, including both single-arm and bimanual robot settings. We demonstrate that our proposed Discrete Policy outperforms a well-established Diffusion Policy baseline and many state-of-the-art approaches, including ACT, Octo, and OpenVLA. For example, in a real-world multi-task training setting with five tasks, Discrete Policy achieves an average success rate that is 26\% higher than Diffusion Policy and 15\% higher than OpenVLA. As the number of tasks increases to 12, the performance gap between Discrete Policy and Diffusion Policy widens to 32.5\%, further showcasing the advantages of our approach. Our work empirically demonstrates that learning multi-task policies within the latent space is a vital step toward achieving general-purpose agents.

arxiv情報

著者 Kun Wu,Yichen Zhu,Jinming Li,Junjie Wen,Ning Liu,Zhiyuan Xu,Qinru Qiu,Jian Tang
発行日 2025-02-17 11:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation はコメントを受け付けていません

IRIS: An Immersive Robot Interaction System

要約

このペーパーでは、複数のシミュレータ、ベンチマーク、実際のシナリオにわたってロボットデータ収集と相互作用のために設計された拡張現実(XR)を活用する没入型ロボット相互作用システムであるIRISを紹介します。
既存のXRベースのデータ収集システムは、大規模なデータ収集に効率的かつ直感的なソリューションを提供しますが、多くの場合、再現して再利用するのが困難です。
現在のシステムは、シミュレーター固有のユースケースと環境に高度に調整されているため、この制限が生じます。
Irisは、複数のシミュレータ、ベンチマーク、さらにはヘッドセットをサポートする斬新で簡単に拡張可能なフレームワークです。
さらに、IRISは、深度カメラを介してキャプチャされたポイントクラウドなど、実際のセンサーからの追加情報を含めることができます。
統一されたシーン仕様は、シミュレーターまたは実際のセンサーから直接生成され、XRヘッドセットに送信され、XRで同じシーンが作成されます。
この仕様により、IRISはシミュレータが提供するオブジェクト、アセット、およびロボットのいずれかをサポートできます。
さらに、IRISは、共有された空間アンカーと、複数のXRヘッドセット間のシミュレーションをリンクする堅牢な通信プロトコルを導入します。
この機能により、複数のXRヘッドセットが同期シーンを共有し、共同およびマルチユーザーのデータ収集を促進できます。
IRISは、Unity Frameworkをサポートする任意のデバイスに展開でき、市販のヘッドセットの大部分を網羅しています。
この作業では、IRISがMeta Quest 3とHololens 2で展開され、テストされました。IRISは、Mujoco、Isaacsim、Coppeliasim、および象徴などの現在の人気のロボットシミュレーターを使用して、幅広い現実世界およびシミュレートされたシナリオにわたってその汎用性を紹介しました。

さらに、ユーザー調査では、リベロベンチマークのデータ収集タスクに関するIRISを評価します。
この研究は、虹彩が目的メトリックと主観的なメトリックの両方でベースラインを大幅に上回ることを示しています。

要約(オリジナル)

This paper introduces IRIS, an immersive Robot Interaction System leveraging Extended Reality (XR), designed for robot data collection and interaction across multiple simulators, benchmarks, and real-world scenarios. While existing XR-based data collection systems provide efficient and intuitive solutions for large-scale data collection, they are often challenging to reproduce and reuse. This limitation arises because current systems are highly tailored to simulator-specific use cases and environments. IRIS is a novel, easily extendable framework that already supports multiple simulators, benchmarks, and even headsets. Furthermore, IRIS is able to include additional information from real-world sensors, such as point clouds captured through depth cameras. A unified scene specification is generated directly from simulators or real-world sensors and transmitted to XR headsets, creating identical scenes in XR. This specification allows IRIS to support any of the objects, assets, and robots provided by the simulators. In addition, IRIS introduces shared spatial anchors and a robust communication protocol that links simulations between multiple XR headsets. This feature enables multiple XR headsets to share a synchronized scene, facilitating collaborative and multi-user data collection. IRIS can be deployed on any device that supports the Unity Framework, encompassing the vast majority of commercially available headsets. In this work, IRIS was deployed and tested on the Meta Quest 3 and the HoloLens 2. IRIS showcased its versatility across a wide range of real-world and simulated scenarios, using current popular robot simulators such as MuJoCo, IsaacSim, CoppeliaSim, and Genesis. In addition, a user study evaluates IRIS on a data collection task for the LIBERO benchmark. The study shows that IRIS significantly outperforms the baseline in both objective and subjective metrics.

arxiv情報

著者 Xinkai Jiang,Qihao Yuan,Enes Ulas Dincer,Hongyi Zhou,Ge Li,Xueyin Li,Julius Haag,Nicolas Schreiber,Kailai Li,Gerhard Neumann,Rudolf Lioutikov
発行日 2025-02-17 11:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | IRIS: An Immersive Robot Interaction System はコメントを受け付けていません

Can you pass that tool?: Implications of Indirect Speech in Physical Human-Robot Collaboration

要約

間接的な発話行為(ISA)は、人間のコミュニケーションの自然な実用的な特徴であり、微妙さと柔軟性を維持しながら、要求を暗黙的に伝えることができます。
音声認識の進歩により、直接的な明示的なコマンド(コミュニケーションの明確さ)を通じてロボットとの自然言語の相互作用が可能になりましたが、大規模な言語モデルの台頭は、ロボットがISAを解釈する可能性を示しています。
ただし、ISAがヒューマンロボットコラボレーション(HRC)に及ぼす影響に関する経験的証拠は限られたままです。
これに対処するために、参加者とロボットを共同の物理的タスクに巻き込んで、魔法使いの研究(n = 36)を実施しました。
私たちの調査結果は、ISAを理解できるロボットが人間の知覚ロボット擬人化、チームのパフォーマンス、および信頼を大幅に改善することを示しています。
ただし、ISASの有効性はタスクおよびコンテキスト依存性であるため、慎重に使用する必要があります。
これらの結果は、HRCの直接および間接的な要求を適切に統合して、共同体験とタスクのパフォーマンスを向上させることの重要性を強調しています。

要約(オリジナル)

Indirect speech acts (ISAs) are a natural pragmatic feature of human communication, allowing requests to be conveyed implicitly while maintaining subtlety and flexibility. Although advancements in speech recognition have enabled natural language interactions with robots through direct, explicit commands–providing clarity in communication–the rise of large language models presents the potential for robots to interpret ISAs. However, empirical evidence on the effects of ISAs on human-robot collaboration (HRC) remains limited. To address this, we conducted a Wizard-of-Oz study (N=36), engaging a participant and a robot in collaborative physical tasks. Our findings indicate that robots capable of understanding ISAs significantly improve human’s perceived robot anthropomorphism, team performance, and trust. However, the effectiveness of ISAs is task- and context-dependent, thus requiring careful use. These results highlight the importance of appropriately integrating direct and indirect requests in HRC to enhance collaborative experiences and task performance.

arxiv情報

著者 Yan Zhang,Tharaka Sachintha Ratnayake,Cherie Sew,Jarrod Knibbe,Jorge Goncalves,Wafa Johal
発行日 2025-02-17 12:05:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Can you pass that tool?: Implications of Indirect Speech in Physical Human-Robot Collaboration はコメントを受け付けていません

FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation

要約

単一の人間のデモビデオからの学習ツールの使用は、ロボット教育に対する非常に直感的で効率的なアプローチを提供します。
人間は、同じ関数をサポートする多様なツール(例えば、マグカップとティーポットで注ぐ)に実証されたツール操作スキルを簡単に一般化することができますが、現在のワンショット模倣学習(OSIL)メソッドはこれを達成するのに苦労しています。
重要な課題は、同じ関数(つまり、機能内変動)を持つツール間の大幅な幾何学的変動を考慮して、デモンストレーションとテストツールの間に機能的な対応を確立することにあります。
この課題に対処するために、3D機能キーポイント表現との関数中心の対応を確立するOSILメソッドである機能(ツール操作のための関数中心のOSIL)を提案し、ロボットが単一の人間のデモンストレーションビデオから新しいツールにツール操作スキルを一般化できるようにします。
機能内の変動にもかかわらず、同じ機能があります。
この定式化により、(1)機能的なキーポイント抽出、(2)関数中心の対応確立、および(3)機能キーポイントベースのアクションプランニングの3つの段階に因数分解します。
多様なツール操作タスクに関する実際のロボット実験を通じて、モジュール式OSILメソッドとエンドツーエンドの行動クローンメソッドを終了することに対して機能を評価します。
結果は、機能内の幾何学的なバリエーションを持つ新しいツールに一般化する際の機能の優位性を示しています。
詳細については、https://sites.google.com/view/functoをご覧ください。

要約(オリジナル)

Learning tool use from a single human demonstration video offers a highly intuitive and efficient approach to robot teaching. While humans can effortlessly generalize a demonstrated tool manipulation skill to diverse tools that support the same function (e.g., pouring with a mug versus a teapot), current one-shot imitation learning (OSIL) methods struggle to achieve this. A key challenge lies in establishing functional correspondences between demonstration and test tools, considering significant geometric variations among tools with the same function (i.e., intra-function variations). To address this challenge, we propose FUNCTO (Function-Centric OSIL for Tool Manipulation), an OSIL method that establishes function-centric correspondences with a 3D functional keypoint representation, enabling robots to generalize tool manipulation skills from a single human demonstration video to novel tools with the same function despite significant intra-function variations. With this formulation, we factorize FUNCTO into three stages: (1) functional keypoint extraction, (2) function-centric correspondence establishment, and (3) functional keypoint-based action planning. We evaluate FUNCTO against exiting modular OSIL methods and end-to-end behavioral cloning methods through real-robot experiments on diverse tool manipulation tasks. The results demonstrate the superiority of FUNCTO when generalizing to novel tools with intra-function geometric variations. More details are available at https://sites.google.com/view/functo.

arxiv情報

著者 Chao Tang,Anxing Xiao,Yuhong Deng,Tianrun Hu,Wenlong Dong,Hanbo Zhang,David Hsu,Hong Zhang
発行日 2025-02-17 12:34:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation はコメントを受け付けていません