LGR: LLM-Guided Ranking of Frontiers for Object Goal Navigation

要約

オブジェクトゴールナビゲーション(OGN)は、モバイルロボットイメージデータベース(MRID)などの主要なアプリケーションを備えたロボットとAIの基本的なタスクです。
特に、Mapless OGNは、未知の環境または動的環境を含むシナリオでは不可欠です。
この研究の目的は、大規模な言語モデル(LLM)の常識的な推論能力を活用することにより、最近のモジュラーマップレスOGNシステムを強化することを目的としています。
具体的には、フロンティアランキングの問題としてフレーミングすることにより、フロンティアベースの探査で訪問順序を決定するという課題に対処します。
私たちのアプローチは、LLMSがフロンティアの絶対値を決定することはできないが、コンテキストとしてビュー画像を使用して単一の画像内で表示される複数のフロンティア間の相対値を評価することに優れているという最近の調査結果に基づいています。
ランキングモデルとしてLLMを使用して、要素を追加および削除することにより、フロンティアリストを動的に管理します。
ランキング結果は、マルチビュー、マルチクエリ情報融合に最適な相互ランクベクトルとして表されます。
Habitat-SIMの評価を通じて、方法の有効性を検証します。

要約(オリジナル)

Object Goal Navigation (OGN) is a fundamental task for robots and AI, with key applications such as mobile robot image databases (MRID). In particular, mapless OGN is essential in scenarios involving unknown or dynamic environments. This study aims to enhance recent modular mapless OGN systems by leveraging the commonsense reasoning capabilities of large language models (LLMs). Specifically, we address the challenge of determining the visiting order in frontier-based exploration by framing it as a frontier ranking problem. Our approach is grounded in recent findings that, while LLMs cannot determine the absolute value of a frontier, they excel at evaluating the relative value between multiple frontiers viewed within a single image using the view image as context. We dynamically manage the frontier list by adding and removing elements, using an LLM as a ranking model. The ranking results are represented as reciprocal rank vectors, which are ideal for multi-view, multi-query information fusion. We validate the effectiveness of our method through evaluations in Habitat-Sim.

arxiv情報

著者 Mitsuaki Uno,Kanji Tanaka,Daiki Iwata,Yudai Noda,Shoya Miyazaki,Kouki Terashima
発行日 2025-03-26 05:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | LGR: LLM-Guided Ranking of Frontiers for Object Goal Navigation はコメントを受け付けていません

SLIM: Scalable and Lightweight LiDAR Mapping in Urban Environments

要約

Lidar Pointクラウドマップは、一貫性が高いため、ロボットナビゲーションのために道路で広く利用されています。
ただし、密集したポイントクラウドは、メモリの高い摂取の課題に直面し、長期運用の保守性が低下します。
この研究では、都市環境での長期的なライダーマッピングのためのスケーラブルで軽量マッピングシステムであるSlimを紹介します。
システムは、構造ポイント雲を線と平面にパラメーター化することから始まります。
これらの軽量で構造的な表現は、マップのマージ、グラフの最適化、およびバンドル調整の要件を満たしており、増分管理と局所的な一貫性を確保します。
長期操作の場合、マップ中心の非線形因子回復法は、マッピングの精度を維持しながらポーズをまとめるように設計されています。
Kitti、NCLT、HELIPR、M2DGRを含む古典的なLIDARマッピングデータセットからのマルチセッションリアルワールドLIDARデータを使用して、スリムシステムを検証します。
この実験は、マッピングの精度、軽量性、およびスケーラビリティの能力を示しています。
マップの再利用は、マップベースのロボットローカリゼーションを通じて検証されます。
最後に、マルチセッションLIDARデータを使用すると、スリムシステムは、メモリ消費量が少ない(キッティで〜130 kb/km)、グローバルに一貫したマップを提供します。

要約(オリジナル)

LiDAR point cloud maps are extensively utilized on roads for robot navigation due to their high consistency. However, dense point clouds face challenges of high memory consumption and reduced maintainability for long-term operations. In this study, we introduce SLIM, a scalable and lightweight mapping system for long-term LiDAR mapping in urban environments. The system begins by parameterizing structural point clouds into lines and planes. These lightweight and structural representations meet the requirements of map merging, pose graph optimization, and bundle adjustment, ensuring incremental management and local consistency. For long-term operations, a map-centric nonlinear factor recovery method is designed to sparsify poses while preserving mapping accuracy. We validate the SLIM system with multi-session real-world LiDAR data from classical LiDAR mapping datasets, including KITTI, NCLT, HeLiPR and M2DGR. The experiments demonstrate its capabilities in mapping accuracy, lightweightness, and scalability. Map re-use is also verified through map-based robot localization. Finally, with multi-session LiDAR data, the SLIM system provides a globally consistent map with low memory consumption (~130 KB/km on KITTI).

arxiv情報

著者 Zehuan Yu,Zhijian Qiao,Wenyi Liu,Huan Yin,Shaojie Shen
発行日 2025-03-26 05:31:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SLIM: Scalable and Lightweight LiDAR Mapping in Urban Environments はコメントを受け付けていません

Vision-based Multi-future Trajectory Prediction: A Survey

要約

ビジョンベースの軌道予測は、自律システムの安全でインテリジェントな行動をサポートする重要なタスクです。
長年にわたって多くの高度なアプローチが提案されており、空間的および時間的特徴抽出が改善されています。
しかし、人間の行動は自然に多様で不確実です。
過去の軌跡と周囲の環境情報を考えると、エージェントは将来的に複数のもっともらしい軌跡を持つことができます。
この問題に取り組むために、Multi-Future Traujectory Prediction(MTP)という名前の重要なタスクが最近研究されました。
このタスクは、各エージェントの将来の予測の多様で許容可能な説明可能な分布を生成することを目的としています。
この論文では、MTPの最初の調査を、独自の分類法と、フレームワーク、データセット、評価メトリックの包括的な分析を紹介します。
また、既存のMTPデータセットのモデルを比較し、ForkingPathデータセットで実験を実施します。
最後に、研究者がMTPに似た新しい多様な軌道予測システムやその他の多様な学習タスクを開発するのに役立つ複数の将来の方向性について説明します。

要約(オリジナル)

Vision-based trajectory prediction is an important task that supports safe and intelligent behaviours in autonomous systems. Many advanced approaches have been proposed over the years with improved spatial and temporal feature extraction. However, human behaviour is naturally diverse and uncertain. Given the past trajectory and surrounding environment information, an agent can have multiple plausible trajectories in the future. To tackle this problem, an essential task named multi-future trajectory prediction (MTP) has recently been studied. This task aims to generate a diverse, acceptable and explainable distribution of future predictions for each agent. In this paper, we present the first survey for MTP with our unique taxonomies and a comprehensive analysis of frameworks, datasets and evaluation metrics. We also compare models on existing MTP datasets and conduct experiments on the ForkingPath dataset. Finally, we discuss multiple future directions that can help researchers develop novel multi-future trajectory prediction systems and other diverse learning tasks similar to MTP.

arxiv情報

著者 Renhao Huang,Hao Xue,Maurice Pagnucco,Flora Salim,Yang Song
発行日 2025-03-26 05:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Vision-based Multi-future Trajectory Prediction: A Survey はコメントを受け付けていません

FoAM: Foresight-Augmented Multi-Task Imitation Policy for Robotic Manipulation

要約

マルチタスク模倣学習(MTIL)は、単一のポリシーを使用してエージェントがさまざまなタスクを実行できるようにすることにより、ロボット操作に大きな可能性を示しています。
これにより、ポリシーの展開が簡素化され、さまざまなシナリオでエージェントの適応性が向上します。
ただし、アクションの信頼性を維持する(例えば、名目上のタスクの軌跡から逸脱する異常なアクションシーケンスを回避する)、いくつかの専門家のデモンストレーションで目に見えないタスクに一般化するなど、重要な課題が残っています。
これらの課題に対処するために、先見の明のある操作ポリシー(FOAM)を紹介します。これは、入力としてマルチモーダル目標条件の使用を開拓し、一般的なアクションの再構成に加えて先見の明の増加を導入する新しいMTILポリシーです。
フォームにより、エージェントはその行動の視覚的結果(状態)について推論し、微妙なタスクのバリエーションをキャプチャするより表現力のある埋め込みを学ぶことができます。
シミュレーションと現実世界の設定における100を超えるタスクに関する広範な実験は、フォームがMTILポリシーのパフォーマンスを大幅に向上させ、最先端のベースラインを成功率が最大41%上回ることを示しています。
一方、合計10のシナリオと、操作ポリシートレーニングと評価のために設計された80を超える挑戦的なタスクを含むシミュレーションスイートをリリースしました。
プロジェクトの詳細については、プロジェクトHomepage projfoam.github.ioを参照してください。

要約(オリジナル)

Multi-task imitation learning (MTIL) has shown significant potential in robotic manipulation by enabling agents to perform various tasks using a single policy. This simplifies the policy deployment and enhances the agent’s adaptability across different scenarios. However, key challenges remain, such as maintaining action reliability (e.g., avoiding abnormal action sequences that deviate from nominal task trajectories) and generalizing to unseen tasks with a few expert demonstrations. To address these challenges, we introduce the Foresight-Augmented Manipulation Policy (FoAM), a novel MTIL policy that pioneers the use of multi-modal goal condition as input and introduces a foresight augmentation in addition to the general action reconstruction. FoAM enables the agent to reason about the visual consequences (states) of its actions and learn more expressive embedding that captures nuanced task variations. Extensive experiments on over 100 tasks in simulation and real-world settings demonstrate that FoAM significantly enhances MTIL policy performance, outperforming state-of-the-art baselines by up to 41% in success rate. Meanwhile, we released our simulation suites, including a total of 10 scenarios and over 80 challenging tasks designed for manipulation policy training and evaluation. See the project homepage projFoAM.github.io for project details.

arxiv情報

著者 Litao Liu,Wentao Wang,Yifan Han,Zhuoli Xie,Pengfei Yi,Junyan Li,Yi Qin,Wenzhao Lian
発行日 2025-03-26 06:33:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FoAM: Foresight-Augmented Multi-Task Imitation Policy for Robotic Manipulation はコメントを受け付けていません

Distributed Motion Control of Multiple Mobile Manipulators for Reducing Interaction Wrench in Object Manipulation

要約

オブジェクトの実際の協同組合操作では、複数のモバイルマニピュレーターシステムが障害や非同期に悩まされ、過度の相互作用レンチにつながり、オブジェクトの損傷や緊急停止を引き起こす可能性があります。
多くの場合、既存の方法はトルク制御と動的モデルに依存していますが、これは多くの産業ロボットや設定では珍しいものです。
さらに、動的モデルはしばしば関節摩擦力を無視し、正確ではありません。
これらの方法は、物理システムで実装および検証するのが難しいです。
問題に対処するために、このペーパーでは、これらの不必要な相互作用レンチを減らすことを目的とした新しい分散モーション制御アプローチを提示します。
制御法は、実用的な適用性を高めるために、ローカル情報と共同速度制御に基づいています。
分散アーキテクチャ内の通信遅延が考慮されます。
制御法の安定性は、リアプノフ定理によって厳密に証明されています。
シミュレーションでは、有効性が示されており、通信グラフの接続と通信の遅延の影響が研究されています。
他の方法との比較は、収束速度と堅牢性の観点から提案された管理法の利点を示しています。
最後に、制御法は物理実験で検証されています。
動的モデリングやトルク制御は必要ありません。したがって、物理ロボットの方がユーザーフレンドリーです。

要約(オリジナル)

In real-world cooperative manipulation of objects, multiple mobile manipulator systems may suffer from disturbances and asynchrony, leading to excessive interaction wrenches and potentially causing object damage or emergency stops. Existing methods often rely on torque control and dynamic models, which are uncommon in many industrial robots and settings. Additionally, dynamic models often neglect joint friction forces and are not accurate. These methods are challenging to implement and validate in physical systems. To address the problems, this paper presents a novel distributed motion control approach aimed at reducing these unnecessary interaction wrenches. The control law is only based on local information and joint velocity control to enhance practical applicability. The communication delays within the distributed architecture are considered. The stability of the control law is rigorously proven by the Lyapunov theorem. In the simulations, the effectiveness is shown, and the impact of communication graph connectivity and communication delays has been studied. A comparison with other methods shows the advantages of the proposed control law in terms of convergence speed and robustness. Finally, the control law has been validated in physical experiments. It does not require dynamic modeling or torque control, and thus is more user-friendly for physical robots.

arxiv情報

著者 Wenhang Liu,Meng Ren,Kun Song,Gaoming Chen,Michael Yu Wang,Zhenhua Xiong
発行日 2025-03-26 06:44:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Distributed Motion Control of Multiple Mobile Manipulators for Reducing Interaction Wrench in Object Manipulation はコメントを受け付けていません

General-purpose Clothes Manipulation with Semantic Keypoints

要約

衣服の操作は、家庭用ロボットにとって重要な能力です。
しかし、既存の方法は、多くの場合、変形可能な布の複雑な高次元のジオメトリのため、折りたたみや平坦化などの特定のタスクに限定されます。
このペーパーでは、汎用の衣服操作のためのセマンティックキーポイント(CLASP)を使用した衣服操作を紹介します。これにより、ロボットはさまざまな種類の衣服で多様な操作タスクを実行できます。
クラスプの重要なアイデアは、セマンティックキーポイント(「右肩」、「左スリーブ」など)です。
衣服のセマンティックキーポイントは、深さの画像から効果的に抽出でき、幅広い衣服操作ポリシーを表すのに十分です。
クラスプはセマンティックキーポイントをレバレッジして、2レベルの階層でLLM駆動のタスク計画と低レベルのアクション実行をブリッジします。
広範なシミュレーション実験により、CLASPは、見られたタスクと目に見えないタスクの両方で、多様な衣服タイプでベースラインメソッドを上回ることが示されています。
さらに、折りたたみ、平坦化、吊り下げ、配置の4つの異なるタスクでのKinovaデュアルアームシステムを実験して、実際のロボットでのクラスプのパフォーマンスを確認します。

要約(オリジナル)

Clothes manipulation is a critical capability for household robots; yet, existing methods are often confined to specific tasks, such as folding or flattening, due to the complex high-dimensional geometry of deformable fabric. This paper presents CLothes mAnipulation with Semantic keyPoints (CLASP) for general-purpose clothes manipulation, which enables the robot to perform diverse manipulation tasks over different types of clothes. The key idea of CLASP is semantic keypoints — e.g., ‘right shoulder’, ‘left sleeve’, etc. — a sparse spatial-semantic representation that is salient for both perception and action. Semantic keypoints of clothes can be effectively extracted from depth images and are sufficient to represent a broad range of clothes manipulation policies. CLASP leverages semantic keypoints to bridge LLM-powered task planning and low-level action execution in a two-level hierarchy. Extensive simulation experiments show that CLASP outperforms baseline methods across diverse clothes types in both seen and unseen tasks. Further, experiments with a Kinova dual-arm system on four distinct tasks — folding, flattening, hanging, and placing — confirm CLASP’s performance on a real robot.

arxiv情報

著者 Yuhong Deng,David Hsu
発行日 2025-03-26 06:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | General-purpose Clothes Manipulation with Semantic Keypoints はコメントを受け付けていません

Turning Circle-based Control Barrier Function for Efficient Collision Avoidance of Nonholonomic Vehicles

要約

このホワイトペーパーでは、非ホロノミック車両の衝突回避の効率を改善するために設計された新しい制御障壁機能(CBF)を提示します。
従来のCBFは通常、障害物まで最も短いユークリッド距離に依存しており、非ホロノミー車の限られた見出しの変化能力を見落としています。
これにより、多くの場合、操縦が急激に速度低下し、速度が低下します。これは望ましくなく、衝突回避の効率を低下させます。
私たちのアプローチは、非ホロノミーの制約によって課される車両の制限された操縦性を考慮して、ターニングサークルまでの距離を組み込むことにより、これらの制限に対処します。
提案されたCBFは、モデル予測制御(MPC)と統合されており、ユークリッドの距離ベースのCBFだけに依存する既存の方法と比較して、より効率的な軌道を生成します。
提案された方法の有効性は、一輪車の車両と不足していない地表車の実験に関する数値シミュレーションを通じて検証されます。

要約(オリジナル)

This paper presents a new control barrier function (CBF) designed to improve the efficiency of collision avoidance for nonholonomic vehicles. Traditional CBFs typically rely on the shortest Euclidean distance to obstacles, overlooking the limited heading change ability of nonholonomic vehicles. This often leads to abrupt maneuvers and excessive speed reductions, which is not desirable and reduces the efficiency of collision avoidance. Our approach addresses these limitations by incorporating the distance to the turning circle, considering the vehicle’s limited maneuverability imposed by its nonholonomic constraints. The proposed CBF is integrated with model predictive control (MPC) to generate more efficient trajectories compared to existing methods that rely solely on Euclidean distance-based CBFs. The effectiveness of the proposed method is validated through numerical simulations on unicycle vehicles and experiments with underactuated surface vehicles.

arxiv情報

著者 Changyu Lee,Kiyong Park,Jinwhan Kim
発行日 2025-03-26 07:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Turning Circle-based Control Barrier Function for Efficient Collision Avoidance of Nonholonomic Vehicles はコメントを受け付けていません

TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation

要約

ゼロショットオブジェクトナビゲーション(ZSON)タスクでは、具体化されていない環境でナビゲートすることにより、具体化されたエージェントが以前に見えなかったオブジェクトを見つける必要があります。
このような目標指向の探査は、環境の空間情報に基づいて、認識、理解、および推論する能力に大きく依存しています。
ただし、現在のLLMベースのアプローチは、視覚的観察を言語空間の言語の説明と理由に変換し、空間情報の喪失につながります。
このホワイトペーパーでは、十分な空間情報を備えたトップビューマップに直接理由があるMLLMベースの方法であるTOPV-NAVを紹介します。
Top-Viewの観点でMLLMの空間推論の可能性を完全にロック解除するために、セマンティックに豊富なトップビューマップを適応的に構築するための適応視覚プロンプト生成(AVPG)メソッドを提案します。
これにより、エージェントは、トップビューマップに含まれる空間情報を直接使用して、徹底的な推論を実施できます。
また、優先スケールで動的にズームトップビューマップをズームし、ローカルの細かい推論を強化する動的マップスケーリング(DMS)メカニズムを設計します。
さらに、ターゲット駆動型のターゲット駆動型(PTD)メカニズムを考案して、ターゲットの場所を予測し、利用し、グローバルおよび人間のような探査を促進します。
MP3DおよびHM3Dデータセットの実験は、TOPV-NAVの優位性を示しています。

要約(オリジナル)

The Zero-Shot Object Navigation (ZSON) task requires embodied agents to find a previously unseen object by navigating in unfamiliar environments. Such a goal-oriented exploration heavily relies on the ability to perceive, understand, and reason based on the spatial information of the environment. However, current LLM-based approaches convert visual observations to language descriptions and reason in the linguistic space, leading to the loss of spatial information. In this paper, we introduce TopV-Nav, an MLLM-based method that directly reasons on the top-view map with sufficient spatial information. To fully unlock the MLLM’s spatial reasoning potential in top-view perspective, we propose the Adaptive Visual Prompt Generation (AVPG) method to adaptively construct semantically-rich top-view map. It enables the agent to directly utilize spatial information contained in the top-view map to conduct thorough reasoning. Besides, we design a Dynamic Map Scaling (DMS) mechanism to dynamically zoom top-view map at preferred scales, enhancing local fine-grained reasoning. Additionally, we devise a Potential Target Driven (PTD) mechanism to predict and to utilize target locations, facilitating global and human-like exploration. Experiments on MP3D and HM3D datasets demonstrate the superiority of our TopV-Nav.

arxiv情報

著者 Linqing Zhong,Chen Gao,Zihan Ding,Yue Liao,Huimin Ma,Shifeng Zhang,Xu Zhou,Si Liu
発行日 2025-03-26 07:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation はコメントを受け付けていません

Polytope Volume Monitoring Problem: Formulation and Solution via Parametric Linear Program Based Control Barrier Function

要約

複数の制御バリア関数(CBFS)の実行可能なスペースモニタリングに関する最新の研究とポリトピック衝突回避に動機付けられているこのペーパーでは、ポリトープボリューム監視(PVM)問題を研究しています。
最近の研究では、PVMのケーススタディを解決するために、最適化理論にChebyshevボール法を適用するというアイデアが調査されています。
ただし、非滑らかさによって引き起こされる根本的な困難は対処されていません。
このホワイトペーパーでは、このトピックに関する研究を続けています。ここでは、PVMの問題をより便利に解決するために、指向性導関数を通じて、非滑らかなCBFとパラメトリック最適化理論の関係を初めて確立することです。
詳細には、Chebyshev Ball Approachに触発されて、PVM用にパラメトリック線形プログラム(PLP)ベースの非滑らかなバリア機能候補が確立され、次に、それが十分な条件が非滑らかなCBFであるため、4次プログラム(QP)ベースの安全フィルターが保証された有効性を保証された安全性を備えた2次の安全フィルターがPVM問題に対処するために提案されています。
最後に、提案された安全フィルターの効率を示すために、数値シミュレーションの例が与えられます。

要約(オリジナル)

Motivated by the latest research on feasible space monitoring of multiple control barrier functions (CBFs) as well as polytopic collision avoidance, this paper studies the Polytope Volume Monitoring (PVM) problem, whose goal is to design a control law for inputs of nonlinear systems to prevent the volume of some state-dependent polytope from decreasing to zero. Recent studies have explored the idea of applying Chebyshev ball method in optimization theory to solve the case study of PVM; however, the underlying difficulties caused by nonsmoothness have not been addressed. This paper continues the study on this topic, where our main contribution is to establish the relationship between nonsmooth CBF and parametric optimization theory through directional derivatives for the first time, so as to solve PVM problems more conveniently. In detail, inspired by Chebyshev ball approach, a parametric linear program (PLP) based nonsmooth barrier function candidate is established for PVM, and then, sufficient conditions for it to be a nonsmooth CBF are proposed, based on which a quadratic program (QP) based safety filter with guaranteed feasibility is proposed to address PVM problems. Finally, a numerical simulation example is given to show the efficiency of the proposed safety filter.

arxiv情報

著者 Shizhen Wu,Jinyang Dong,Xu Fang,Ning Sun,Yongchun Fang
発行日 2025-03-26 08:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | Polytope Volume Monitoring Problem: Formulation and Solution via Parametric Linear Program Based Control Barrier Function はコメントを受け付けていません

Optimizing Robot Programming: Mixed Reality Gripper Control

要約

従来のロボットプログラミング方法は、ユーザーにとって複雑で時間がかかります。
近年、これらの課題に対処し、ロボットプログラミングを最適化するために、複合現実などの代替アプローチが調査されています。
混合現実ロボットプログラミング方法の調査結果は説得力がありますが、ほとんどの既存の方法はロボットプログラミングのジェスチャー相互作用に依存しています。
コントローラーベースの相互作用はより信頼性が高いことが証明されているため、このペーパーでは、混合現実シナリオ内の3つのコントローラーベースのプログラミング方法を検証します。1)クラシックジョギング。ユーザーがコントローラーの親指を使用してロボットエンドエフェクターを配置します。
オブジェクトを把握および解放します。
被験者内研究(n = 30)を実施して、これらの方法を比較しました。
調査結果は、グリッパー制御条件がタスクの完了時間、ユーザーエクスペリエンス、精神的需要、およびタスクのパフォーマンスの点で他の条件を上回ることを示しています。
したがって、将来のロボットプログラミングの効果的かつ効率的なアプローチとして有望な可能性を示しています。
https://youtu.be/83kwr8zufiqで利用可能なビデオ。

要約(オリジナル)

Conventional robot programming methods are complex and time-consuming for users. In recent years, alternative approaches such as mixed reality have been explored to address these challenges and optimize robot programming. While the findings of the mixed reality robot programming methods are convincing, most existing methods rely on gesture interaction for robot programming. Since controller-based interactions have proven to be more reliable, this paper examines three controller-based programming methods within a mixed reality scenario: 1) Classical Jogging, where the user positions the robot’s end effector using the controller’s thumbsticks, 2) Direct Control, where the controller’s position and orientation directly corresponds to the end effector’s, and 3) Gripper Control, where the controller is enhanced with a 3D-printed gripper attachment to grasp and release objects. A within-subjects study (n = 30) was conducted to compare these methods. The findings indicate that the Gripper Control condition outperforms the others in terms of task completion time, user experience, mental demand, and task performance, while also being the preferred method. Therefore, it demonstrates promising potential as an effective and efficient approach for future robot programming. Video available at https://youtu.be/83kWr8zUFIQ.

arxiv情報

著者 Maximilian Rettinger,Leander Hacker,Philipp Wolters,Gerhard Rigoll
発行日 2025-03-26 08:46:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Optimizing Robot Programming: Mixed Reality Gripper Control はコメントを受け付けていません