COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping

要約

このペーパーでは、閉塞されたロボットの把握の課題、つまり、表面衝突などの環境制約のために、望ましい把握ポーズが運動的に実行不可能な状況で把握します。
従来のロボット操作アプローチは、これらの状況で一般的に人間が一般的に使用する非摂食または両倍の戦略の複雑さと闘っています。
タスクの固有の複雑さのために、最先端の強化学習(RL)方法は不適切です。
対照的に、デモンストレーションから学ぶには、かなりの数の専門家デモを収集する必要がありますが、これはしばしば実行不可能です。
代わりに、両手が調整してオブジェクトを安定させ、方向転換する人間の操作戦略に触発されて、この課題に取り組むための二元的なロボットセットアップに焦点を当てます。
特に、2つの調整されたポリシーを活用する学習ベースのアプローチ:自己監視データセットを使用して安定化ポーズを生成し、RLLを使用して訓練された把握ポリシーを訓練する学習ベースのアプローチ、およびRL
ターゲットオブジェクトを再配分および把握します。
重要な貢献は、価値関数誘導ポリシー調整にあります。
具体的には、把握ポリシーのRLトレーニング中に、制約ポリシーの出力は、共同トレーニングされた価値関数からの勾配を通じて洗練され、両手調整とタスクのパフォーマンスが向上します。
最後に、Combo-Graspは教師と学生のポリシーの蒸留を採用して、現実世界の環境でポイントクラウドベースのポリシーを効果的に展開しています。
経験的評価は、コンボグラスが競争力のあるベースラインアプローチと比較してタスクの成功率を大幅に改善することを示しています。

要約(オリジナル)

This paper addresses the challenge of occluded robot grasping, i.e. grasping in situations where the desired grasp poses are kinematically infeasible due to environmental constraints such as surface collisions. Traditional robot manipulation approaches struggle with the complexity of non-prehensile or bimanual strategies commonly used by humans in these circumstances. State-of-the-art reinforcement learning (RL) methods are unsuitable due to the inherent complexity of the task. In contrast, learning from demonstration requires collecting a significant number of expert demonstrations, which is often infeasible. Instead, inspired by human bimanual manipulation strategies, where two hands coordinate to stabilise and reorient objects, we focus on a bimanual robotic setup to tackle this challenge. In particular, we introduce Constraint-based Manipulation for Bimanual Occluded Grasping (COMBO-Grasp), a learning-based approach which leverages two coordinated policies: a constraint policy trained using self-supervised datasets to generate stabilising poses and a grasping policy trained using RL that reorients and grasps the target object. A key contribution lies in value function-guided policy coordination. Specifically, during RL training for the grasping policy, the constraint policy’s output is refined through gradients from a jointly trained value function, improving bimanual coordination and task performance. Lastly, COMBO-Grasp employs teacher-student policy distillation to effectively deploy point cloud-based policies in real-world environments. Empirical evaluations demonstrate that COMBO-Grasp significantly improves task success rates compared to competitive baseline approaches, with successful generalisation to unseen objects in both simulated and real-world environments.

arxiv情報

著者 Jun Yamada,Alexander L. Mitchell,Jack Collins,Ingmar Posner
発行日 2025-02-14 00:15:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping はコメントを受け付けていません

DynoSAM: Open-Source Smoothing and Mapping Framework for Dynamic SLAM

要約

従来の視覚的な同時ローカリゼーションとマッピング(VSLAM)システムは、環境内の動的要素を見落とす静的シーン構造のみに焦点を当てています。
複雑なシナリオでの正確な視覚的臭気に効果的ですが、これらの方法は、移動するオブジェクトに関する重要な情報を破棄します。
この情報を動的なスラムフレームワークに組み込むことにより、動的なエンティティの動きを推定することができ、正確なローカリゼーションを確保しながらナビゲーションを強化します。
ただし、動的なスラムの基本的な定式化は、スラムパイプライン内の正確なモーション推定のための最適なアプローチに関するコンセンサスはありません。
したがって、さまざまな動的スラム最適化定式化の効率的な実装、テスト、および比較を可能にする動的スラムのオープンソースフレームワークであるDynosamを開発しました。
Dynosamは、因子グラフを使用して解決された統合最適化問題に静的および動的測定を統合し、カメラのポーズ、静的シーン、オブジェクトの動きまたはポーズ、およびオブジェクト構造の推定を同時に推定します。
多様なシミュレーションおよび実際のデータセット全体でDynosamを評価し、屋内および屋外環境で最先端のモーション推定を達成し、既存のシステムを大幅に改善します。
さらに、動的シーンの3D再構築や軌道予測など、下流のアプリケーションでDynosamユーティリティを示し、それにより、動的なオブジェクトを意識したスラムシステムを進める可能性を示します。
Dynosamは、https://github.com/acfr-rpg/dynosamでオープンソーシングされています。

要約(オリジナル)

Traditional Visual Simultaneous Localization and Mapping (vSLAM) systems focus solely on static scene structures, overlooking dynamic elements in the environment. Although effective for accurate visual odometry in complex scenarios, these methods discard crucial information about moving objects. By incorporating this information into a Dynamic SLAM framework, the motion of dynamic entities can be estimated, enhancing navigation whilst ensuring accurate localization. However, the fundamental formulation of Dynamic SLAM remains an open challenge, with no consensus on the optimal approach for accurate motion estimation within a SLAM pipeline. Therefore, we developed DynoSAM, an open-source framework for Dynamic SLAM that enables the efficient implementation, testing, and comparison of various Dynamic SLAM optimization formulations. DynoSAM integrates static and dynamic measurements into a unified optimization problem solved using factor graphs, simultaneously estimating camera poses, static scene, object motion or poses, and object structures. We evaluate DynoSAM across diverse simulated and real-world datasets, achieving state-of-the-art motion estimation in indoor and outdoor environments, with substantial improvements over existing systems. Additionally, we demonstrate DynoSAM utility in downstream applications, including 3D reconstruction of dynamic scenes and trajectory prediction, thereby showcasing potential for advancing dynamic object-aware SLAM systems. DynoSAM is open-sourced at https://github.com/ACFR-RPG/DynOSAM.

arxiv情報

著者 Jesse Morris,Yiduo Wang,Mikolaj Kliniewski,Viorela Ila
発行日 2025-02-14 01:24:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DynoSAM: Open-Source Smoothing and Mapping Framework for Dynamic SLAM はコメントを受け付けていません

DR-MPC: Deep Residual Model Predictive Control for Real-world Social Navigation

要約

ロボットは、複雑なモーションパターンを持つ人々を安全にナビゲートするにはどうすればよいですか?
シミュレーションのディープ補強学習(DRL)にはいくつかの有望がありますが、多くの事前の作業は、実際の人間の動きのニュアンスを捉えることができないシミュレーターに依存しています。
したがって、ロボットが実際の群衆ナビゲーションデータからDRLを迅速かつ安全に実行できるようにするために、深い残差モデル予測制御(DR-MPC)を提案します。
MPCとモデルフリーDRLとブレンドすることにより、DR-MPCは大規模なデータ要件と危険な初期動作のDRL課題を克服します。
DR-MPCはMPCベースのパス追跡で初期化されており、徐々に人間とより効果的に相互作用することを学びます。
学習をさらに加速するために、安全コンポーネントは分散除外状態を推定して、衝突の可能性からロボットを導きます。
シミュレーションでは、DR-MPCが従来のDRLモデルや残留DRLモデルを含む以前の作業を大幅に上回ることを示しています。
ハードウェアの実験により、私たちのアプローチにより、ロボットは4時間未満のトレーニングデータを使用してほとんどエラーでさまざまな混雑した状況をナビゲートできるようになりました。

要約(オリジナル)

How can a robot safely navigate around people with complex motion patterns? Deep Reinforcement Learning (DRL) in simulation holds some promise, but much prior work relies on simulators that fail to capture the nuances of real human motion. Thus, we propose Deep Residual Model Predictive Control (DR-MPC) to enable robots to quickly and safely perform DRL from real-world crowd navigation data. By blending MPC with model-free DRL, DR-MPC overcomes the DRL challenges of large data requirements and unsafe initial behavior. DR-MPC is initialized with MPC-based path tracking, and gradually learns to interact more effectively with humans. To further accelerate learning, a safety component estimates out-of-distribution states to guide the robot away from likely collisions. In simulation, we show that DR-MPC substantially outperforms prior work, including traditional DRL and residual DRL models. Hardware experiments show our approach successfully enables a robot to navigate a variety of crowded situations with few errors using less than 4 hours of training data.

arxiv情報

著者 James R. Han,Hugues Thomas,Jian Zhang,Nicholas Rhinehart,Timothy D. Barfoot
発行日 2025-02-14 02:14:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | DR-MPC: Deep Residual Model Predictive Control for Real-world Social Navigation はコメントを受け付けていません

SELP: Generating Safe and Efficient Task Plans for Robot Agents with Large Language Models

要約

ロボットエージェントの自然言語(NL)コマンドの理解と実行を強化する大規模な言語モデル(LLMS)の大幅な進歩にもかかわらず、特に複雑なコマンドや長期タスクの場合、エージェントがユーザー指定の制約に従うことを保証します。
この課題に対処するために、3つの重要な洞察、同等の投票、制約付きデコード、およびドメイン固有の微調整を提示します。これにより、複雑なタスクの処理におけるLLMプランナーの機能が大幅に向上します。
等価投票は、NLコマンドから複数の線形時間論的論理(LTL)式を生成およびサンプリングし、同等のLTL式をグループ化し、最終LTL式として式の多数型グループを選択することにより、一貫性を保証します。
制約付きデコードは、生成されたLTL式を使用して、計画の自己回帰推論を実施し、生成された計画がLTLに適合するようにします。
ドメイン固有の微調整は、LLMをカスタマイズして、特定のタスクドメイン内で安全で効率的な計画を作成します。
当社のアプローチであるSafe Efficive LLM Planner(SELP)は、これらの洞察を組み合わせてLLMプランナーを作成して、自信を持ってユーザーコマンドを順守する計画を生成します。
ドローンナビゲーションやロボット操作など、さまざまなロボットエージェントとタスクにわたるSELPの有効性と一般化可能性を実証します。
ドローンナビゲーションタスクの場合、SELPは、最先端のプランナーを安全レートで10.8%(つまり、NLコマンドに準拠した仕上げタスク)よりも19.8%上回ります。
ロボット操作タスクの場合、SELPは安全レートの20.4%の改善を達成します。
NL-to-LTLおよびロボットタスク計画を評価するためのデータセットは、github.com/lt-asset/selpでリリースされます。

要約(オリジナル)

Despite significant advancements in large language models (LLMs) that enhance robot agents’ understanding and execution of natural language (NL) commands, ensuring the agents adhere to user-specified constraints remains challenging, particularly for complex commands and long-horizon tasks. To address this challenge, we present three key insights, equivalence voting, constrained decoding, and domain-specific fine-tuning, which significantly enhance LLM planners’ capability in handling complex tasks. Equivalence voting ensures consistency by generating and sampling multiple Linear Temporal Logic (LTL) formulas from NL commands, grouping equivalent LTL formulas, and selecting the majority group of formulas as the final LTL formula. Constrained decoding then uses the generated LTL formula to enforce the autoregressive inference of plans, ensuring the generated plans conform to the LTL. Domain-specific fine-tuning customizes LLMs to produce safe and efficient plans within specific task domains. Our approach, Safe Efficient LLM Planner (SELP), combines these insights to create LLM planners to generate plans adhering to user commands with high confidence. We demonstrate the effectiveness and generalizability of SELP across different robot agents and tasks, including drone navigation and robot manipulation. For drone navigation tasks, SELP outperforms state-of-the-art planners by 10.8% in safety rate (i.e., finishing tasks conforming to NL commands) and by 19.8% in plan efficiency. For robot manipulation tasks, SELP achieves 20.4% improvement in safety rate. Our datasets for evaluating NL-to-LTL and robot task planning will be released in github.com/lt-asset/selp.

arxiv情報

著者 Yi Wu,Zikang Xiong,Yiran Hu,Shreyash S. Iyengar,Nan Jiang,Aniket Bera,Lin Tan,Suresh Jagannathan
発行日 2025-02-14 02:40:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.FL, cs.RO | SELP: Generating Safe and Efficient Task Plans for Robot Agents with Large Language Models はコメントを受け付けていません

Line Balancing in the Modern Garment Industry

要約

この記事では、衣服近代化のための無駄のない方法論により、インテリジェントハンガーシステムとハンガーラインがステッチプロセスに及ぼす重要な影響に焦点を当てた、現代の衣服業界内のラインバランスに関する応用研究を紹介します。
インテリジェントハンガーシステムとハンガーラインがステッチプロセスに大きな影響を与えることに焦点を当てた、現代の衣服業界でのラインバランスの適用を探ります。
それは、衣服の近代化のための無駄のない方法論の原則と一致します。
ラインバランシングテクノロジーの実装がなければ、ハンガーシステムを使用した衣服の製造プロセスは出力レートを改善することはできません。
ケーススタディは、簡単な実用的なセットアップでインテリジェントなラインバランスを実装することで、デジタル化システムとオートマトンと組み合わせた無駄のない実践を促進することを示しています。
このアプローチは、出力を強化し、進行中の蓄積された作業を減らす方法を示しています。

要約(オリジナル)

This article presents applied research on line balancing within the modern garment industry, focusing on the significant impact of intelligent hanger systems and hanger lines on the stitching process, by Lean Methodology for garment modernization. It explores the application of line balancing in the modern garment industry, focusing on the significant impact of intelligent hanger systems and hanger lines on the stitching process. It aligns with Lean Methodology principles for garment modernization. Without the implementation of line balancing technology, the garment manufacturing process using hanger systems cannot improve output rates. The case study demonstrates that implementing intelligent line balancing in a straightforward practical setup facilitates lean practices combined with a digitalization system and automaton. This approach illustrates how to enhance output and reduce accumulated work in progress.

arxiv情報

著者 Ray Wai Man Kong,Ding Ning,Theodore Ho Tin Kong
発行日 2025-02-14 02:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Line Balancing in the Modern Garment Industry はコメントを受け付けていません

Video2Policy: Scaling up Manipulation Tasks in Simulation through Internet Videos

要約

シミュレーションは、ジェネラリストのポリシーのための安価なスケーリングトレーニングデータの有望なアプローチを提供します。
多様で現実的なタスクからデータを生成するために、既存のアルゴリズムは、ロボット工学に興味がないタスクを幻覚化する可能性のある大きな言語モデル(LLM)に依存しています。
または、慎重に実際のアライメントを必要とするデジタル双子で、スケーリングが困難です。
これらの課題に対処するために、Internet RGBビデオを活用して日常の人間の行動に基づいてタスクを再構築する新しいフレームワークであるVideo2Policyを紹介します。
私たちのアプローチは、2つのフェーズで構成されています。(1)ビデオからのシミュレーションのタスク生成。
(2)コンテキスト内のLLM生成報酬機能を繰り返し利用する強化学習。
9つの異なるタスクで多様で複雑な人間の行動を描いているものから100以上のビデオを再構築することにより、Video2Policyの有効性を実証します。
私たちの方法は、スローなどの複雑で挑戦的なタスクを含む、このようなタスクに関するRLポリシーを正常にトレーニングできます。
最後に、生成されたシミュレーションデータを一般的なポリシーのトレーニングのためにスケーリングできることを示し、実際のロボットにReal2Sim2realの方法で転送できることを示します。

要約(オリジナル)

Simulation offers a promising approach for cheaply scaling training data for generalist policies. To scalably generate data from diverse and realistic tasks, existing algorithms either rely on large language models (LLMs) that may hallucinate tasks not interesting for robotics; or digital twins, which require careful real-to-sim alignment and are hard to scale. To address these challenges, we introduce Video2Policy, a novel framework that leverages internet RGB videos to reconstruct tasks based on everyday human behavior. Our approach comprises two phases: (1) task generation in simulation from videos; and (2) reinforcement learning utilizing in-context LLM-generated reward functions iteratively. We demonstrate the efficacy of Video2Policy by reconstructing over 100 videos from the Something-Something-v2 (SSv2) dataset, which depicts diverse and complex human behaviors on 9 different tasks. Our method can successfully train RL policies on such tasks, including complex and challenging tasks such as throwing. Finally, we show that the generated simulation data can be scaled up for training a general policy, and it can be transferred back to the real robot in a Real2Sim2Real way.

arxiv情報

著者 Weirui Ye,Fangchen Liu,Zheng Ding,Yang Gao,Oleh Rybkin,Pieter Abbeel
発行日 2025-02-14 03:22:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Video2Policy: Scaling up Manipulation Tasks in Simulation through Internet Videos はコメントを受け付けていません

Evaluating and Improving Graph-based Explanation Methods for Multi-Agent Coordination

要約

グラフ学習コミュニティによって開発されたグラフニューラルネットワーク(GNNS)は採用されており、マルチロボットおよびマルチエージェント学習に非常に効果的であることが示されています。
この成功した殺人に触発されて、私たちは、マルチエージェントの調整を説明するための既存のGNN説明方法の適合性を調査し、特徴付けます。
これらの方法には、チームの行動に影響を与える最も影響力のあるコミュニケーションチャネルを特定する可能性があることがわかります。
最初の分析から通知されて、GATベースのポリシーを既存のグラフベースの説明担当者により適したものにする注意エントロピー正規化用語を提案します。
直感的に、注意を最小限に抑えるエントロピーは、エージェントをインセンティブにして、最も影響力のあるエージェントまたはインパクトのあるエージェントへの注意を制限し、それにより説明者が直面する課題を緩和します。
私たちは、注意エントロピーを最小限に抑えることで、説明者が生成したサブグラフとその補体との格差を増加させることを示すことにより、理論的にはこの直感を根絶します。
3つのタスクと3つのチームサイズにわたる評価i)は、既存の説明担当者の有効性に関する洞察を提供し、ii)提案された正規化により、タスクのパフォーマンスを犠牲にすることなく説明の品質が一貫して改善されることが示されています。

要約(オリジナル)

Graph Neural Networks (GNNs), developed by the graph learning community, have been adopted and shown to be highly effective in multi-robot and multi-agent learning. Inspired by this successful cross-pollination, we investigate and characterize the suitability of existing GNN explanation methods for explaining multi-agent coordination. We find that these methods have the potential to identify the most-influential communication channels that impact the team’s behavior. Informed by our initial analyses, we propose an attention entropy regularization term that renders GAT-based policies more amenable to existing graph-based explainers. Intuitively, minimizing attention entropy incentivizes agents to limit their attention to the most influential or impactful agents, thereby easing the challenge faced by the explainer. We theoretically ground this intuition by showing that minimizing attention entropy increases the disparity between the explainer-generated subgraph and its complement. Evaluations across three tasks and three team sizes i) provides insights into the effectiveness of existing explainers, and ii) demonstrates that our proposed regularization consistently improves explanation quality without sacrificing task performance.

arxiv情報

著者 Siva Kailas,Shalin Jain,Harish Ravichandar
発行日 2025-02-14 03:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO | Evaluating and Improving Graph-based Explanation Methods for Multi-Agent Coordination はコメントを受け付けていません

Deployment-friendly Lane-changing Intention Prediction Powered by Brain-inspired Spiking Neural Networks

要約

周囲の車両の車線変更意図の正確かつリアルタイムの予測は、オープンワールドシナリオに安全で効率的な自律駆動システムを展開する上で重要な課題です。
既存の高性能な方法は、計算コストが高い、トレーニング時間が長く、過度のメモリ要件があるため、展開が困難です。
ここでは、脳に触発されたスパイクニューラルネットワーク(SNN)に基づいた効率的な車線変更意図予測アプローチを提案します。
SNNのイベント駆動型の性質を活用することにより、提案されたアプローチにより、車両の状態をより効率的にエンコードすることができます。
HighDおよびNGSIMデータセットで実施された比較実験は、この方法がトレーニング効率を大幅に改善し、同等の予測精度を維持しながら展開コストを削減することを示しています。
特に、ベースラインと比較して、当社のアプローチにより、トレーニング時間が75%減少し、メモリの使用量が99.9%短縮されます。
これらの結果は、車線を変える予測における方法の効率と信頼性を検証し、安全で効率的な自律駆動システムの可能性を強調し、トレーニング時間の短縮、メモリ使用量の削減、より速い推論など、展開に大きな利点を提供します。

要約(オリジナル)

Accurate and real-time prediction of surrounding vehicles’ lane-changing intentions is a critical challenge in deploying safe and efficient autonomous driving systems in open-world scenarios. Existing high-performing methods remain hard to deploy due to their high computational cost, long training times, and excessive memory requirements. Here, we propose an efficient lane-changing intention prediction approach based on brain-inspired Spiking Neural Networks (SNN). By leveraging the event-driven nature of SNN, the proposed approach enables us to encode the vehicle’s states in a more efficient manner. Comparison experiments conducted on HighD and NGSIM datasets demonstrate that our method significantly improves training efficiency and reduces deployment costs while maintaining comparable prediction accuracy. Particularly, compared to the baseline, our approach reduces training time by 75% and memory usage by 99.9%. These results validate the efficiency and reliability of our method in lane-changing predictions, highlighting its potential for safe and efficient autonomous driving systems while offering significant advantages in deployment, including reduced training time, lower memory usage, and faster inference.

arxiv情報

著者 Shuqi Shen,Junjie Yang,Hui Zhong,Qiming Zhang,Hongliang Lu,Hai Yang
発行日 2025-02-14 04:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Deployment-friendly Lane-changing Intention Prediction Powered by Brain-inspired Spiking Neural Networks はコメントを受け付けていません

Dual Control for Interactive Autonomous Merging with Model Predictive Diffusion

要約

インタラクティブな意思決定は、自律運転などのアプリケーションでは不可欠です。このアプリケーションでは、エージェントがリアルタイムで計画しながら近くの人間のドライバーの行動を推測する必要があります。
人間の行動の正確な推論には、分離された予測ではなく継続的な相互作用が必要であるため、従来の予測からのフレームワークはしばしば不十分または非効率的です。
これに対処するために、予測された信念分布を厳密に導き出す積極的な学習フレームワークを提案します。
さらに、複雑で非凸の高速道路の合併シナリオを通じて実証された、オンラインの後退地平線制御の問題に合わせた新しいモデルベースの拡散ソルバーを紹介します。
私たちのアプローチは、以前の高忠実度のデュアルコントロールシミュレーションをハードウェア実験に拡張します。これは、https://youtu.be/q_jdzuopgl4で表示され、人間駆動型のトラフィックシナリオの動作推論を検証し、理想化されたモデルを超えて移動します。
結果は、不確実性の下での適応計画の改善を示しており、実際のアプリケーションのインタラクティブな意思決定の分野を進めています。

要約(オリジナル)

Interactive decision-making is essential in applications such as autonomous driving, where the agent must infer the behavior of nearby human drivers while planning in real-time. Traditional predict-then-act frameworks are often insufficient or inefficient because accurate inference of human behavior requires a continuous interaction rather than isolated prediction. To address this, we propose an active learning framework in which we rigorously derive predicted belief distributions. Additionally, we introduce a novel model-based diffusion solver tailored for online receding horizon control problems, demonstrated through a complex, non-convex highway merging scenario. Our approach extends previous high-fidelity dual control simulations to hardware experiments, which may be viewed at https://youtu.be/Q_JdZuopGL4, and verifies behavior inference in human-driven traffic scenarios, moving beyond idealized models. The results show improvements in adaptive planning under uncertainty, advancing the field of interactive decision-making for real-world applications.

arxiv情報

著者 Jacob Knaup,Jovin D’sa,Behdad Chalaki,Hossein Nourkhiz Mahjoub,Ehsan Moradi-Pari,Panagiotis Tsiotras
発行日 2025-02-14 05:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | Dual Control for Interactive Autonomous Merging with Model Predictive Diffusion はコメントを受け付けていません

Global-Local Interface for On-Demand Teleoperation

要約

遠隔操作は、人間のロボットインターフェースの重要な方法であり、産業および構造化されていない環境でロボットアプリケーションを有効にするための重要な可能性を秘めています。
既存のテレオ操作方法には、柔軟性、ワークスペースの範囲、精度に明確な強みと制限があります。
これらの利点を融合するために、Global-Local(G-L)Teleoperation Interfaceを紹介します。
このインターフェイスは、ロボットのテレオ操作をグローバルな動作に切り離します。これにより、ロボットの動き範囲と直感性、および局所的な動作が保証され、人間のオペレーターの器用さと素晴らしいタスクを実行する能力が向上します。
G-Lインターフェイスは、ピックアンドプレイスなどの従来のタスクだけでなく、微妙な操作や大規模な動きにも挑戦するために、効率的なテレオ操作を可能にします。
G-Lインターフェイスに基づいて、さまざまなリモートコントロールデバイスを備えた単一腕とデュアルアームテレオ操作システムを構築し、大きなモーション範囲、正確な操作、または器用なエンドエフェクター制御を必要とするタスクを実証しました。
提案されたインターフェイスのユーザーフレンドリー、正確性、および一般化可能性を大幅に検証しました。

要約(オリジナル)

Teleoperation is a critical method for human-robot interface, holds significant potential for enabling robotic applications in industrial and unstructured environments. Existing teleoperation methods have distinct strengths and limitations in flexibility, range of workspace and precision. To fuse these advantages, we introduce the Global-Local (G-L) Teleoperation Interface. This interface decouples robotic teleoperation into global behavior, which ensures the robot motion range and intuitiveness, and local behavior, which enhances human operator’s dexterity and capability for performing fine tasks. The G-L interface enables efficient teleoperation not only for conventional tasks like pick-and-place, but also for challenging fine manipulation and large-scale movements. Based on the G-L interface, we constructed a single-arm and a dual-arm teleoperation system with different remote control devices, then demonstrated tasks requiring large motion range, precise manipulation or dexterous end-effector control. Extensive experiments validated the user-friendliness, accuracy, and generalizability of the proposed interface.

arxiv情報

著者 Jianshu Zhou,Boyuan Liang,Junda Huang,Ian Zhang,Pieter Abbeel,Masayoshi Tomizuka
発行日 2025-02-14 07:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Global-Local Interface for On-Demand Teleoperation はコメントを受け付けていません