Mr. DETR: Instructive Multi-Route Training for Detection Transformers

要約

既存の方法は、補助的な1対多くの割り当てを組み込むことにより、検出トランスのトレーニングを強化します。
この作業では、モデルをマルチタスクフレームワークとして扱い、同時に1対1の予測を実行します。
これら2つのトレーニングターゲットにわたって、変圧器デコーダーの各コンポーネントの役割を調査します。
私たちの経験的結果は、デコーダー内の独立したコンポーネントは、他のコンポーネントが共有されている場合でも、両方のターゲットを同時に効果的に学習できることを示しています。
この発見は、マルチルートトレーニングメカニズムを提案することにつながり、1対1の予測のための主要なルートと、1対1の予測のための2つの補助トレーニングルートを特徴としています。
私たちは、1対多くの予測のためにオブジェクトクエリを動的かつ柔軟に導く、新しい有益な自己触たちでトレーニングメカニズムを強化します。
補助ルートは推論中に削除され、モデルアーキテクチャや推論コストに影響を与えないようにします。
さまざまなベースラインで広範な実験を行い、図1に示すように一貫した改善を達成します。プロジェクトページ:https://visual-ai.github.io/mrdetr

要約(オリジナル)

Existing methods enhance the training of detection transformers by incorporating an auxiliary one-to-many assignment. In this work, we treat the model as a multi-task framework, simultaneously performing one-to-one and one-to-many predictions. We investigate the roles of each component in the transformer decoder across these two training targets, including self-attention, cross-attention, and feed-forward network. Our empirical results demonstrate that any independent component in the decoder can effectively learn both targets simultaneously, even when other components are shared. This finding leads us to propose a multi-route training mechanism, featuring a primary route for one-to-one prediction and two auxiliary training routes for one-to-many prediction. We enhance the training mechanism with a novel instructive self-attention that dynamically and flexibly guides object queries for one-to-many prediction. The auxiliary routes are removed during inference, ensuring no impact on model architecture or inference cost. We conduct extensive experiments on various baselines, achieving consistent improvements as shown in Figure 1. Project page: https://visual-ai.github.io/mrdetr

arxiv情報

著者 Chang-Bin Zhang,Yujie Zhong,Kai Han
発行日 2025-04-02 05:38:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mr. DETR: Instructive Multi-Route Training for Detection Transformers はコメントを受け付けていません

Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning

要約

表現力豊かなロボットの動作は、社会環境でのロボットを広く受け入れるために不可欠です。
学習した脚の移動コントローラーの最近の進歩により、より動的で多用途のロボット動作が可能になりました。
ただし、さまざまなシナリオで異なるユーザーとのやり取りの最適な動作を決定することは依然として課題です。
現在の方法は、効率的ですが低解像度である自然言語の入力に依存するか、人間の好みから学習します。これは、高解像度ですが、サンプルは非効率的です。
このペーパーでは、優先学習の精度とともに、事前に訓練されたLLMによって生成されたプライアーを活用する新しいアプローチを紹介します。
言語誘導選好学習(LGPL)と呼ばれる私たちの方法は、LLMSを使用して初期行動サンプルを生成し、その後、優先ベースのフィードバックを通じて改良され、人間の期待に密接に整合する行動を学習します。
私たちの中心的な洞察は、LLMがサンプリングプロセスを優先学習のためにガイドし、サンプル効率の大幅な改善につながることです。
LGPLは、わずか4つのクエリで正確で表現力のある動作を迅速に学習できることを実証し、純粋に言語パラメーター化されたモデルと従来の好みの学習アプローチの両方を上回ります。
ビデオ付きウェブサイト:https://lgpl-gaits.github.io/

要約(オリジナル)

Expressive robotic behavior is essential for the widespread acceptance of robots in social environments. Recent advancements in learned legged locomotion controllers have enabled more dynamic and versatile robot behaviors. However, determining the optimal behavior for interactions with different users across varied scenarios remains a challenge. Current methods either rely on natural language input, which is efficient but low-resolution, or learn from human preferences, which, although high-resolution, is sample inefficient. This paper introduces a novel approach that leverages priors generated by pre-trained LLMs alongside the precision of preference learning. Our method, termed Language-Guided Preference Learning (LGPL), uses LLMs to generate initial behavior samples, which are then refined through preference-based feedback to learn behaviors that closely align with human expectations. Our core insight is that LLMs can guide the sampling process for preference learning, leading to a substantial improvement in sample efficiency. We demonstrate that LGPL can quickly learn accurate and expressive behaviors with as few as four queries, outperforming both purely language-parameterized models and traditional preference learning approaches. Website with videos: https://lgpl-gaits.github.io/

arxiv情報

著者 Jaden Clark,Joey Hejna,Dorsa Sadigh
発行日 2025-03-31 23:24:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning はコメントを受け付けていません

Whole-Body Dynamic Throwing with Legged Manipulators

要約

足のあるロボットで投げるには、オブジェクトの操作と移動の正確な調整が含まれます。これは、高度な現実世界の相互作用に重要です。
ほとんどの研究では、操作または移動のいずれかに焦点を当てており、両方を必要とするタスクの調査が最小限に抑えられています。
この作業は、脚のマニピュレーターを腕のみのスローよりも利用できるすべてのモーター(フルボディ)を活用することを調査しています。
タスクを深い強化学習(RL)目的としてフレーム化し、ユーザーコマンドのターゲット宛先とロボットの安定性に向けてスローの精度を最適化します。
ヒューマノイドとシミュレーションで武装した四足動物の評価は、身体の勢い、カウンターバランス、および全身のダイナミクスを活用することにより、全身投げが範囲、精度、および安定性が向上することを示しています。
最適化された適応カリキュラムを導入して、スパースリワード条件での効率的な学習のための調整されたRL環境セットアップとともに、スローの精度と安定性のバランスをとります。
以前の作業とは異なり、私たちのアプローチは3Dスペースのターゲットを一般化します。
学習したコントローラーをシミュレーションから実際のヒューマノイドプラットフォームに転送します。

要約(オリジナル)

Throwing with a legged robot involves precise coordination of object manipulation and locomotion – crucial for advanced real-world interactions. Most research focuses on either manipulation or locomotion, with minimal exploration of tasks requiring both. This work investigates leveraging all available motors (full-body) over arm-only throwing in legged manipulators. We frame the task as a deep reinforcement learning (RL) objective, optimising throwing accuracy towards any user-commanded target destination and the robot’s stability. Evaluations on a humanoid and an armed quadruped in simulation show that full-body throwing improves range, accuracy, and stability by exploiting body momentum, counter-balancing, and full-body dynamics. We introduce an optimised adaptive curriculum to balance throwing accuracy and stability, along with a tailored RL environment setup for efficient learning in sparse-reward conditions. Unlike prior work, our approach generalises to targets in 3D space. We transfer our learned controllers from simulation to a real humanoid platform.

arxiv情報

著者 Humphrey Munn,Brendan Tidd,Peter Böhm,Marcus Gallagher,David Howard
発行日 2025-04-01 02:01:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Whole-Body Dynamic Throwing with Legged Manipulators はコメントを受け付けていません

RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception

要約

協同知覚は、複数のエージェントにわたるデータ共有と融合のための車両(V2X)通信を活用することにより、単一エージェントシステムの認識制限を克服するための最適なソリューションを提供します。
ただし、既存のアプローチのほとんどは、単一モダリティデータ交換に焦点を当てており、エージェント間の均質および不​​均一な融合の両方の可能性を制限しています。
これは、エージェントごとにマルチモダリティデータを利用する機会を見落とし、システムのパフォーマンスを制限します。
自動車業界では、メーカーは多様なセンサー構成を採用し、エージェント間のセンサーモダリティの不均一な組み合わせをもたらします。
最適なパフォーマンスのためにあらゆる可能なデータソースの可能性を活用するために、堅牢なライダーとカメラのクロスモダリティ融合モジュール、ラジアン接着剤(RG-ATTN)を設計します。
また、協調的な認識を実施するために、ペイントツーパズル(PTP)と共同スケッチングコーカラー(COS-COCO)という2つの異なるアーキテクチャを提案します。
PTPは、最大の精密パフォーマンスを目的とし、クロスエージェント融合を単一のインスタンスに制限することにより、より小さなデータパケットサイズを達成しますが、すべての参加者にLIDARを装備する必要があります。
対照的に、COS-CoCoは、任意の構成LIDARのみ、カメラのみ、またはLidar-Cameraとエージェントをサポートし、より一般化能力を示します。
私たちのアプローチは、実際の協同組合の認識データセットとシミュレートされた両方の協同組合の両方で、最先端の(SOTA)パフォーマンスを実現します。
コードはGitHubで利用可能になりました。

要約(オリジナル)

Cooperative perception offers an optimal solution to overcome the perception limitations of single-agent systems by leveraging Vehicle-to-Everything (V2X) communication for data sharing and fusion across multiple agents. However, most existing approaches focus on single-modality data exchange, limiting the potential of both homogeneous and heterogeneous fusion across agents. This overlooks the opportunity to utilize multi-modality data per agent, restricting the system’s performance. In the automotive industry, manufacturers adopt diverse sensor configurations, resulting in heterogeneous combinations of sensor modalities across agents. To harness the potential of every possible data source for optimal performance, we design a robust LiDAR and camera cross-modality fusion module, Radian-Glue-Attention (RG-Attn), applicable to both intra-agent cross-modality fusion and inter-agent cross-modality fusion scenarios, owing to the convenient coordinate conversion by transformation matrix and the unified sampling/inversion mechanism. We also propose two different architectures, named Paint-To-Puzzle (PTP) and Co-Sketching-Co-Coloring (CoS-CoCo), for conducting cooperative perception. PTP aims for maximum precision performance and achieves smaller data packet size by limiting cross-agent fusion to a single instance, but requiring all participants to be equipped with LiDAR. In contrast, CoS-CoCo supports agents with any configuration-LiDAR-only, camera-only, or LiDAR-camera-both, presenting more generalization ability. Our approach achieves state-of-the-art (SOTA) performance on both real and simulated cooperative perception datasets. The code is now available at GitHub.

arxiv情報

著者 Lantao Li,Kang Yang,Wenqi Zhang,Xiaoxue Wang,Chen Sun
発行日 2025-04-01 02:05:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NI, cs.RO, eess.IV | RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception はコメントを受け付けていません

Scalable Real2Sim: Physics-Aware Asset Generation Via Robotic Pick-and-Place Setups

要約

現実世界の認識からオブジェクトのダイナミクスをシミュレートすることは、デジタル双子やロボット操作に大きな期待を示していますが、多くの場合、労働集約的な測定と専門知識を必要とします。
ロボットの相互作用を通じて、実際のオブジェクトのシミュレーション対応資産を生成する完全に自動化されたReal2Simパイプラインを提示します。
ロボットのジョイントトルクセンサーと外部カメラのみを使用して、パイプラインは視覚ジオメトリ、衝突ジオメトリ、および慣性パラメーターなどの物理的特性を識別します。
私たちのアプローチでは、アルファ透過トレーニングを採用しながら前景閉塞を明示的に識別し、背景帯域を描写することにより、測光再構成技術(例:nerf、gaussianスプラッティング)から高品質のオブジェクト中心のメッシュを抽出するための一般的な方法を紹介します。
広範な実験を通じて完全なパイプラインを検証し、多様なオブジェクト全体でその有効性を実証します。
手動介入または環境の変更の必要性を排除することにより、当社のパイプラインは既存のピックアンドプレイスセットアップに直接統合し、スケーラブルで効率的なデータセット作成を可能にします。
プロジェクトページ(コードとデータを使用):https://scalable-real2sim.github.io/。

要約(オリジナル)

Simulating object dynamics from real-world perception shows great promise for digital twins and robotic manipulation but often demands labor-intensive measurements and expertise. We present a fully automated Real2Sim pipeline that generates simulation-ready assets for real-world objects through robotic interaction. Using only a robot’s joint torque sensors and an external camera, the pipeline identifies visual geometry, collision geometry, and physical properties such as inertial parameters. Our approach introduces a general method for extracting high-quality, object-centric meshes from photometric reconstruction techniques (e.g., NeRF, Gaussian Splatting) by employing alpha-transparent training while explicitly distinguishing foreground occlusions from background subtraction. We validate the full pipeline through extensive experiments, demonstrating its effectiveness across diverse objects. By eliminating the need for manual intervention or environment modifications, our pipeline can be integrated directly into existing pick-and-place setups, enabling scalable and efficient dataset creation. Project page (with code and data): https://scalable-real2sim.github.io/.

arxiv情報

著者 Nicholas Pfaff,Evelyn Fu,Jeremy Binagia,Phillip Isola,Russ Tedrake
発行日 2025-04-01 03:01:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Scalable Real2Sim: Physics-Aware Asset Generation Via Robotic Pick-and-Place Setups はコメントを受け付けていません

Temporal and Semantic Evaluation Metrics for Foundation Models in Post-Hoc Analysis of Robotic Sub-tasks

要約

タスクとモーションプランニング(TAMP)の最近の研究は、質の高いラベル付きデータを使用した言語監視ロボットの軌跡に関するトレーニング制御ポリシーがエージェントタスクの成功率を著しく改善することを示しています。
ただし、そのようなデータの希少性は、これらの方法を一般的なユースケースに拡張することに重大なハードルを示しています。
この懸念に対処するために、大規模な言語モデル(LLMS)とビジョン言語モデル(VLM)の両方を含むファンデーションモデル(FMS)の最近のプロンプト戦略を活用することにより、軌道データを時間的に境界ベースの記述サブタスクに分解する自動化されたフレームワークを提示します。
私たちのフレームワークは、完全な軌跡を構成する低レベルのサブタスクの時間ベースと言語ベースの説明を提供します。
自動ラベル付けフレームワークの品質を厳密に評価するために、アルゴリズムの類似性を提供して、2つの新しいメトリック、時間的類似性とセマンティックな類似性を生成します。
メトリックは、2つのサブタスク分解、つまりFMサブタスク分解予測とグラウンドトゥルースサブタスク分解の間の言語説明の時間的アライメントとセマンティックな忠実度を測定します。
複数のロボット環境のランダム化ベースラインの30%と比較して、一時的な類似性とセマンティックの類似性のスコアを90%を超えて提示し、提案されたフレームワークの有効性を示しています。
私たちの結果により、ロボットタンプを改善するために、多様で大規模な言語監視データセットの構築が可能になります。

要約(オリジナル)

Recent works in Task and Motion Planning (TAMP) show that training control policies on language-supervised robot trajectories with quality labeled data markedly improves agent task success rates. However, the scarcity of such data presents a significant hurdle to extending these methods to general use cases. To address this concern, we present an automated framework to decompose trajectory data into temporally bounded and natural language-based descriptive sub-tasks by leveraging recent prompting strategies for Foundation Models (FMs) including both Large Language Models (LLMs) and Vision Language Models (VLMs). Our framework provides both time-based and language-based descriptions for lower-level sub-tasks that comprise full trajectories. To rigorously evaluate the quality of our automatic labeling framework, we contribute an algorithm SIMILARITY to produce two novel metrics, temporal similarity and semantic similarity. The metrics measure the temporal alignment and semantic fidelity of language descriptions between two sub-task decompositions, namely an FM sub-task decomposition prediction and a ground-truth sub-task decomposition. We present scores for temporal similarity and semantic similarity above 90%, compared to 30% of a randomized baseline, for multiple robotic environments, demonstrating the effectiveness of our proposed framework. Our results enable building diverse, large-scale, language-supervised datasets for improved robotic TAMP.

arxiv情報

著者 Jonathan Salfity,Selma Wanna,Minkyu Choi,Mitch Pryor
発行日 2025-04-01 03:50:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Temporal and Semantic Evaluation Metrics for Foundation Models in Post-Hoc Analysis of Robotic Sub-tasks はコメントを受け付けていません

AVOCADO: Adaptive Optimal Collision Avoidance driven by Opinion

要約

環境内の他のエージェントがどのように協力的であるかをロボットが知らない場合、ホロノミックロボットの衝突回避に対処するための新しいナビゲーションアプローチであるアボカド(Adaptive Optimal Collision Esinasance)を提示します。
アボカドは、最適な相互衝突回避方法に似た速度障害物(VO)の定式化から出発します。
ただし、相互関係を想定する代わりに、他のロボットやエージェントの協力レベルにリアルタイムで適応するための適応制御の問題を提起します。
これは、センサーの観察のみに依存する新しい非線形意見ダイナミクスデザインによって達成されます。
副産物として、意見のダイナミクス定式化からツールを活用して、通常、VOベースのプランナーに苦しむ幾何学的に対称的なシナリオのデッドロックを自然に回避します。
広範な数値シミュレーションは、アボカドが成功率、目標までの時間、計算時間の観点から、混合協同/非協同組合ナビゲーション環境の既存のモーションプランナーを上回ることを示しています。
さらに、アボカドが他のロボットや人間と混雑した環境での衝突を回避できることを確認する複数の実際の実験を実施します。

要約(オリジナル)

We present AVOCADO (AdaptiVe Optimal Collision Avoidance Driven by Opinion), a novel navigation approach to address holonomic robot collision avoidance when the robot does not know how cooperative the other agents in the environment are. AVOCADO departs from a Velocity Obstacle’s (VO) formulation akin to the Optimal Reciprocal Collision Avoidance method. However, instead of assuming reciprocity, it poses an adaptive control problem to adapt to the cooperation level of other robots and agents in real time. This is achieved through a novel nonlinear opinion dynamics design that relies solely on sensor observations. As a by-product, we leverage tools from the opinion dynamics formulation to naturally avoid the deadlocks in geometrically symmetric scenarios that typically suffer VO-based planners. Extensive numerical simulations show that AVOCADO surpasses existing motion planners in mixed cooperative/non-cooperative navigation environments in terms of success rate, time to goal and computational time. In addition, we conduct multiple real experiments that verify that AVOCADO is able to avoid collisions in environments crowded with other robots and humans.

arxiv情報

著者 Diego Martinez-Baselga,Eduardo Sebastián,Eduardo Montijano,Luis Riazuelo,Carlos Sagüés,Luis Montano
発行日 2025-04-01 13:50:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | AVOCADO: Adaptive Optimal Collision Avoidance driven by Opinion はコメントを受け付けていません

A formal implementation of Behavior Trees to act in robotics

要約

行動ツリー(BT)は、自律的なロボットシステムの作用コンポーネントとして非常に人気があります。
これらのBTが実行される間にランタイム検証と同様に、BTで書かれたプログラムの検証を実行できるようにする正式な言語にそれらを変換することにより、BTに正式なセマンティクスを定義することを提案します。
これにより、BTプログラマーが正式な言語を習得することを要求することなく、BTの最も貴重な機能を侵害することなく、BT正確性を正式に検証することができます。モジュール性、柔軟性、再利用性です。
使用する正式なフレームワークを紹介します。Fiacre、その言語、および生成されたTTSモデル。
Tina、そのモデルチェックツールとHippo、ランタイム検証エンジン。
次に、BTからFiacreへの翻訳が自動的にどのように行われるか、オフラインで確認できる正式なLTLおよびCTLプロパティのタイプ、および通常のBTエンジンの代わりにオンラインで正式なモデルを実行する方法を示します。
2つのロボットアプリケーションでアプローチを説明し、状態変数、評価ノード、ノード評価結果、およびFIACRE正式なフレームワークで利用可能な他の機能の利点(時間など)でBTをどのように拡張できるかを示します。

要約(オリジナル)

Behavior Trees (BT) are becoming quite popular as an Acting component of autonomous robotic systems. We propose to define a formal semantics to BT by translating them to a formal language which enables us to perform verification of programs written with BT, as well as runtime verification while these BT execute. This allows us to formally verify BT correctness without requiring BT programmers to master formal languages and without compromising BT most valuable features: modularity, flexibility and reusability. We present the formal framework we use: Fiacre, its language and the produced TTS model; Tina, its model checking tools and Hippo, its runtime verification engine. We then show how the translation from BT to Fiacre is automatically done, the type of formal LTL and CTL properties we can check offline and how to execute the formal model online in place of a regular BT engine. We illustrate our approach on two robotics applications, and show how BT can be extended with state variables, eval nodes, node evaluation results and benefit of other features available in the Fiacre formal framework (e.g., time).

arxiv情報

著者 Felix Ingrand
発行日 2025-04-01 13:51:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A formal implementation of Behavior Trees to act in robotics はコメントを受け付けていません

A Digital Twin for Telesurgery under Intermittent Communication

要約

遠隔園は、専門的なリソースに即座にアクセスすることなく、専門家の外科医から地域にサービスを提供する効果的な方法です。
ただし、農村地区や戦場などのこれらの分野の多くは、コミュニケーション、特に潜在的および断続的なコミュニケーション停止のさまざまな問題の影響を受ける可能性があります。
この課題は、シミュレーションが現実世界のロボットハードウェアと外科的環境を反映する外科システムにデジタルツインの使用を動機付けています。
その後、外科医はコミュニケーションの停止中にデジタルツインと対話し、その後、コミュニケーションを再確立する際に実際のロボットの回復戦略が続きます。
このペーパーでは、Da Vinci Surgical Robot用のデジタルツインを構築します。バッファリングおよびリプレイ戦略により、ベースラインと比較した場合の平均タスク完了時間を23%削減します。
関連するコードは、https://github.com/lcsr-ciis/dvrk_digital_twin_teleoperationにあります。

要約(オリジナル)

Telesurgery is an effective way to deliver service from expert surgeons to areas without immediate access to specialized resources. However, many of these areas, such as rural districts or battlefields, might be subject to different problems in communication, especially latency and intermittent periods of communication outage. This challenge motivates the use of a digital twin for the surgical system, where a simulation would mirror the robot hardware and surgical environment in the real world. The surgeon would then be able to interact with the digital twin during communication outage, followed by a recovery strategy on the real robot upon reestablishing communication. This paper builds the digital twin for the da Vinci surgical robot, with a buffering and replay strategy that reduces the mean task completion time by 23% when compared to the baseline, for a peg transfer task subject to intermittent communication outage. The relevant code can be found here: https://github.com/LCSR-CIIS/dvrk_digital_twin_teleoperation.

arxiv情報

著者 Junxiang Wang,Juan Antonio Barragan,Hisashi Ishida,Jingkai Guo,Yu-Chun Ku,Peter Kazanzides
発行日 2025-04-01 15:17:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Digital Twin for Telesurgery under Intermittent Communication はコメントを受け付けていません

TelePreview: A User-Friendly Teleoperation System with Virtual Arm Assistance for Enhanced Effectiveness

要約

テレオ操作は、ロボットデータを収集するための効果的な方法を提供します。これは、デモンストレーションから学ぶために重要です。
この分野では、テレオ操作はいくつかの重要な課題に直面しています。新しいユーザーにとってユーザーフレンドリー、安全保証、さまざまなプラットフォームでの移転可能性です。
ロボットを訓練するためにテレオ操作によって実際のロボットの器用な操作データを収集することは、人間とロボットの手の形態学的な違いにより、多様なタスクで印象的な結果を示していますが、新しいユーザーがアクションマッピングを理解するのは難しいだけでなく、運用中の潜在的な安全性の懸念を引き起こします。
これらの制限に対処するために、Telepreviewを紹介します。
このテレオ操作システムは、人間のユーザー入力に基づいたロボットアクションに関するリアルタイムの視覚的フィードバックを提供し、合計ハードウェアコストは1,000ドル未満です。
Telepreviewを使用すると、ユーザーの次の動きの結果を表す仮想ロボットをユーザーに表示できます。
コマンドの視覚化と実際の実行を柔軟に切り替えることを可能にすることにより、このシステムは新しいユーザーが迅速かつ安全に実証する方法を学ぶのに役立ちます。
5つのタスクで他のテレオ操作システムよりも優れていることを実証し、その使いやすさを強調し、多様なロボットプラットフォーム全体でその簡単な展開を強調しています。
当社のウェブサイトhttps://nus-lins-lab.github.io/telepreview-web/でコードと展開ドキュメントをリリースします。

要約(オリジナル)

Teleoperation provides an effective way to collect robot data, which is crucial for learning from demonstrations. In this field, teleoperation faces several key challenges: user-friendliness for new users, safety assurance, and transferability across different platforms. While collecting real robot dexterous manipulation data by teleoperation to train robots has shown impressive results on diverse tasks, due to the morphological differences between human and robot hands, it is not only hard for new users to understand the action mapping but also raises potential safety concerns during operation. To address these limitations, we introduce TelePreview. This teleoperation system offers real-time visual feedback on robot actions based on human user inputs, with a total hardware cost of less than $1,000. TelePreview allows the user to see a virtual robot that represents the outcome of the user’s next movement. By enabling flexible switching between command visualization and actual execution, this system helps new users learn how to demonstrate quickly and safely. We demonstrate that it outperforms other teleoperation systems across five tasks, emphasize its ease of use, and highlight its straightforward deployment across diverse robotic platforms. We release our code and a deployment document on our website https://nus-lins-lab.github.io/telepreview-web/.

arxiv情報

著者 Jingxiang Guo,Jiayu Luo,Zhenyu Wei,Yiwen Hou,Zhixuan Xu,Xiaoyi Lin,Chongkai Gao,Lin Shao
発行日 2025-04-01 16:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | TelePreview: A User-Friendly Teleoperation System with Virtual Arm Assistance for Enhanced Effectiveness はコメントを受け付けていません