GarmentPile: Point-Level Visual Affordance Guided Retrieval and Adaptation for Cluttered Garments Manipulation

要約

散らかった衣服の操作は、衣服の複雑で変形可能な性質と複雑な衣服関係のために大きな課題をもたらします。
単一のガリメント操作とは異なり、散らかったシナリオでは、衣服の清潔さと操作の安定性を維持しながら、複雑な衣服の絡み合いと相互作用を管理する必要があります。
これらの要求に対処するために、衣服の幾何学、構造、およびオブジェクト間関係を認識しながら、複雑な空間とマルチモーダル操作候補をモデル化する密な表現、密な表現を学ぶことを提案します。
さらに、いくつかの非常に絡み合ったクラッターで衣服を直接回収することは困難であるため、学んだアフォーダンスに導かれた適応モジュールを導入し、操作に妥当な高度に装飾された衣服を再編成します。
私たちのフレームワークは、シミュレーションと現実世界の両方で、多様な衣服の種類とパイル構成を特徴とする環境にわたる有効性を示しています。
プロジェクトページ:https://garmentpile.github.io/。

要約(オリジナル)

Cluttered garments manipulation poses significant challenges due to the complex, deformable nature of garments and intricate garment relations. Unlike single-garment manipulation, cluttered scenarios require managing complex garment entanglements and interactions, while maintaining garment cleanliness and manipulation stability. To address these demands, we propose to learn point-level affordance, the dense representation modeling the complex space and multi-modal manipulation candidates, while being aware of garment geometry, structure, and inter-object relations. Additionally, as it is difficult to directly retrieve a garment in some extremely entangled clutters, we introduce an adaptation module, guided by learned affordance, to reorganize highly-entangled garments into states plausible for manipulation. Our framework demonstrates effectiveness over environments featuring diverse garment types and pile configurations in both simulation and the real world. Project page: https://garmentpile.github.io/.

arxiv情報

著者 Ruihai Wu,Ziyu Zhu,Yuran Wang,Yue Chen,Jiarui Wang,Hao Dong
発行日 2025-03-12 10:39:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GarmentPile: Point-Level Visual Affordance Guided Retrieval and Adaptation for Cluttered Garments Manipulation はコメントを受け付けていません

MonoSLAM: Robust Monocular SLAM with Global Structure Optimization

要約

このペーパーでは、正確なカメラポーズの推定とマッピングのために、ポイント、ライン、および消失点機能を同時に利用する堅牢な単眼の視覚スラムシステムを紹介します。
従来のポイントベースのシステムがしばしば視覚的特徴が不十分であるために失敗することが多い低テクスチャ環境で信頼できるローカリゼーションを達成するという重要な課題に対処するために、システムの堅牢性と精度のパフォーマンスを改善するために、グローバルプリミティブ構造情報を活用する新しいアプローチを導入します。
私たちの重要な革新は、ライン機能から消失点を構築し、世界座標系にグローバルなプリミティブを構築するための加重融合戦略を提案することにあります。
この戦略は、複数のフレームを非重複領域に関連付け、マルチフレームリプジェクションエラーの最適化を策定し、テクスチャスカースシナリオの追跡精度を大幅に改善します。
さまざまなデータセットでの評価は、当社のシステムが、特に困難な環境で、軌道精度の最先端の方法よりも優れていることを示しています。

要約(オリジナル)

This paper presents a robust monocular visual SLAM system that simultaneously utilizes point, line, and vanishing point features for accurate camera pose estimation and mapping. To address the critical challenge of achieving reliable localization in low-texture environments, where traditional point-based systems often fail due to insufficient visual features, we introduce a novel approach leveraging Global Primitives structural information to improve the system’s robustness and accuracy performance. Our key innovation lies in constructing vanishing points from line features and proposing a weighted fusion strategy to build Global Primitives in the world coordinate system. This strategy associates multiple frames with non-overlapping regions and formulates a multi-frame reprojection error optimization, significantly improving tracking accuracy in texture-scarce scenarios. Evaluations on various datasets show that our system outperforms state-of-the-art methods in trajectory precision, particularly in challenging environments.

arxiv情報

著者 Bingzheng Jiang,Jiayuan Wang,Han Ding,Lijun Zhu
発行日 2025-03-12 11:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MonoSLAM: Robust Monocular SLAM with Global Structure Optimization はコメントを受け付けていません

2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos

要約

オブジェクトと相互作用する場合、人間は、意図したアクション、つまりオブジェクトのアフォーダンス領域に対してどのオブジェクトの領域が実行可能であるかについて事実上、効果的に推論します。
また、実行されるタスクに基づいて、オブジェクト領域の微妙な違いや、1つまたは2つの手を使用する必要があるかどうかを説明することもできます。
ただし、現在の視力ベースのアフォーダンス予測方法は、多くの場合、問題を素朴なオブジェクトパーツセグメンテーションに減らします。
この作業では、人間のアクティビティビデオデータセットからアフォーダンスデータを抽出するためのフレームワークを提案します。
抽出された2handsデータセットには、実行されるアクティビティのナレーションとして、正確なオブジェクトアフォーダンス領域セグメンテーションとアフォーダンスクラスラベルが含まれています。
データはまた、両手の行動、つまり、1つ以上のオブジェクトを調整し、相互作用する両手を説明します。
VLMベースのアフォーダンス予測モデルである2Handedafforderを提示し、データセットで訓練され、さまざまなアクティビティのアフォーダンス地域セグメンテーションのベースラインよりも優れたパフォーマンスを示します。
最後に、予測されたアフォーダンス領域が実行可能であることを示しています。つまり、ロボット操作シナリオのデモンストレーションを通じて、タスクを実行するエージェントが使用できることを示します。

要約(オリジナル)

When interacting with objects, humans effectively reason about which regions of objects are viable for an intended action, i.e., the affordance regions of the object. They can also account for subtle differences in object regions based on the task to be performed and whether one or two hands need to be used. However, current vision-based affordance prediction methods often reduce the problem to naive object part segmentation. In this work, we propose a framework for extracting affordance data from human activity video datasets. Our extracted 2HANDS dataset contains precise object affordance region segmentations and affordance class-labels as narrations of the activity performed. The data also accounts for bimanual actions, i.e., two hands co-ordinating and interacting with one or more objects. We present a VLM-based affordance prediction model, 2HandedAfforder, trained on the dataset and demonstrate superior performance over baselines in affordance region segmentation for various activities. Finally, we show that our predicted affordance regions are actionable, i.e., can be used by an agent performing a task, through demonstration in robotic manipulation scenarios.

arxiv情報

著者 Marvin Heidinger,Snehal Jauhri,Vignesh Prasad,Georgia Chalvatzaki
発行日 2025-03-12 12:12:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | 2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos はコメントを受け付けていません

NVP-HRI: Zero Shot Natural Voice and Posture-based Human-Robot Interaction via Large Language Model

要約

効果的な人間とロボットの相互作用(HRI)は、老化社会における将来のサービスロボットにとって非常に重要です。
既存のソリューションは、よく訓練されたオブジェクトのみに偏っており、新しいオブジェクトを扱うときにギャップを作成します。
現在、事前に定義されたジェスチャーまたは言語トークンを使用したHRIシステムは、すべての個人、特に高齢者に課題をもたらします。
これらの課題には、コマンドのリコール、手のジェスチャーの記憶、新しい名前の学習の困難が含まれます。
このホワイトペーパーでは、音声コマンドと敬意の姿勢を組み合わせた直感的なマルチモーダルHRIパラダイムであるNVP-HRIを紹介します。
NVP-HRIは、視覚的な手がかりと深さデータを分析するために、あらゆるモデル(SAM)を使用して、正確な構造オブジェクト表現を可能にします。
事前に訓練されたSAMネットワークを通じて、NVP-HRIは、事前の知識がなくても、ゼロショット予測を介して新しいオブジェクトとの相互作用を可能にします。
NVP-HRIは、マルチモーダルコマンド用の大規模な言語モデル(LLM)と統合され、衝突のない軌道ソリューションのためにオブジェクトの選択とシーン分布とリアルタイムで調整します。
また、LLMの幻覚リスクを減らすために、必須の制御構文を使用してアクションシーケンスを調節します。
ビデオhttps://youtu.be/ebc7al2wiacに示されているように、ユニバーサルロボットを使用した多様な現実世界のタスクの評価は、従来のジェスチャーコントロールよりも最大59.2 \%の効率改善を紹介しました。
コードとデザインは、https://github.com/laiyuzhi/nvp-hri.gitで公然と入手できます。

要約(オリジナル)

Effective Human-Robot Interaction (HRI) is crucial for future service robots in aging societies. Existing solutions are biased toward only well-trained objects, creating a gap when dealing with new objects. Currently, HRI systems using predefined gestures or language tokens for pretrained objects pose challenges for all individuals, especially elderly ones. These challenges include difficulties in recalling commands, memorizing hand gestures, and learning new names. This paper introduces NVP-HRI, an intuitive multi-modal HRI paradigm that combines voice commands and deictic posture. NVP-HRI utilizes the Segment Anything Model (SAM) to analyze visual cues and depth data, enabling precise structural object representation. Through a pre-trained SAM network, NVP-HRI allows interaction with new objects via zero-shot prediction, even without prior knowledge. NVP-HRI also integrates with a large language model (LLM) for multimodal commands, coordinating them with object selection and scene distribution in real time for collision-free trajectory solutions. We also regulate the action sequence with the essential control syntax to reduce LLM hallucination risks. The evaluation of diverse real-world tasks using a Universal Robot showcased up to 59.2\% efficiency improvement over traditional gesture control, as illustrated in the video https://youtu.be/EbC7al2wiAc. Our code and design will be openly available at https://github.com/laiyuzhi/NVP-HRI.git.

arxiv情報

著者 Yuzhi Lai,Shenghai Yuan,Youssef Nassar,Mingyu Fan,Thomas Weber,Matthias Rätsch
発行日 2025-03-12 12:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | NVP-HRI: Zero Shot Natural Voice and Posture-based Human-Robot Interaction via Large Language Model はコメントを受け付けていません

Robust Fault-Tolerant Control and Agile Trajectory Planning for Modular Aerial Robotic Systems

要約

モジュラー航空ロボットシステム(MARS)は、さまざまなミッション要件や障害条件に適応するために自己再構成できる複数のドローンユニットで構成されています。
ただし、既存の断層耐性制御方法は、ドッキングと分離中に大きな振動を示し、システムの安定性に影響を与えます。
この問題に対処するために、任意の数のモジュラーロボットとそのアセンブリ層に適応する新しい障害耐性制御再配置方法を提案します。
アルゴリズムは、火星の中心に比べて瞬間の腕に応じて、火星に必要な予想される集団力とトルクを個々のユニットに再分配します。
さらに、arbitrary意的な構成の火星のためのアジャイル軌道計画方法を提案します。
私たちの仕事は、火星のためのフォールトトレラントおよび衝突回避飛行を可能にする最初の包括的なアプローチを表しています。
広範なシミュレーションを通じて方法を検証し、障害トレランスの改善、軌道追跡の精度の向上、乱雑な環境での堅牢性の向上を実証します。
この作業のビデオとソースコードは、https://github.com/ruihuangnus/mars-ftcc/で入手できます。

要約(オリジナル)

Modular Aerial Robotic Systems (MARS) consist of multiple drone units that can self-reconfigure to adapt to various mission requirements and fault conditions. However, existing fault-tolerant control methods exhibit significant oscillations during docking and separation, impacting system stability. To address this issue, we propose a novel fault-tolerant control reallocation method that adapts to arbitrary number of modular robots and their assembly formations. The algorithm redistributes the expected collective force and torque required for MARS to individual unit according to their moment arm relative to the center of MARS mass. Furthermore, We propose an agile trajectory planning method for MARS of arbitrary configurations, which is collision-avoiding and dynamically feasible. Our work represents the first comprehensive approach to enable fault-tolerant and collision avoidance flight for MARS. We validate our method through extensive simulations, demonstrating improved fault tolerance, enhanced trajectory tracking accuracy, and greater robustness in cluttered environments. The videos and source code of this work are available at https://github.com/RuiHuangNUS/MARS-FTCC/

arxiv情報

著者 Rui Huang,Zhenyu Zhang,Siyu Tang,Zhiqian Cai,Lin Zhao
発行日 2025-03-12 12:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robust Fault-Tolerant Control and Agile Trajectory Planning for Modular Aerial Robotic Systems はコメントを受け付けていません

Robust Self-Reconfiguration for Fault-Tolerant Control of Modular Aerial Robot Systems

要約

モジュラー航空ロボットシステム(MARS)は、単一の統合された剛性フライングプラットフォームに組み立てられた複数のドローンユニットで構成されています。
固有の冗長性により、火星は異なる構成に自己再構成することができ、ローターまたはユニットの障害を緩和し、安定した飛行を維持できます。
ただし、火星の自己再構成に関する既存の作業は、再組み立てプロセス中に形成された中間構造の実用的な制御性を見落としていることが多く、適用性が制限されます。
このホワイトペーパーでは、火星の制御制御動的モデルを考慮し、各中間段階で制御可能性マージンを最大化する堅牢で効率的な自己再構成アルゴリズムを提案することにより、このギャップに対処します。
具体的には、最適で制御可能な分解とアセンブリシーケンスを計算するためのアルゴリズムを開発し、堅牢な自己再構成を可能にします。
最後に、いくつかの困難な障害耐性の自己再構成シナリオで私たちの方法を検証し、アセンブリステップの数を減らしながら制御性と軌跡追跡の両方の大幅な改善を示します。
この作業のビデオとソースコードは、https://github.com/ruihuangnus/mars-reconfig/で入手できます。

要約(オリジナル)

Modular Aerial Robotic Systems (MARS) consist of multiple drone units assembled into a single, integrated rigid flying platform. With inherent redundancy, MARS can self-reconfigure into different configurations to mitigate rotor or unit failures and maintain stable flight. However, existing works on MARS self-reconfiguration often overlook the practical controllability of intermediate structures formed during the reassembly process, which limits their applicability. In this paper, we address this gap by considering the control-constrained dynamic model of MARS and proposing a robust and efficient self-reconstruction algorithm that maximizes the controllability margin at each intermediate stage. Specifically, we develop algorithms to compute optimal, controllable disassembly and assembly sequences, enabling robust self-reconfiguration. Finally, we validate our method in several challenging fault-tolerant self-reconfiguration scenarios, demonstrating significant improvements in both controllability and trajectory tracking while reducing the number of assembly steps. The videos and source code of this work are available at https://github.com/RuiHuangNUS/MARS-Reconfig/

arxiv情報

著者 Rui Huang,Siyu Tang,Zhiqian Cai,Lin Zhao
発行日 2025-03-12 13:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robust Self-Reconfiguration for Fault-Tolerant Control of Modular Aerial Robot Systems はコメントを受け付けていません

PCLA: A Framework for Testing Autonomous Agents in the CARLA Simulator

要約

特にシミュレーション環境では、自律運転剤のテストに関する最近の研究が大幅に増加しています。
カーラシミュレーターは多くの場合、好ましい選択であり、カーラリーダーボードチャレンジの自律エージェントは、この環境内で最高のパフォーマンスのエージェントと見なされています。
ただし、これらのエージェントをゼロからトレーニングするのではなく、これらのエージェントをテストする研究者は、カスタマイズされたテスト環境やシナリオ内でそれらを利用する際に課題に直面することがよくあります。
これらの課題に対処するために、リーダーボードの課題からの9つの高性能の事前訓練を受けた自律エージェントを含むオープンソースPythonテストフレームワークであるPCLA(前処理されたカーラリーダーボードエージェント)を紹介します。
PCLAは、任意のカーラ環境/シナリオでさまざまな自律エージェントをテストするために特別に設計された最初のインフラストラクチャです。
PCLAは、リーダーボードコードベースに頼らずにリーダーボードエージェントを車両に展開する簡単な方法を提供します。これにより、研究者はカーラバージョンやプログラミング環境の変更を必要とせずにエージェントを簡単に切り替えることができます。
PCLAはhttps://github.com/masoudjtehrani/pclaで公開されています。

要約(オリジナル)

Recent research on testing autonomous driving agents has grown significantly, especially in simulation environments. The CARLA simulator is often the preferred choice, and the autonomous agents from the CARLA Leaderboard challenge are regarded as the best-performing agents within this environment. However, researchers who test these agents, rather than training their own ones from scratch, often face challenges in utilizing them within customized test environments and scenarios. To address these challenges, we introduce PCLA (Pretrained CARLA Leaderboard Agents), an open-source Python testing framework that includes nine high-performing pre-trained autonomous agents from the Leaderboard challenges. PCLA is the first infrastructure specifically designed for testing various autonomous agents in arbitrary CARLA environments/scenarios. PCLA provides a simple way to deploy Leaderboard agents onto a vehicle without relying on the Leaderboard codebase, it allows researchers to easily switch between agents without requiring modifications to CARLA versions or programming environments, and it is fully compatible with the latest version of CARLA while remaining independent of the Leaderboard’s specific CARLA version. PCLA is publicly accessible at https://github.com/MasoudJTehrani/PCLA.

arxiv情報

著者 Masoud Jamshidiyan Tehrani,Jinhan Kim,Paolo Tonella
発行日 2025-03-12 13:29:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SE, cs.SY, eess.SY | PCLA: A Framework for Testing Autonomous Agents in the CARLA Simulator はコメントを受け付けていません

Neural-Augmented Incremental Nonlinear Dynamic Inversion for Quadrotors with Payload Adaptation

要約

マルチローターアプリケーションの複雑さの増加により、ロボットに作用するすべての力を確実に予測できる、より正確なフライトコントローラーが必要になりました。
従来のフライトコントローラーは、力の大部分をモデル化しますが、いわゆる残留力を考慮しないでください。
この理由は、残差力を正確に計算することが計算上高価である可能性があることです。
インクリメンタル非線形動的反転(INDI)は、これらの残留力を推定するために、異なるセンサー測定値間の違いを計算する方法です。
INDIの主な問題は、非常に騒がしい特別なセンサー測定に依存していることです。
また、最近の研究では、学習ベースの方法を使用して残留力を予測できることも示されています。
この作業では、学習アルゴリズムが追加のセンサー測定を必要とせずに、よりスムーズなバージョンのINDI出力を予測できることを実証します。
さらに、学習ベースの予測とINDIを組み合わせた新しい方法を紹介します。
また、2つのアプローチを適応させて、スラングタイプのペイロードを運ぶ四角体で作業します。
結果は、ニューラルネットワークを使用して残留力を予測することで、ニューラルネットワークとインディの組み合わせを使用すると、各方法よりもさらに良い結果が得られる可能性があることを示しています。

要約(オリジナル)

The increasing complexity of multirotor applications has led to the need of more accurate flight controllers that can reliably predict all forces acting on the robot. Traditional flight controllers model a large part of the forces but do not take so called residual forces into account. A reason for this is that accurately computing the residual forces can be computationally expensive. Incremental Nonlinear Dynamic Inversion (INDI) is a method that computes the difference between different sensor measurements in order to estimate these residual forces. The main issue with INDI is it’s reliance on special sensor measurements which can be very noisy. Recent work has also shown that residual forces can be predicted using learning-based methods. In this work, we demonstrate that a learning algorithm can predict a smoother version of INDI outputs without requiring additional sensor measurements. In addition, we introduce a new method that combines learning based predictions with INDI. We also adapt the two approaches to work on quadrotors carrying a slung-type payload. The results show that using a neural network to predict residual forces can outperform INDI while using the combination of neural network and INDI can yield even better results than each method individually.

arxiv情報

著者 Eckart Cobo-Briesewitz,Khaled Wahba,Wolfgang Hönig
発行日 2025-03-12 14:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Neural-Augmented Incremental Nonlinear Dynamic Inversion for Quadrotors with Payload Adaptation はコメントを受け付けていません

EHC-MM: Embodied Holistic Control for Mobile Manipulation

要約

モバイル操作は通常、モビリティのベース、正確な操作のためのアーム、および知覚のためのカメラを必要とします。
遠いモビリティ、緊密な把握(DMCG)の原則は、全体的なコントロールに不可欠です。
SIG(W)の具体化された関数を使用して、モバイル操作(EHC-MM)の具体化されたホリスティックコントロールを提案します。DMCG原理を二次プログラミング(QP)問題として策定することにより、SIG(W)は、ロボットの状態と環境の考慮とのロボットの動きと操作の強調の動きとのバランスをとります。
さらに、SIG(W)を使用したモニターポジションベースのサーボ(MPBS)を提案し、操作中にターゲットの追跡を可能にします。
このアプローチにより、ロボットのベース、アーム、カメラ間の調整された制御が可能になり、タスク効率が向上します。
大規模なシミュレーションと現実世界の実験を通じて、私たちのアプローチにより、モバイル操作タスクの成功率と効率の両方が大幅に向上し、現実世界のシナリオで95.6%の成功率と時間効率が52.8%増加します。

要約(オリジナル)

Mobile manipulation typically entails the base for mobility, the arm for accurate manipulation, and the camera for perception. The principle of Distant Mobility, Close Grasping(DMCG) is essential for holistic control. We propose Embodied Holistic Control for Mobile Manipulation(EHC-MM) with the embodied function of sig(w): By formulating the DMCG principle as a Quadratic Programming (QP) problem, sig(w) dynamically balances the robot’s emphasis between movement and manipulation with the consideration of the robot’s state and environment. In addition, we propose the Monitor-Position-Based Servoing (MPBS) with sig(w), enabling the tracking of the target during the operation. This approach enables coordinated control among the robot’s base, arm, and camera, enhancing task efficiency. Through extensive simulations and real-world experiments, our approach significantly improves both the success rate and efficiency of mobile manipulation tasks, achieving a 95.6% success rate in real-world scenarios and a 52.8% increase in time efficiency.

arxiv情報

著者 Jiawen Wang,Yixiang Jin,Jun Shi,Yong A,Dingzhe Li,Fuchun Sun,Dingsheng Luo,Bin Fang
発行日 2025-03-12 14:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | EHC-MM: Embodied Holistic Control for Mobile Manipulation はコメントを受け付けていません

ReloPush: Multi-object Rearrangement in Confined Spaces with a Nonholonomic Mobile Robot Pusher

要約

非致死的に制約されたモバイルロボットを使用したプッシュベースのマルチオブジェクト再配置計画に焦点を当てています。
同時幾何学、運動学、および物理学の制約により、この問題は特に困難になります。
再配置計画に関する以前の作業は、しばしば、器用なハードウェア、プレヘンシル操作、またはまばらに占有されているワークスペースを仮定することにより、これらの制約の一部を緩和します。
私たちの重要な洞察は、これらの制約を統一された表現にキャプチャすることにより、環境を有利に変更することにより、抑制されたロボットに困難な問題インスタンスに取り組むことができるということです。
この目的のために、プッシュトラバース性グラフを導入します。その頂点は、ロボットがオブジェクトからプッシュできるポーズを表し、エッジはそれらの間の最適で運動的に実行可能で、安定した遷移を表します。
このグラフに基づいて、複雑なマルチオブジェクト再配置タスクを入力し、それを単一オブジェクトプッシュタスクのシーケンスに分割するグラフベースの計画フレームワークであるRelopushを開発します。
1/10スケールのロボットレースカーを使用して、最大9つのオブジェクトを備えた密集したワークスペースの再配置を含む、一連の挑戦的なシナリオ全体でリロップラッシュを評価します。
ReLopushは、提案されたグラフ構造を欠いている2つのベースラインと比較して、実行時間の低下とオブジェクト接触の損失の減少で証明された、現実の世界では、数桁の速度が速くなり、大幅に堅牢な実行を示します。

要約(オリジナル)

We focus on push-based multi-object rearrangement planning using a nonholonomically constrained mobile robot. The simultaneous geometric, kinematic, and physics constraints make this problem especially challenging. Prior work on rearrangement planning often relaxes some of these constraints by assuming dexterous hardware, prehensile manipulation, or sparsely occupied workspaces. Our key insight is that by capturing these constraints into a unified representation, we could empower a constrained robot to tackle difficult problem instances by modifying the environment in its favor. To this end, we introduce a Push-Traversability graph, whose vertices represent poses that the robot can push objects from, and edges represent optimal, kinematically feasible, and stable transitions between them. Based on this graph, we develop ReloPush, a graph-based planning framework that takes as input a complex multi-object rearrangement task and breaks it down into a sequence of single-object pushing tasks. We evaluate ReloPush across a series of challenging scenarios, involving the rearrangement of densely cluttered workspaces with up to nine objects, using a 1/10-scale robot racecar. ReloPush exhibits orders of magnitude faster runtimes and significantly more robust execution in the real world, evidenced in lower execution times and fewer losses of object contact, compared to two baselines lacking our proposed graph structure.

arxiv情報

著者 Jeeho Ahn,Christoforos Mavrogiannis
発行日 2025-03-12 16:15:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ReloPush: Multi-object Rearrangement in Confined Spaces with a Nonholonomic Mobile Robot Pusher はコメントを受け付けていません