Sequential Multi-Object Grasping with One Dexterous Hand

要約

マルチピンガーの手で複数のオブジェクトを連続的に把握することは、人間が手の器用さを完全に活用して複数のオブジェクトを囲むことができる日常生活で一般的です。
ただし、オブジェクトのジオメトリの多様性と、高度の手に必要な複雑な接触相互作用は、別のオブジェクトを囲みながら1つのオブジェクトを把握しながら、ロボットに挑戦するシーケンシャルなマルチオブジェクトグラップを把握します。
この論文では、4本指のアレグロ手でオブジェクトを連続的に把握するためのシステムであるSeqmultigraspを提案します。
2つのオブジェクトを順次把握し、手が1つのオブジェクトを完全に囲んでから持ち上げてから、最初のオブジェクトをドロップせずに2番目のオブジェクトをつかむことに焦点を当てます。
私たちのシステムは、最初にシングルオブジェクトの把握候補を合成します。そこでは、各把握は、手のリンクのサブセットのみを使用するように制約されます。
これらのグラスクは、物理シミュレーターで検証され、安定性と実現可能性を確保します。
次に、検証済みの単一オブジェクトの把握ポーズをマージして、マルチオブジェクトの把持構成を構築します。
現実世界の展開のために、ポイントクラウドを条件とする拡散モデルを訓練して、把握ポーズを提案し、それに続いてヒューリスティックベースの実行戦略を提案します。
シミュレーションの8ドルの時間8ドルのオブジェクトの組み合わせと、実際に$ 6 \ times 3 $オブジェクトの組み合わせを使用して、システムをテストします。
拡散ベースのGraspモデルは、1600のシミュレーション試験で65.8%の平均成功率と90の実世界の試験で56.7%を獲得し、マルチフィンガーの手での連続的なマルチオブジェクトグラストの有望なアプローチであることを示唆しています。
補足資料は、当社のプロジェクトWebサイトhttps://hesic73.github.io/seqmultigraspで入手できます。

要約(オリジナル)

Sequentially grasping multiple objects with multi-fingered hands is common in daily life, where humans can fully leverage the dexterity of their hands to enclose multiple objects. However, the diversity of object geometries and the complex contact interactions required for high-DOF hands to grasp one object while enclosing another make sequential multi-object grasping challenging for robots. In this paper, we propose SeqMultiGrasp, a system for sequentially grasping objects with a four-fingered Allegro Hand. We focus on sequentially grasping two objects, ensuring that the hand fully encloses one object before lifting it and then grasps the second object without dropping the first. Our system first synthesizes single-object grasp candidates, where each grasp is constrained to use only a subset of the hand’s links. These grasps are then validated in a physics simulator to ensure stability and feasibility. Next, we merge the validated single-object grasp poses to construct multi-object grasp configurations. For real-world deployment, we train a diffusion model conditioned on point clouds to propose grasp poses, followed by a heuristic-based execution strategy. We test our system using $8 \times 8$ object combinations in simulation and $6 \times 3$ object combinations in real. Our diffusion-based grasp model obtains an average success rate of 65.8% over 1600 simulation trials and 56.7% over 90 real-world trials, suggesting that it is a promising approach for sequential multi-object grasping with multi-fingered hands. Supplementary material is available on our project website: https://hesic73.github.io/SeqMultiGrasp.

arxiv情報

著者 Sicheng He,Zeyu Shangguan,Kuanning Wang,Yongchong Gu,Yuqian Fu,Yanwei Fu,Daniel Seita
発行日 2025-03-12 05:22:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Sequential Multi-Object Grasping with One Dexterous Hand はコメントを受け付けていません

Tacchi 2.0: A Low Computational Cost and Comprehensive Dynamic Contact Simulator for Vision-based Tactile Sensors

要約

ロボット技術の開発により、ビジョンベースのセンサーなどの一部の触覚センサーが接触豊富なロボットタスクに適用されています。
ただし、視覚ベースの触覚センサーの耐久性により、触覚情報の習得のコストが大幅に増加します。
シミュレーションを利用して触覚データを生成することは、この問題に対処するための信頼できるアプローチとして浮上しています。
触覚データ生成のためのデータ駆動型の方法は堅牢性を欠いていますが、有限要素法(FEM)ベースのアプローチには、かなりの計算コストが必要です。
これらの問題に対処するために、ピンホールカメラモデルを、シミュレートされた方法としてマテリアルポイントメソッド(MPM)を使用した低い計算コストビジョンベースの触覚シミュレーターTacchiに統合し、マーカーモーション画像のシミュレーションを完了しました。
Tacchiをアップグレードし、Tacchi 2.0を導入しました。
このシミュレーターは、プレス、スリップ、回転などのさまざまなモーション状態の下で、触覚画像、マークされたモーション画像、および共同画像をシミュレートできます。
実験結果は、さまざまな視覚ベースの触覚センサーにわたる方法の信頼性とその堅牢性を示しています。

要約(オリジナル)

With the development of robotics technology, some tactile sensors, such as vision-based sensors, have been applied to contact-rich robotics tasks. However, the durability of vision-based tactile sensors significantly increases the cost of tactile information acquisition. Utilizing simulation to generate tactile data has emerged as a reliable approach to address this issue. While data-driven methods for tactile data generation lack robustness, finite element methods (FEM) based approaches require significant computational costs. To address these issues, we integrated a pinhole camera model into the low computational cost vision-based tactile simulator Tacchi that used the Material Point Method (MPM) as the simulated method, completing the simulation of marker motion images. We upgraded Tacchi and introduced Tacchi 2.0. This simulator can simulate tactile images, marked motion images, and joint images under different motion states like pressing, slipping, and rotating. Experimental results demonstrate the reliability of our method and its robustness across various vision-based tactile sensors.

arxiv情報

著者 Yuhao Sun,Shixin Zhang,Wenzhuang Li,Jie Zhao,Jianhua Shan,Zirong Shen,Zixi Chen,Fuchun Sun,Di Guo,Bin Fang
発行日 2025-03-12 06:34:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Tacchi 2.0: A Low Computational Cost and Comprehensive Dynamic Contact Simulator for Vision-based Tactile Sensors はコメントを受け付けていません

Predictor-Based Time Delay Control of A Hex-Jet Unmanned Aerial Vehicle

要約

ターボジェット駆動のVTOL UAVは、既存の電子推進システムと比較して、優れた出力密度と推力と重量の比率により、重荷輸送および緊急サービスに注目が高まっています。
ジェット式のUAVを使用した主な課題は、ターボジェットのゆっくりしたダイナミクスを緩和することを目的とした、スラストベクター化機械システムの複雑さにあります。
この手紙では、Hex-Jetという名前の新しいターボジェット駆動のUAVプラットフォームを紹介します。
私たちのコンセプトは、包括的な態度制御のために、推力ベクトル化と差別的な推力を統合します。
このアプローチは、スラストベクトル化メカニズムを特に簡素化します。
HEX-JETコントローラー設計の周波数ドメインモデルに基づいた予測因子ベースの時間遅延制御方法を利用して、ターボジェットダイナミクスによって引き起こされるロール姿勢制御の遅延を軽減します。
私たちの比較研究は、UAVコミュニティに貴重な洞察を提供し、スケーリングされたプロトタイプの飛行テストは、提案された予測因子ベースの時間遅延制御技術の実装と検証の成功を示しています。

要約(オリジナル)

Turbojet-powered VTOL UAVs have garnered increased attention in heavy-load transport and emergency services, due to their superior power density and thrust-to-weight ratio compared to existing electronic propulsion systems. The main challenge with jet-powered UAVs lies in the complexity of thrust vectoring mechanical systems, which aim to mitigate the slow dynamics of the turbojet. In this letter, we introduce a novel turbojet-powered UAV platform named Hex-Jet. Our concept integrates thrust vectoring and differential thrust for comprehensive attitude control. This approach notably simplifies the thrust vectoring mechanism. We utilize a predictor-based time delay control method based on the frequency domain model in our Hex-Jet controller design to mitigate the delay in roll attitude control caused by turbojet dynamics. Our comparative studies provide valuable insights for the UAV community, and flight tests on the scaled prototype demonstrate the successful implementation and verification of the proposed predictor-based time delay control technique.

arxiv情報

著者 Junning Liang,Haowen Zheng,Yuying Zhang,Yongzhuo Gao,Wei Dong,Ximin Lyu
発行日 2025-03-12 08:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Predictor-Based Time Delay Control of A Hex-Jet Unmanned Aerial Vehicle はコメントを受け付けていません

Long-Term Planning Around Humans in Domestic Environments with 3D Scene Graphs

要約

国内環境で動作するロボットの長期計画は、人間、オブジェクト、スペースの間の相互作用のために独自の課題をもたらします。
軌道計画の最近の進歩により、視覚言語モデル(VLM)を活用して、実際の環境で動作するロボットのコンテキスト情報を抽出しました。
これらの方法は満足のいくパフォーマンスを実現しますが、人間の活動を明示的にモデル化しません。
このようなアクティビティは、周囲のオブジェクトに影響を与え、空間的制約を再構築します。
このペーパーでは、濃縮された3Dシーングラフ(3DSG)表現を介して、人間の好み、活動、空間コンテキストを統合する軌道計画に対する新しいアプローチを提示します。
アクティビティベースの関係を組み込むことにより、私たちの方法は人間の行動の空間的影響を捉え、よりコンテキストに敏感な軌跡の適応につながります。
予備的な結果は、私たちのアプローチが人間の活動の影響を受けたスペースにコストを効果的に割り当て、ロボットの軌跡が進行中の環境に文脈的に適切で敏感なままであることを保証することを示しています。
タスクの効率と社会的適切性のこのバランスは、国内の設定でのコンテキストを意識した人間とロボットの相互作用を促進します。
将来の作業には、完全な計画パイプラインの実装と、軌道の受容性を評価するためのユーザー調査の実施が含まれます。

要約(オリジナル)

Long-term planning for robots operating in domestic environments poses unique challenges due to the interactions between humans, objects, and spaces. Recent advancements in trajectory planning have leveraged vision-language models (VLMs) to extract contextual information for robots operating in real-world environments. While these methods achieve satisfying performance, they do not explicitly model human activities. Such activities influence surrounding objects and reshape spatial constraints. This paper presents a novel approach to trajectory planning that integrates human preferences, activities, and spatial context through an enriched 3D scene graph (3DSG) representation. By incorporating activity-based relationships, our method captures the spatial impact of human actions, leading to more context-sensitive trajectory adaptation. Preliminary results demonstrate that our approach effectively assigns costs to spaces influenced by human activities, ensuring that the robot trajectory remains contextually appropriate and sensitive to the ongoing environment. This balance between task efficiency and social appropriateness enhances context-aware human-robot interactions in domestic settings. Future work includes implementing a full planning pipeline and conducting user studies to evaluate trajectory acceptability.

arxiv情報

著者 Ermanno Bartoli,Dennis Rotondi,Kai O. Arras,Iolanda Leite
発行日 2025-03-12 09:00:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.AI, cs.RO, I.2 | Long-Term Planning Around Humans in Domestic Environments with 3D Scene Graphs はコメントを受け付けていません

Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework

要約

バイマニュアルロボット操作は、ロボットコミュニティで新たに重要なトピックです。
以前の作品は、主に、両方のアームの認識と状態を入力として取得する統合制御モデルに依存して、そのアクションを直接予測しています。
ただし、双方向の操作には、調整されたタスクだけでなく、実行中に明示的な協力を必要としないさまざまな協調的なタスクも含まれます。
この論文では、両操作におけるさまざまなタスクの特性を考慮する新しい分離された相互作用フレームワークを提案します。
私たちのフレームワークの重要な洞察は、独立したモデルを各アームに割り当てて、調整されていないタスクの学習を強化すると同時に、独自の腕から体重を適応的に学習して調整されたタスクの学習を改善する選択的相互作用モジュールを導入することです。
RobotWinデータセットの7つのタスクに関する広範な実験は、次のことを示しています。(1)SOTAメソッドを23.5%増加させて、フレームワークが優れたパフォーマンスを達成します。
(2)私たちのフレームワークは柔軟であり、既存の方法にシームレスに統合できます。
(3)当社のフレームワークは、マルチエージェント操作タスクに効果的に拡張でき、統合されたコントロールSOTAを28%増加させることができます。
(4)パフォーマンスブーストは、デカップされたデザイン自体に由来し、ソタを16.5%上回り、モデルサイズの1/6のみを超えています。

要約(オリジナル)

Bimanual robotic manipulation is an emerging and critical topic in the robotics community. Previous works primarily rely on integrated control models that take the perceptions and states of both arms as inputs to directly predict their actions. However, we think bimanual manipulation involves not only coordinated tasks but also various uncoordinated tasks that do not require explicit cooperation during execution, such as grasping objects with the closest hand, which integrated control frameworks ignore to consider due to their enforced cooperation in the early inputs. In this paper, we propose a novel decoupled interaction framework that considers the characteristics of different tasks in bimanual manipulation. The key insight of our framework is to assign an independent model to each arm to enhance the learning of uncoordinated tasks, while introducing a selective interaction module that adaptively learns weights from its own arm to improve the learning of coordinated tasks. Extensive experiments on seven tasks in the RoboTwin dataset demonstrate that: (1) Our framework achieves outstanding performance, with a 23.5% boost over the SOTA method. (2) Our framework is flexible and can be seamlessly integrated into existing methods. (3) Our framework can be effectively extended to multi-agent manipulation tasks, achieving a 28% boost over the integrated control SOTA. (4) The performance boost stems from the decoupled design itself, surpassing the SOTA by 16.5% in success rate with only 1/6 of the model size.

arxiv情報

著者 Jian-Jian Jiang,Xiao-Ming Wu,Yi-Xiang He,Ling-An Zeng,Yi-Lin Wei,Dandan Zhang,Wei-Shi Zheng
発行日 2025-03-12 09:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework はコメントを受け付けていません

Learning Appearance and Motion Cues for Panoptic Tracking

要約

パノプティック追跡により、パノプティックセグメンテーションでインスタンストラッキングを統合することにより、ビデオのピクセルレベルのシーン解釈が可能になります。
これにより、ロボットは環境の時空間的理解を提供します。これは、動的環境での動作に不可欠な属性です。
この論文では、一般的なセマンティック情報とインスタンス固有の外観と動きの特徴を同時にキャプチャするパノプティック追跡のための新しいアプローチを提案します。
動的なシーンの属性を見落とす既存の方法とは異なり、当社のアプローチは、専用のネットワークヘッドを介して外観とモーションキューの両方を活用します。
これらの相互接続されたヘッドは、セマンティックコンテキストとモーション強化された外観機能を備えたシーンモーションオフセットについての理由で、埋め込みを追跡することを学習するマルチスケールの変形可能な畳み込みを採用しています。
さらに、現在のタイムステップから最初のマッチングインスタンスと以前の時間ステップから伝播されたインスタンスを一致させることにより、両方のヘッドからの出力を統合し、その後、モーション強化の外観埋め込みを使用して関連性を改善し、挑戦的なシナリオの堅牢性を改善する、両方のヘッドからの出力を統合する新しい2段階融合モジュールを導入します。
2つのベンチマークデータセットで提案されている\ NetNameモデルの広範な評価は、パノプティック追跡の精度で最先端のパフォーマンスを達成し、時間の経過とともにオブジェクトのアイデンティティを維持する以前の方法を上回ることを示しています。
将来の研究を促進するために、http://panoptictracking.cs.uni-freiburg.deでコードを利用できるようにします

要約(オリジナル)

Panoptic tracking enables pixel-level scene interpretation of videos by integrating instance tracking in panoptic segmentation. This provides robots with a spatio-temporal understanding of the environment, an essential attribute for their operation in dynamic environments. In this paper, we propose a novel approach for panoptic tracking that simultaneously captures general semantic information and instance-specific appearance and motion features. Unlike existing methods that overlook dynamic scene attributes, our approach leverages both appearance and motion cues through dedicated network heads. These interconnected heads employ multi-scale deformable convolutions that reason about scene motion offsets with semantic context and motion-enhanced appearance features to learn tracking embeddings. Furthermore, we introduce a novel two-step fusion module that integrates the outputs from both heads by first matching instances from the current time step with propagated instances from previous time steps and subsequently refines associations using motion-enhanced appearance embeddings, improving robustness in challenging scenarios. Extensive evaluations of our proposed \netname model on two benchmark datasets demonstrate that it achieves state-of-the-art performance in panoptic tracking accuracy, surpassing prior methods in maintaining object identities over time. To facilitate future research, we make the code available at http://panoptictracking.cs.uni-freiburg.de

arxiv情報

著者 Juana Valeria Hurtado,Sajad Marvi,Rohit Mohan,Abhinav Valada
発行日 2025-03-12 09:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Learning Appearance and Motion Cues for Panoptic Tracking はコメントを受け付けていません

MarineGym: A High-Performance Reinforcement Learning Platform for Underwater Robotics

要約

この作業では、水中ロボット工学専用に設計された高性能補強学習(RL)プラットフォームであるMarineGymを提示します。
RLの互換性、トレーニング効率、標準化されたベンチマークの観点から、既存の水中シミュレーション環境の制限に対処することを目的としています。
MarineGymは、Isaac SIMに基づいて提案されているGPUアクセラ化された流体力学プラグインを統合し、単一のNVIDIA RTX 3060 GPUで1秒あたり250,000フレームの展開速度を達成します。
また、無人の水中車両(UUV)、複数の推進システム、およびコア水中制御の課題をカバーする一連の事前定義されたタスクの5つのモデルを提供します。
さらに、DR Toolkitでは、トレーニング中にシミュレーションとタスクパラメーターを柔軟に調整して、SIM2REALの転送を改善できます。
さらなるベンチマーク実験は、MarineGymが既存のプラットフォームに対するトレーニング効率を改善し、さまざまな摂動の下で堅牢な政策適応をサポートすることを示しています。
このプラットフォームは、水中ロボット工学のRL研究のさらなる進歩を促進できると予想しています。
MarineGymとそのアプリケーションの詳細については、プロジェクトページhttps://marine-gym.com/をご覧ください。

要約(オリジナル)

This work presents the MarineGym, a high-performance reinforcement learning (RL) platform specifically designed for underwater robotics. It aims to address the limitations of existing underwater simulation environments in terms of RL compatibility, training efficiency, and standardized benchmarking. MarineGym integrates a proposed GPU-accelerated hydrodynamic plugin based on Isaac Sim, achieving a rollout speed of 250,000 frames per second on a single NVIDIA RTX 3060 GPU. It also provides five models of unmanned underwater vehicles (UUVs), multiple propulsion systems, and a set of predefined tasks covering core underwater control challenges. Additionally, the DR toolkit allows flexible adjustments of simulation and task parameters during training to improve Sim2Real transfer. Further benchmark experiments demonstrate that MarineGym improves training efficiency over existing platforms and supports robust policy adaptation under various perturbations. We expect this platform could drive further advancements in RL research for underwater robotics. For more details about MarineGym and its applications, please visit our project page: https://marine-gym.com/.

arxiv情報

著者 Shuguang Chu,Zebin Huang,Yutong Li,Mingwei Lin,Ignacio Carlucho,Yvan R. Petillot,Canjun Yang
発行日 2025-03-12 09:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | MarineGym: A High-Performance Reinforcement Learning Platform for Underwater Robotics はコメントを受け付けていません

Flow-Inspired Multi-Robot Real-Time Scheduling Planner

要約

衝突回避と軌道計画は、特に多数の障害がある環境では、マルチロボットシステムで重要です。
この分野では広範な研究が行われていますが、このような環境を通る急速な移動の課題は完全には対処されていません。
このペーパーでは、複雑で障害物が豊富なマップを介したマルチロボットシステムの通過を最適化するように設計された新しいリアルタイムスケジューリングスキームを提案することにより、この問題に対処します。
ネットワークフローの最適化からインスピレーションを得て、当社のスキームは環境をネットワーク構造に分解し、ロボットの効率的な割り当てをリアルタイムの混雑データに基づいてパスに可能にします。
提案されているスケジューリングプランナーは、既存の衝突回避アルゴリズムの上で動作し、ロボットの迂回路と待ち時間のバランスをとることで横断時間の最小化に焦点を当てています。
シミュレーション結果は、提案されたスキームの効率を示しています。
さらに、10個の四角体を使用して、実際の飛行テストを通じてその有効性を検証しました。
この作業は、障害物が豊富な環境でのマルチロボットシステムのリアルタイムの需要を満たすことができる軽量で効果的なスケジューリングプランナーに貢献しています。

要約(オリジナル)

Collision avoidance and trajectory planning are crucial in multi-robot systems, particularly in environments with numerous obstacles. Although extensive research has been conducted in this field, the challenge of rapid traversal through such environments has not been fully addressed. This paper addresses this problem by proposing a novel real-time scheduling scheme designed to optimize the passage of multi-robot systems through complex, obstacle-rich maps. Inspired from network flow optimization, our scheme decomposes the environment into a network structure, enabling the efficient allocation of robots to paths based on real-time congestion data. The proposed scheduling planner operates on top of existing collision avoidance algorithms, focusing on minimizing traversal time by balancing robot detours and waiting times. Our simulation results demonstrate the efficiency of the proposed scheme. Additionally, we validated its effectiveness through real world flight tests using ten quadrotors. This work contributes a lightweight, effective scheduling planner capable of meeting the real-time demands of multi-robot systems in obstacle-rich environments.

arxiv情報

著者 Han Liu,Yu Jin,Tianjiang Hu,Kai Huang
発行日 2025-03-12 10:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Flow-Inspired Multi-Robot Real-Time Scheduling Planner はコメントを受け付けていません

A cheat sheet for probability distributions of orientational data

要約

エンジニアリングとコンピューターサイエンスの多くのアプリケーションでは、方向の統計モデルの必要性が生じます。
方向データは、角度のセット、ユニットベクトル、回転行列、または四項様式として表示されます。
方向統計の分野では、このようなタイプのデータのモデリングに多くの進歩が遂げられています。
ただし、これらのツールのうち、エンジニアリングおよびコンピューターサイエンスのアプリケーションで使用されているのはほんのです。
したがって、このペーパーは、方向の確率分布のチートシートとして機能することを目的としています。
1-DOF、2-DOF、3-DOFのモデルについて説明します。
それらのそれぞれについて、密度関数の式、データに適合し、サンプリングが提示されます。
この論文は、表記と用語の観点から、エンジニアリングと統計の間の妥協点で書かれています。
これらのモデルのいくつかに機能を備えたPythonライブラリが提供されます。
このライブラリを使用して、実際のデータへのアプリケーションの2つの例が表示されます。

要約(オリジナル)

The need for statistical models of orientations arises in many applications in engineering and computer science. Orientational data appear as sets of angles, unit vectors, rotation matrices or quaternions. In the field of directional statistics, a lot of advances have been made in modelling such types of data. However, only a few of these tools are used in engineering and computer science applications. Hence, this paper aims to serve as a cheat sheet for those probability distributions of orientations. Models for 1-DOF, 2-DOF and 3-DOF orientations are discussed. For each of them, expressions for the density function, fitting to data, and sampling are presented. The paper is written with a compromise between engineering and statistics in terms of notation and terminology. A Python library with functions for some of these models is provided. Using this library, two examples of applications to real data are presented.

arxiv情報

著者 P. C. Lopez-Custodio
発行日 2025-03-12 10:24:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, stat.ME | A cheat sheet for probability distributions of orientational data はコメントを受け付けていません

GarmentPile: Point-Level Visual Affordance Guided Retrieval and Adaptation for Cluttered Garments Manipulation

要約

散らかった衣服の操作は、衣服の複雑で変形可能な性質と複雑な衣服関係のために大きな課題をもたらします。
単一のガリメント操作とは異なり、散らかったシナリオでは、衣服の清潔さと操作の安定性を維持しながら、複雑な衣服の絡み合いと相互作用を管理する必要があります。
これらの要求に対処するために、衣服の幾何学、構造、およびオブジェクト間関係を認識しながら、複雑な空間とマルチモーダル操作候補をモデル化する密な表現、密な表現を学ぶことを提案します。
さらに、いくつかの非常に絡み合ったクラッターで衣服を直接回収することは困難であるため、学んだアフォーダンスに導かれた適応モジュールを導入し、操作に妥当な高度に装飾された衣服を再編成します。
私たちのフレームワークは、シミュレーションと現実世界の両方で、多様な衣服の種類とパイル構成を特徴とする環境にわたる有効性を示しています。
プロジェクトページ:https://garmentpile.github.io/。

要約(オリジナル)

Cluttered garments manipulation poses significant challenges due to the complex, deformable nature of garments and intricate garment relations. Unlike single-garment manipulation, cluttered scenarios require managing complex garment entanglements and interactions, while maintaining garment cleanliness and manipulation stability. To address these demands, we propose to learn point-level affordance, the dense representation modeling the complex space and multi-modal manipulation candidates, while being aware of garment geometry, structure, and inter-object relations. Additionally, as it is difficult to directly retrieve a garment in some extremely entangled clutters, we introduce an adaptation module, guided by learned affordance, to reorganize highly-entangled garments into states plausible for manipulation. Our framework demonstrates effectiveness over environments featuring diverse garment types and pile configurations in both simulation and the real world. Project page: https://garmentpile.github.io/.

arxiv情報

著者 Ruihai Wu,Ziyu Zhu,Yuran Wang,Yue Chen,Jiarui Wang,Hao Dong
発行日 2025-03-12 10:39:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GarmentPile: Point-Level Visual Affordance Guided Retrieval and Adaptation for Cluttered Garments Manipulation はコメントを受け付けていません