Open-Vocabulary Action Localization with Iterative Visual Prompting

要約

ビデオアクションローカリゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としています。
既存の学習ベースのアプローチは成功していますが、かなりの人件費が伴うビデオに注釈を付ける必要があります。
このペーパーでは、新たな既製の視覚言語モデル(VLM)に基づいた、トレーニングフリーのオープンボキャブラリーアプローチを提案します。
この課題は、VLMが長いビデオを処理するように設計されていないか、アクションを見つけるために調整されているという事実に起因しています。
反復的な視覚プロンプト技術を拡張することにより、これらの問題を克服します。
具体的には、ビデオフレームをサンプリングし、フレームインデックスラベルを使用して連結した画像を作成し、VLMがアクションの開始と終了に対応する可能性が最も高いフレームを識別できるようにします。
選択したフレームの周りのサンプリングウィンドウを繰り返し絞ることにより、推定は徐々により正確な時間的境界に収束します。
この手法が合理的なパフォーマンスをもたらし、最先端のゼロショットアクションローカリゼーションに匹敵する結果を達成することを実証します。
これらの結果は、ビデオを理解するための実用的なツールとしてのVLMの使用をサポートしています。
サンプルコードはhttps://microsoft.github.io/vlm-video-アクションロカリゼーション/で入手できます。

要約(オリジナル)

Video action localization aims to find the timings of specific actions from a long video. Although existing learning-based approaches have been successful, they require annotating videos, which comes with a considerable labor cost. This paper proposes a training-free, open-vocabulary approach based on emerging off-the-shelf vision-language models (VLMs). The challenge stems from the fact that VLMs are neither designed to process long videos nor tailored for finding actions. We overcome these problems by extending an iterative visual prompting technique. Specifically, we sample video frames and create a concatenated image with frame index labels, allowing a VLM to identify the frames that most likely correspond to the start and end of the action. By iteratively narrowing the sampling window around the selected frames, the estimation gradually converges to more precise temporal boundaries. We demonstrate that this technique yields reasonable performance, achieving results comparable to state-of-the-art zero-shot action localization. These results support the use of VLMs as a practical tool for understanding videos. Sample code is available at https://microsoft.github.io/VLM-Video-Action-Localization/

arxiv情報

著者 Naoki Wake,Atsushi Kanehira,Kazuhiro Sasabuchi,Jun Takamatsu,Katsushi Ikeuchi
発行日 2025-04-07 10:55:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Open-Vocabulary Action Localization with Iterative Visual Prompting はコメントを受け付けていません

Learning to Adapt through Bio-Inspired Gait Strategies for Versatile Quadruped Locomotion

要約

Deep Rehnection Learning(DRL)は、四足込んだロボットの移動に革命をもたらしましたが、既存の制御フレームワークは、トレーニング誘発性の観察範囲を超えて一般化するのに苦労しており、その結果、適応性と歩行能力が限られています。
対照的に、動物は歩行遷移戦略、多様な歩行利用、および即時の環境需要に対するシームレスな調整を通じて、並外れた適応性を達成します。
これらの機能に触発されて、動物の移動の重要な属性を組み込んだ新しいDRLフレームワークを提示します:歩行遷移戦略、擬似歩行手続き型メモリ、適応運動調整。
このアプローチにより、私たちのフレームワークは、複雑な地形での盲目的なゼロショット展開と、重大な不安定な状態からの回復を通じて実証されています。
私たちの調査結果は、動物の移動の生体力学に関する貴重な洞察を提供し、堅牢で適応可能なロボットシステムへの道を開いています。

要約(オリジナル)

Deep reinforcement learning (DRL) has revolutionised quadruped robot locomotion, but existing control frameworks struggle to generalise beyond their training-induced observational scope, resulting in limited adaptability and gait proficiency. In contrast, animals achieve exceptional adaptability through gait transition strategies, diverse gait utilisation, and seamless adjustment to immediate environmental demands. Inspired by these capabilities, we present a novel DRL framework that incorporates key attributes of animal locomotion: gait transition strategies, pseudo gait procedural memory, and adaptive motion adjustments. This approach enables our framework to achieve unparalleled adaptability, demonstrated through blind zero-shot deployment on complex terrains and recovery from critically unstable states. Our findings offer valuable insights into the biomechanics of animal locomotion, paving the way for robust, adaptable robotic systems.

arxiv情報

著者 Joseph Humphreys,Chengxu Zhou
発行日 2025-04-07 11:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning to Adapt through Bio-Inspired Gait Strategies for Versatile Quadruped Locomotion はコメントを受け付けていません

Constrained Gaussian Process Motion Planning via Stein Variational Newton Inference

要約

Gaussian Process Motion Planning(GPMP)は、限られた計算時間内にスムーズな軌跡を生成するための広く使用されているフレームワークです。これは、多くのロボットアプリケーションで重要な要件です。
ただし、従来のGPMPアプローチは、しばしば硬い非線形制約の実施に苦労し、完全なベイジアン事後を無視する最大の事後(MAP)ソリューションに依存しています。
これにより、計画の多様性が制限され、最終的には意思決定を妨げます。
Stein変異勾配降下(SVGD)を運動計画に統合するための最近の取り組みは、複雑な制約の処理において有望であることが示されています。
それにもかかわらず、これらの方法は、確率的推論の問題が不十分に条件付けられている場合の制約と非効率性を厳密に施行することの難しさなど、依然として永続的な課題に直面しています。
これらの問題に対処するために、ハード制約の下で軌道最適化のために特別に設計された以前のGPMPを組み込んだGPMPを組み込んだ、新しい制約されたStein変動ガウスプロセスモーションプランニング(CSGPMP)フレームワークを提案します。
私たちのアプローチは、非線形制約を明示的に処理しながら、粒子ベースの推論の効率を改善します。
この進歩により、GPMPの適用性が、限られた時間内に堅牢なベイジアン推論、厳密な制約順守、計算効率を要求するモーション計画シナリオに大幅に広がります。
標準ベンチマークでの方法を検証し、350の計画タスクで平均成功率が98.57%を達成し、競争力のあるベースラインを大幅に上回ります。
これは、多様な軌道モードを発見および使用する方法の能力を示しています。複雑な環境での柔軟性と適応性を高め、主要な計算コストを帯びることなく標準ベースラインよりも大幅な改善を実現します。

要約(オリジナル)

Gaussian Process Motion Planning (GPMP) is a widely used framework for generating smooth trajectories within a limited compute time–an essential requirement in many robotic applications. However, traditional GPMP approaches often struggle with enforcing hard nonlinear constraints and rely on Maximum a Posteriori (MAP) solutions that disregard the full Bayesian posterior. This limits planning diversity and ultimately hampers decision-making. Recent efforts to integrate Stein Variational Gradient Descent (SVGD) into motion planning have shown promise in handling complex constraints. Nonetheless, these methods still face persistent challenges, such as difficulties in strictly enforcing constraints and inefficiencies when the probabilistic inference problem is poorly conditioned. To address these issues, we propose a novel constrained Stein Variational Gaussian Process Motion Planning (cSGPMP) framework, incorporating a GPMP prior specifically designed for trajectory optimization under hard constraints. Our approach improves the efficiency of particle-based inference while explicitly handling nonlinear constraints. This advancement significantly broadens the applicability of GPMP to motion planning scenarios demanding robust Bayesian inference, strict constraint adherence, and computational efficiency within a limited time. We validate our method on standard benchmarks, achieving an average success rate of 98.57% across 350 planning tasks, significantly outperforming competitive baselines. This demonstrates the ability of our method to discover and use diverse trajectory modes, enhancing flexibility and adaptability in complex environments, and delivering significant improvements over standard baselines without incurring major computational costs.

arxiv情報

著者 Jiayun Li,Kay Pompetzki,An Thai Le,Haolei Tong,Jan Peters,Georgia Chalvatzaki
発行日 2025-04-07 11:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Constrained Gaussian Process Motion Planning via Stein Variational Newton Inference はコメントを受け付けていません

A Taxonomy of Self-Handover

要約

自分の手の間にオブジェクトを転送する自己携帯は、一般的ではあるが理解されていない二近の行動です。
複雑なタスクのシームレスな遷移を促進しますが、その実行の根底にある戦略は、ほとんど未開拓のままです。
ここでは、21人の参加者が行う12時間以上の調理活動の手動注釈から派生した、セルフハンドオーバーの最初の体系的な分類法を紹介します。
私たちの分析では、セルフハンドオーバーは単なる受動的な移行ではなく、両手による予測的調整を含む高度に調整されたアクションであることが明らかになりました。
人間の操作の自動分析に向けたステップとして、最先端のビジョン言語モデルを使用してセルフハンドオーバータイプを分類する可能性をさらに実証します。
これらの調査結果は、双方向の調整に関する新たな洞察を提供し、スムーズなタスクの移行を可能にする際のセルフハンドオーバーの役割を強調しています。

要約(オリジナル)

Self-handover, transferring an object between one’s own hands, is a common but understudied bimanual action. While it facilitates seamless transitions in complex tasks, the strategies underlying its execution remain largely unexplored. Here, we introduce the first systematic taxonomy of self-handover, derived from manual annotation of over 12 hours of cooking activity performed by 21 participants. Our analysis reveals that self-handover is not merely a passive transition, but a highly coordinated action involving anticipatory adjustments by both hands. As a step toward automated analysis of human manipulation, we further demonstrate the feasibility of classifying self-handover types using a state-of-the-art vision-language model. These findings offer fresh insights into bimanual coordination, underscoring the role of self-handover in enabling smooth task transitions-an ability essential for adaptive dual-arm robotics.

arxiv情報

著者 Naoki Wake,Atsushi Kanehira,Kazuhiro Sasabuchi,Jun Takamatsu,Katsushi Ikeuchi
発行日 2025-04-07 11:21:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | A Taxonomy of Self-Handover はコメントを受け付けていません

A High-Force Gripper with Embedded Multimodal Sensing for Powerful and Perception Driven Grasping

要約

現代のヒューマノイドロボットは、エンド効果を使用してオブジェクトの把握と操作を含むさまざまなタスクを実行するための有望な可能性を示しています。
それにもかかわらず、ほとんどの場合、把握および操作のアクションには、低から中程度のペイロードと相互作用の力が含まれます。
これは、エンドエフェクターがしばしば提示する制限が原因であり、腕を伸ばす可能性のあるペイロードと一致させることができないため、把握して操作できるペイロードを制限します。
さらに、グリッパーは通常、ハードウェアに適切な知覚を埋め込むことはなく、把握アクションは主に、ロボット本体の残りの部分にインストールされた知覚センサーによって駆動され、把握および操作タスクの実行中の腕の動きにより閉塞の影響を受けます。
上記に対処するために、埋め込まれたマルチモーダル知覚機能を備えたモジュラー高グラッシングフォースグリッパーを開発しました。
提案されたグリッパーは、コンパクトな実装で110 Nの握力を生成できます。
高い握る力能力は、目の入り口カメラ、飛行時間(TOF)距離センサー、慣性測定ユニット(IMU)、および全部方向マイクを含む埋め込みマルチモーダルセンシングと組み合わされ、知覚駆動型のグレーズ機能の実装を許可します。
ロボットアームの動的運動とグリッパーの熱状態の関数である新しいペイロード評価メトリックを導入することにより、グリッパーのグラッシング力容量を広範囲に評価しました。
また、知覚誘導拡張グレーシング操作を実行することにより、組み込みマルチモーダルセンシングを評価しました。

要約(オリジナル)

Modern humanoid robots have shown their promising potential for executing various tasks involving the grasping and manipulation of objects using their end-effectors. Nevertheless, in the most of the cases, the grasping and manipulation actions involve low to moderate payload and interaction forces. This is due to limitations often presented by the end-effectors, which can not match their arm-reachable payload, and hence limit the payload that can be grasped and manipulated. In addition, grippers usually do not embed adequate perception in their hardware, and grasping actions are mainly driven by perception sensors installed in the rest of the robot body, frequently affected by occlusions due to the arm motions during the execution of the grasping and manipulation tasks. To address the above, we developed a modular high grasping force gripper equipped with embedded multi-modal perception functionalities. The proposed gripper can generate a grasping force of 110 N in a compact implementation. The high grasping force capability is combined with embedded multi-modal sensing, which includes an eye-in-hand camera, a Time-of-Flight (ToF) distance sensor, an Inertial Measurement Unit (IMU) and an omnidirectional microphone, permitting the implementation of perception-driven grasping functionalities. We extensively evaluated the grasping force capacity of the gripper by introducing novel payload evaluation metrics that are a function of the robot arm’s dynamic motion and gripper thermal states. We also evaluated the embedded multi-modal sensing by performing perception-guided enhanced grasping operations.

arxiv情報

著者 Edoardo Del Bianco,Davide Torielli,Federico Rollo,Damiano Gasperini,Arturo Laurenzi,Lorenzo Baccelliere,Luca Muratore,Marco Roveri,Nikos G. Tsagarakis
発行日 2025-04-07 11:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | A High-Force Gripper with Embedded Multimodal Sensing for Powerful and Perception Driven Grasping はコメントを受け付けていません

STREAK: Streaming Network for Continual Learning of Object Relocations under Household Context Drifts

要約

実際の設定では、ロボットは多様なタスク全体で人間を支援し、時間の経過とともに動的な変化に継続的に適応することが期待されています。
たとえば、国内環境では、ロボットは、学習したルーチンに基づいて必要なオブジェクトを取得することでユーザーを積極的に支援できます。
ただし、これらの相互作用からのデータは本質的に非依存性であり、非同意的に分散されています(非I.I.D。)。たとえば、複数のユーザーを支援するロボットは、個人が異なる習慣に従うため、さまざまなデータ分布に遭遇する可能性があります。
これは挑戦を生み出します:壊滅的な忘却なしで新しい知識を統合することです。
これに対処するために、実世界のロボット学習のための継続的な学習フレームワークであるストリーク(適応知識保持による空間時間的再配置)を提案します。
ストリーミンググラフのニューラルネットワークを、正則化とリハーサル手法で活用して、過去の知識を保持しながら、コンテキストドリフトを緩和します。
私たちの方法は時間的およびメモリ効率が高く、過去のすべてのデータを再訓練せずに長期学習を可能にします。これは、実際の相互作用でデータが増加するにつれて実行不可能になります。
私たちは、異なる世帯で50日以上にわたって人間のルーチンを徐々に予測するタスクに関する連勝を評価します。
結果は、一般化を維持しながら壊滅的な忘却を効果的に防止し、長期的な人間とロボットの相互作用のためのスケーラブルなソリューションになっていることを示しています。

要約(オリジナル)

In real-world settings, robots are expected to assist humans across diverse tasks and still continuously adapt to dynamic changes over time. For example, in domestic environments, robots can proactively help users by fetching needed objects based on learned routines, which they infer by observing how objects move over time. However, data from these interactions are inherently non-independent and non-identically distributed (non-i.i.d.), e.g., a robot assisting multiple users may encounter varying data distributions as individuals follow distinct habits. This creates a challenge: integrating new knowledge without catastrophic forgetting. To address this, we propose STREAK (Spatio Temporal RElocation with Adaptive Knowledge retention), a continual learning framework for real-world robotic learning. It leverages a streaming graph neural network with regularization and rehearsal techniques to mitigate context drifts while retaining past knowledge. Our method is time- and memory-efficient, enabling long-term learning without retraining on all past data, which becomes infeasible as data grows in real-world interactions. We evaluate STREAK on the task of incrementally predicting human routines over 50+ days across different households. Results show that it effectively prevents catastrophic forgetting while maintaining generalization, making it a scalable solution for long-term human-robot interactions.

arxiv情報

著者 Ermanno Bartoli,Fethiye Irmak Dogan,Iolanda Leite
発行日 2025-04-07 11:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | STREAK: Streaming Network for Continual Learning of Object Relocations under Household Context Drifts はコメントを受け付けていません

Nocturnal eye inspired liquid to gas phase change soft actuator with Laser-Induced-Graphene: enhanced environmental light harvesting and photothermal conversion

要約

ロボットシステムのモビリティは、電源と配線によって制約されています。
空気圧アクチュエーターは供給につながれたままですが、光エネルギーを利用した新しいアクチュエーターを開発しました。
夜行性の動物の目に触発されて、私たちはシリコン層の内面にレーザー誘導グラフェン(LIG)を組み込んだ二重層のソフトアクチュエータを設計しました。
この設計により、シリコーンの透明性と柔軟性が維持され、光熱変換の強化により、従来のアクチュエーターと比較して54%の応答時間が54%速くなります。

要約(オリジナル)

Robotic systems’ mobility is constrained by power sources and wiring. While pneumatic actuators remain tethered to air supplies, we developed a new actuator utilizing light energy. Inspired by nocturnal animals’ eyes, we designed a bilayer soft actuator incorporating Laser-Induced Graphene (LIG) on the inner surface of a silicone layer. This design maintains silicone’s transparency and flexibility while achieving 54% faster response time compared to conventional actuators through enhanced photothermal conversion.

arxiv情報

著者 Maina Sogabe,Youhyun Kim,Hiroki Miyazako,Kenji Kawashima
発行日 2025-04-07 12:02:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Nocturnal eye inspired liquid to gas phase change soft actuator with Laser-Induced-Graphene: enhanced environmental light harvesting and photothermal conversion はコメントを受け付けていません

Wavelet Policy: Imitation Policy Learning in Frequency Domain with Wavelet Transforms

要約

しばしば時系列予測タスクとしてフレーム化された最近の模倣学習ポリシーは、高次元の視覚データとしてロボット観測を直接マッピングし、アクション空間に固有受容をマッピングします。
時系列の予測は主に空間ドメインモデリングに依存していますが、ロボット操作の軌跡予測における周波数ドメイン分析の十分に活用されると、アクションシーケンス内に埋め込まれた固有の時間情報を無視することにつながる可能性があります。
これに対処するために、周波数ドメインのレンズを通して模倣学習ポリシーを再構成し、ウェーブレットポリシーを導入します。
この新しいアプローチでは、SE2MD(単一エンコーダーから複数のデコーダーまで)アーキテクチャを使用して、特徴前処理にウェーブレット変換(WT)を使用し、周波数ドメインからマルチスケール機能を抽出します。
さらに、周波数ドメインでの特徴マッピングを強化し、モデル容量を増加させるために、各周波数デコーダーの後に学習可能な周波数ドメインフィルター(LFDF)を導入し、異なる視覚条件下で適応性を向上させます。
我々の結果は、ウェーブレットポリシーが、同等のパラメーターカウントを維持しながら、4つの挑戦的なロボットアームタスクで最先端の(SOTA)エンドツーエンドのメソッドを10%以上上回ることを示しています。
長距離設定では、タスクのボリュームが増加するにつれて、パフォーマンスはゆっくりと低下します。
コードは公開されます。

要約(オリジナル)

Recent imitation learning policies, often framed as time series prediction tasks, directly map robotic observations-such as high-dimensional visual data and proprioception-into the action space. While time series prediction primarily relies on spatial domain modeling, the underutilization of frequency domain analysis in robotic manipulation trajectory prediction may lead to neglecting the inherent temporal information embedded within action sequences. To address this, we reframe imitation learning policies through the lens of the frequency domain and introduce the Wavelet Policy. This novel approach employs wavelet transforms (WT) for feature preprocessing and extracts multi-scale features from the frequency domain using the SE2MD (Single Encoder to Multiple Decoder) architecture. Furthermore, to enhance feature mapping in the frequency domain and increase model capacity, we introduce a Learnable Frequency-Domain Filter (LFDF) after each frequency decoder, improving adaptability under different visual conditions. Our results show that the Wavelet Policy outperforms state-of-the-art (SOTA) end-to-end methods by over 10% on four challenging robotic arm tasks, while maintaining a comparable parameter count. In long-range settings, its performance declines more slowly as task volume increases. The code will be publicly available.

arxiv情報

著者 Changchuan Yang,Yuhang Dong,Guanzhong Tian,Haizhou Ge,Hongrui Zhu
発行日 2025-04-07 12:16:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Wavelet Policy: Imitation Policy Learning in Frequency Domain with Wavelet Transforms はコメントを受け付けていません

CONCERT: a Modular Reconfigurable Robot for Construction

要約

このペーパーでは、建設現場での複数のオンサイトオペレーションのための完全に再構成可能なモジュール式コラボレーションロボット(コボット)であるコンサートを紹介します。
コンサートは、高出力密度モーターとモジュール性という2つの主要な特性を活用することにより、建設現場での人間の活動をサポートするように設計されています。
このようにして、ロボットは、人間のオペレーターの同僚として行動するか、ユーザーの指示に従って自律的に実行することにより、幅広い非常に要求の厳しいタスクを実行することができます。
その汎用性のほとんどは、受動的またはアクティブなモジュールを追加または削除することにより、その運動学構造を迅速に変化させる可能性に由来しています。
このようにして、ロボットは膨大な一連の形態学でセットアップできるため、実行するタスクに応じてワークスペースと機能を変更できます。
同様に、異なる操作の実行のために、遠位エンド効果を交換できます。
このペーパーには、ロボットの形態を自動的に発見および展開するために採用されたソフトウェアパイプラインの完全な説明も含まれています。
具体的には、インストールされているモジュールに応じて、ロボットは各モジュールに組み込まれた情報を考慮して、運動学、動的、および幾何学的パラメーターを更新します。
このようにして、ロボットを10分以内に完全に再組み立てし、動作させる方法を示します。
掘削、サンディング、プラスター化、障害物の回避を伴う共同輸送など、さまざまなユースケースでコンサートロボットを検証しました。これらはすべて、実際の建設現場のシナリオで実行されました。
電力とワークスペースの点で異なる要件を特徴とする複数のシナリオで、ロボットの適応性とパフォーマンスを実証しました。
コンサートは、ヨーロッパプロジェクト2020コンサートの文脈で、イタイアーノディテクノロジアでヒューマノイドおよび人間中心のメカトロニクス研究所(HHCM)によって設計および構築されました。

要約(オリジナル)

This paper presents CONCERT, a fully reconfigurable modular collaborative robot (cobot) for multiple on-site operations in a construction site. CONCERT has been designed to support human activities in construction sites by leveraging two main characteristics: high-power density motors and modularity. In this way, the robot is able to perform a wide range of highly demanding tasks by acting as a co-worker of the human operator or by autonomously executing them following user instructions. Most of its versatility comes from the possibility of rapidly changing its kinematic structure by adding or removing passive or active modules. In this way, the robot can be set up in a vast set of morphologies, consequently changing its workspace and capabilities depending on the task to be executed. In the same way, distal end-effectors can be replaced for the execution of different operations. This paper also includes a full description of the software pipeline employed to automatically discover and deploy the robot morphology. Specifically, depending on the modules installed, the robot updates the kinematic, dynamic, and geometric parameters, taking into account the information embedded in each module. In this way, we demonstrate how the robot can be fully reassembled and made operational in less than ten minutes. We validated the CONCERT robot across different use cases, including drilling, sanding, plastering, and collaborative transportation with obstacle avoidance, all performed in a real construction site scenario. We demonstrated the robot’s adaptivity and performance in multiple scenarios characterized by different requirements in terms of power and workspace. CONCERT has been designed and built by the Humanoid and Human-Centered Mechatronics Laboratory (HHCM) at the Istituto Italiano di Tecnologia in the context of the European Project Horizon 2020 CONCERT.

arxiv情報

著者 Luca Rossini,Edoardo Romiti,Arturo Laurenzi,Francesco Ruscelli,Marco Ruzzon,Luca Covizzi,Lorenzo Baccelliere,Stefano Carrozzo,Michael Terzer,Marco Magri,Carlo Morganti,Maolin Lei,Liana Bertoni,Diego Vedelago,Corrado Burchielli,Stefano Cordasco,Luca Muratore,Andrea Giusti,Nikos Tsagarakis
発行日 2025-04-07 12:25:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CONCERT: a Modular Reconfigurable Robot for Construction はコメントを受け付けていません

CloSE: A Compact Shape- and Orientation-Agnostic Cloth State Representation

要約

布の操作は、主に布の非剛性の性質のために困難な問題であり、これが変形の良い表現を不可欠にします。
衣服の変形状態の新しい表現を提示します。
まず、円形のグリッドに配置された布メッシュ境界の縁のセグメントに対して計算されたトポロジーインデックスに基づいて、DGLIディスク表現を提案します。
DGLIディスクのヒートマップは、さまざまな形状、角の位置のサイズ、コーナー、折り畳みの場所に一貫している布の特徴に対応するパターンを明らかにします。
次に、これらの重要な機能をDGLIディスクから円に抽象化し、布の状態表現(近接)と呼びます。
この表現は、異なる形状に対してコンパクトで連続的で、一般的です。
最後に、セマンティックラベリングと高レベルおよび低レベルの計画という2つの関連アプリケーションで、この表現の強みを示します。
コード、データセット、ビデオにはhttps://jaykamat99.github.io/close-representationからアクセスできます。

要約(オリジナル)

Cloth manipulation is a difficult problem mainly because of the non-rigid nature of cloth, which makes a good representation of deformation essential. We present a new representation for the deformation-state of clothes. First, we propose the dGLI disk representation, based on topological indices computed for segments on the edges of the cloth mesh border that are arranged on a circular grid. The heat-map of the dGLI disk uncovers patterns that correspond to features of the cloth state that are consistent for different shapes, sizes of positions of the cloth, like the corners and the fold locations. We then abstract these important features from the dGLI disk onto a circle, calling it the Cloth StatE representation (CloSE). This representation is compact, continuous, and general for different shapes. Finally, we show the strengths of this representation in two relevant applications: semantic labeling and high- and low-level planning. The code, the dataset and the video can be accessed from : https://jaykamat99.github.io/close-representation

arxiv情報

著者 Jay Kamat,Júlia Borràs,Carme Torras
発行日 2025-04-07 12:54:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CloSE: A Compact Shape- and Orientation-Agnostic Cloth State Representation はコメントを受け付けていません