要約
衣服の操作は、複雑なダイナミクス、高い変形性、頻繁な自己閉鎖のために挑戦的です。
衣服は、ほぼ無限の数の構成を示し、明示的な状態表現を定義するのが困難になります。
このホワイトペーパーでは、視覚観測から言語で条件付けられたピックアンドプレイスアクションを予測するモデルであり、エンドツーエンドの学習を通じて衣服の状態を暗黙的にコードするモデルを分析します。
しわくちゃの衣服や失敗した操作からの回復などのシナリオに対処するために、Bifoldは時間的コンテキストを活用して状態の推定を改善します。
モデルの内部表現を調べ、その微調整と時間的コンテキストがテキスト領域と画像領域間の効果的なアライメント、および時間的一貫性を可能にするという証拠を提示します。
要約(オリジナル)
Manipulating clothes is challenging due to their complex dynamics, high deformability, and frequent self-occlusions. Garments exhibit a nearly infinite number of configurations, making explicit state representations difficult to define. In this paper, we analyze BiFold, a model that predicts language-conditioned pick-and-place actions from visual observations, while implicitly encoding garment state through end-to-end learning. To address scenarios such as crumpled garments or recovery from failed manipulations, BiFold leverages temporal context to improve state estimation. We examine the internal representations of the model and present evidence that its fine-tuning and temporal context enable effective alignment between text and image regions, as well as temporal consistency.
arxiv情報
著者 | Oriol Barbany,Adrià Colomé,Carme Torras |
発行日 | 2025-05-12 14:24:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google