要約
布の折りたたみは、衣服の避けられない自己閉鎖、複雑なダイナミクス、衣服が持つことができる異なる素材、幾何学、テクスチャーのために、複雑な作業です。
この作業では、テキストコマンドに条件付けられた折り畳みアクションを学びます。
高レベルの抽象的な指示を正確なロボットアクションに変換するには、洗練された言語の理解と操作能力が必要です。
そのために、事前に訓練されたビジョン言語モデルを活用し、それを再利用して操作アクションを予測します。
私たちのモデルであるBifoldは、コンテキストを考慮し、既存の言語条件付きの折りたたみ式ベンチマークで最先端のパフォーマンスを実現できます。
注釈付きの両手折りたたみデータの欠如に対処するために、自動的に解析されたアクションと言語並列命令を備えた新しいデータセットを導入し、テキストコンディショニングされた操作のより良い学習を可能にします。
Bifoldは、データセットで最高のパフォーマンスを達成し、新しい指示、衣服、環境への強力な一般化を示しています。
要約(オリジナル)
Cloth folding is a complex task due to the inevitable self-occlusions of clothes, their complicated dynamics, and the disparate materials, geometries, and textures that garments can have. In this work, we learn folding actions conditioned on text commands. Translating high-level, abstract instructions into precise robotic actions requires sophisticated language understanding and manipulation capabilities. To do that, we leverage a pre-trained vision-language model and repurpose it to predict manipulation actions. Our model, BiFold, can take context into account and achieves state-of-the-art performance on an existing language-conditioned folding benchmark. To address the lack of annotated bimanual folding data, we introduce a novel dataset with automatically parsed actions and language-aligned instructions, enabling better learning of text-conditioned manipulation. BiFold attains the best performance on our dataset and demonstrates strong generalization to new instructions, garments, and environments.
arxiv情報
著者 | Oriol Barbany,Adrià Colomé,Carme Torras |
発行日 | 2025-06-16 09:20:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google