SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation

要約

衣服は多様で変形しやすい性質があるため、衣服操作の自動化は支援ロボットにとって大きな課題となっています。
従来のアプローチでは通常、衣服の種類ごとに個別のモデルが必要となるため、拡張性と適応性が制限されます。
対照的に、この論文では、ビジョン言語モデル (VLM) を使用して、さまざまな衣類カテゴリにわたるキーポイント予測を改善する統合アプローチを紹介します。
私たちのモデルは、視覚情報と意味情報の両方を解釈することにより、ロボットが単一のモデルでさまざまな衣服の状態を管理できるようにします。
高度なシミュレーション技術を使用して大規模な合成データセットを作成し、大規模な現実世界のデータがなくてもスケーラブルなトレーニングを可能にしました。
実験結果は、VLM ベースの方法がキーポイント検出の精度とタスクの成功率を大幅に向上させ、ロボットによる衣服操作のためのより柔軟で一般的なソリューションを提供することを示しています。
さらに、この研究は、VLM が単一のフレームワーク内でさまざまな衣類操作タスクを統合し、将来のホーム オートメーションや支援ロボティクスにおけるより広範なアプリケーションへの道を開く可能性があることも強調しています。

要約(オリジナル)

Automating garment manipulation poses a significant challenge for assistive robotics due to the diverse and deformable nature of garments. Traditional approaches typically require separate models for each garment type, which limits scalability and adaptability. In contrast, this paper presents a unified approach using vision-language models (VLMs) to improve keypoint prediction across various garment categories. By interpreting both visual and semantic information, our model enables robots to manage different garment states with a single model. We created a large-scale synthetic dataset using advanced simulation techniques, allowing scalable training without extensive real-world data. Experimental results indicate that the VLM-based method significantly enhances keypoint detection accuracy and task success rates, providing a more flexible and general solution for robotic garment manipulation. In addition, this research also underscores the potential of VLMs to unify various garment manipulation tasks within a single framework, paving the way for broader applications in home automation and assistive robotics for future.

arxiv情報

著者 Xin Li,Siyuan Huang,Qiaojun Yu,Zhengkai Jiang,Ce Hao,Yimeng Zhu,Hongsheng Li,Peng Gao,Cewu Lu
発行日 2024-10-07 12:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク