要約
オブジェクトの再配置のタスク実行は、タスクレベルの摂動(TLP)、つまり、根本的な視覚ポリシーを混乱させ、タスクの実現可能性と進捗を根本的に侵害する可能性のある予期しないオブジェクトの追加、取り外し、および変位によって挑戦する可能性があります。
これらの課題に対処するために、卓上再配置タスクのTLP状況を検出および緩和するために設計された言語ベースのフレームワークであるLangpertを提示します。
Langpertは、視覚言語モデル(VLM)を統合して、ポリシーのスキル実行と環境TLPを包括的に監視し、階層的なチェーン(HCOT)推論メカニズムを活用して、大規模な言語モデル(LLM)のコンテキスト理解を強化し、適応性のある修正能力排出計画を生成します。
私たちの実験結果は、Langpertがベースライン方法よりも多様なTLP状況をより効果的に処理し、タスクの完了率の向上、実行効率の向上、および目に見えないシナリオの潜在的な一般化を達成することを示しています。
要約(オリジナル)
Task execution for object rearrangement could be challenged by Task-Level Perturbations (TLP), i.e., unexpected object additions, removals, and displacements that can disrupt underlying visual policies and fundamentally compromise task feasibility and progress. To address these challenges, we present LangPert, a language-based framework designed to detect and mitigate TLP situations in tabletop rearrangement tasks. LangPert integrates a Visual Language Model (VLM) to comprehensively monitor policy’s skill execution and environmental TLP, while leveraging the Hierarchical Chain-of-Thought (HCoT) reasoning mechanism to enhance the Large Language Model (LLM)’s contextual understanding and generate adaptive, corrective skill-execution plans. Our experimental results demonstrate that LangPert handles diverse TLP situations more effectively than baseline methods, achieving higher task completion rates, improved execution efficiency, and potential generalization to unseen scenarios.
arxiv情報
著者 | Xu Yin,Min-Sung Yoon,Yuchi Huo,Kang Zhang,Sung-Eui Yoon |
発行日 | 2025-04-14 05:39:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google