Temporal and Semantic Evaluation Metrics for Foundation Models in Post-Hoc Analysis of Robotic Sub-tasks

要約

タスクとモーションプランニング(TAMP)の最近の研究は、質の高いラベル付きデータを使用した言語監視ロボットの軌跡に関するトレーニング制御ポリシーがエージェントタスクの成功率を著しく改善することを示しています。
ただし、そのようなデータの希少性は、これらの方法を一般的なユースケースに拡張することに重大なハードルを示しています。
この懸念に対処するために、大規模な言語モデル(LLMS)とビジョン言語モデル(VLM)の両方を含むファンデーションモデル(FMS)の最近のプロンプト戦略を活用することにより、軌道データを時間的に境界ベースの記述サブタスクに分解する自動化されたフレームワークを提示します。
私たちのフレームワークは、完全な軌跡を構成する低レベルのサブタスクの時間ベースと言語ベースの説明を提供します。
自動ラベル付けフレームワークの品質を厳密に評価するために、アルゴリズムの類似性を提供して、2つの新しいメトリック、時間的類似性とセマンティックな類似性を生成します。
メトリックは、2つのサブタスク分解、つまりFMサブタスク分解予測とグラウンドトゥルースサブタスク分解の間の言語説明の時間的アライメントとセマンティックな忠実度を測定します。
複数のロボット環境のランダム化ベースラインの30%と比較して、一時的な類似性とセマンティックの類似性のスコアを90%を超えて提示し、提案されたフレームワークの有効性を示しています。
私たちの結果により、ロボットタンプを改善するために、多様で大規模な言語監視データセットの構築が可能になります。

要約(オリジナル)

Recent works in Task and Motion Planning (TAMP) show that training control policies on language-supervised robot trajectories with quality labeled data markedly improves agent task success rates. However, the scarcity of such data presents a significant hurdle to extending these methods to general use cases. To address this concern, we present an automated framework to decompose trajectory data into temporally bounded and natural language-based descriptive sub-tasks by leveraging recent prompting strategies for Foundation Models (FMs) including both Large Language Models (LLMs) and Vision Language Models (VLMs). Our framework provides both time-based and language-based descriptions for lower-level sub-tasks that comprise full trajectories. To rigorously evaluate the quality of our automatic labeling framework, we contribute an algorithm SIMILARITY to produce two novel metrics, temporal similarity and semantic similarity. The metrics measure the temporal alignment and semantic fidelity of language descriptions between two sub-task decompositions, namely an FM sub-task decomposition prediction and a ground-truth sub-task decomposition. We present scores for temporal similarity and semantic similarity above 90%, compared to 30% of a randomized baseline, for multiple robotic environments, demonstrating the effectiveness of our proposed framework. Our results enable building diverse, large-scale, language-supervised datasets for improved robotic TAMP.

arxiv情報

著者 Jonathan Salfity,Selma Wanna,Minkyu Choi,Mitch Pryor
発行日 2025-04-01 03:50:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク