要約
オブジェクトとその関係の州の分類は、特にロボットの計画と操作において、多くの長老のタスクの中心です。
ただし、新しい実世界環境に適応する必要性と相まって、可能なオブジェクトプレジョンの組み合わせの組み合わせ爆発により、州分類モデルが少数の例を持つ新しいクエリに一般化することを要求することになります。
この目的のために、Phierを提案します。Phierは、いくつかのショットシナリオで効果的に一般化するために述語階層を活用することを提案します。
Phierは、述語間の意味関係を推測するオブジェクト中心のシーンエンコーダー、自己監視された損失、および階層構造をキャプチャする双曲線距離メトリックを使用します。
州の分類クエリを介して推論を導く画像予測ペアの構造化された潜在スペースを学習します。
カルバンおよび行動ロボット環境のPhierを評価し、Phierが既存のメソッドを少ないショットで分散していない状態分類で大幅に上回り、シミュレーションから現実世界のタスクまで強いゼロおよび少ないショットの一般化を示していることを示しています。
我々の結果は、述語階層を活用すると、データが限られている状態分類タスクのパフォーマンスが向上することを示しています。
要約(オリジナル)
State classification of objects and their relations is core to many long-horizon tasks, particularly in robot planning and manipulation. However, the combinatorial explosion of possible object-predicate combinations, coupled with the need to adapt to novel real-world environments, makes it a desideratum for state classification models to generalize to novel queries with few examples. To this end, we propose PHIER, which leverages predicate hierarchies to generalize effectively in few-shot scenarios. PHIER uses an object-centric scene encoder, self-supervised losses that infer semantic relations between predicates, and a hyperbolic distance metric that captures hierarchical structure; it learns a structured latent space of image-predicate pairs that guides reasoning over state classification queries. We evaluate PHIER in the CALVIN and BEHAVIOR robotic environments and show that PHIER significantly outperforms existing methods in few-shot, out-of-distribution state classification, and demonstrates strong zero- and few-shot generalization from simulated to real-world tasks. Our results demonstrate that leveraging predicate hierarchies improves performance on state classification tasks with limited data.
arxiv情報
著者 | Emily Jin,Joy Hsu,Jiajun Wu |
発行日 | 2025-02-18 03:08:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google