要約
この論文では、最小限の意味論的入力に合わせた自動アフォーダンス推論パラダイムを紹介し、家庭環境における目に見えないオブジェクトのクラスを分類および操作するという重要な課題に取り組みます。
人間の認知プロセスにインスピレーションを得た私たちの手法は、生成言語モデルと物理ベースのシミュレーターを統合して、分析的思考と新しいアフォーダンスの創造的な想像力を促進します。
分析、想像、評価からなる 3 つのフレームワークで構造化された私たちのシステムは、要求されたアフォーダンス名をインタラクションベースの定義に「分析」し、仮想シナリオを「想像」し、オブジェクトのアフォーダンスを「評価」します。
オブジェクトが要求されたアフォーダンスを備えていると認識された場合、私たちの方法は、そのような機能に最適なポーズと、潜在的なユーザーがオブジェクトとどのように対話できるかを予測します。
3 つのアフォーダンス クラスにわたる少数の合成例のみを調整した当社のパイプラインは、8 クラスの新規オブジェクトのアフォーダンス分類と機能的ポーズ予測で非常に高い成功率を達成し、学習ベースのベースラインを上回ります。
実際のロボット操作実験による検証では、想像したユーザーインタラクションの実際的な適用可能性を実証し、目に見えないアフォーダンスを独立して概念化し、日常の設定で新しいオブジェクトやシナリオと対話するシステムの能力を示しています。
要約(オリジナル)
This paper introduces an automatic affordance reasoning paradigm tailored to minimal semantic inputs, addressing the critical challenges of classifying and manipulating unseen classes of objects in household settings. Inspired by human cognitive processes, our method integrates generative language models and physics-based simulators to foster analytical thinking and creative imagination of novel affordances. Structured with a tripartite framework consisting of analysis, imagination, and evaluation, our system ‘analyzes’ the requested affordance names into interaction-based definitions, ‘imagines’ the virtual scenarios, and ‘evaluates’ the object affordance. If an object is recognized as possessing the requested affordance, our method also predicts the optimal pose for such functionality, and how a potential user can interact with it. Tuned on only a few synthetic examples across 3 affordance classes, our pipeline achieves a very high success rate on affordance classification and functional pose prediction of 8 classes of novel objects, outperforming learning-based baselines. Validation through real robot manipulating experiments demonstrates the practical applicability of the imagined user interaction, showcasing the system’s ability to independently conceptualize unseen affordances and interact with new objects and scenarios in everyday settings.
arxiv情報
著者 | Ceng Zhang,Xin Meng,Dongchen Qi,Gregory S. Chirikjian |
発行日 | 2024-03-28 12:32:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google