CLIPGraphs: Multimodal Graph Networks to Infer Object-Room Affinities

要約

本論文では、具現化されたシーン再配置のために、物体を置くのに最適な部屋を決定するための新しい方法を紹介する。最先端のアプローチは、このタスクのために大規模言語モデル(LLM)や強化学習(RL)ポリシーに依存しているが、我々のアプローチであるCLIPGraphsは、常識的なドメイン知識、データ駆動型手法、およびマルチモーダル学習における最近の進歩を効率的に組み合わせている。具体的には、(a)家庭環境における異なる物体の部屋の位置に関する人間の事前嗜好の知識グラフを符号化し、(b)画像やテキストに基づくマルチモーダルクエリをサポートするために視覚言語特徴を組み込み、(c)事前知識と視覚言語特徴の埋め込みに基づく物体-部屋の親和性を学習するグラフネットワークを使用する。本アプローチは、ベンチマークとなるオブジェクトのカテゴリセットから、オブジェクトの最も適切な位置の推定を、最先端のベースラインと比較して、より良く提供することを実証する。

要約(オリジナル)

This paper introduces a novel method for determining the best room to place an object in, for embodied scene rearrangement. While state-of-the-art approaches rely on large language models (LLMs) or reinforcement learned (RL) policies for this task, our approach, CLIPGraphs, efficiently combines commonsense domain knowledge, data-driven methods, and recent advances in multimodal learning. Specifically, it (a)encodes a knowledge graph of prior human preferences about the room location of different objects in home environments, (b) incorporates vision-language features to support multimodal queries based on images or text, and (c) uses a graph network to learn object-room affinities based on embeddings of the prior knowledge and the vision-language features. We demonstrate that our approach provides better estimates of the most appropriate location of objects from a benchmark set of object categories in comparison with state-of-the-art baselines

arxiv情報

著者 Ayush Agrawal,Raghav Arora,Ahana Datta,Snehasis Banerjee,Brojeshwar Bhowmick,Krishna Murthy Jatavallabhula,Mohan Sridharan,Madhava Krishna
発行日 2023-06-02 13:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク