要約
この作業は、目に見えないオブジェクトの空間分布を推定することにより、信念シーングラフを拡張することに焦点を当てた、常識シーン構成の概念を確立します。
具体的には、常識シーンの構成能力は、シーン内の関連するオブジェクト間の空間的関係の理解を指します。この記事では、セマンティックオブジェクトクラスのすべての可能な場所の共同確率分布としてモデル化されています。
提案されたフレームワークには、学習確率分布のための相関情報(CECI)モデルの2つのバリエーションが含まれています。(i)グラフ畳み込みネットワークに基づくベースラインアプローチ、および(ii)大手言語モデル(LLM)に基づく空間オントロジーを統合する神経腫瘍拡張。
さらに、この記事では、このようなタスクのデータセット生成プロセスの詳細な説明を提供します。
最後に、フレームワークは、シミュレートされたデータでの複数の実行と、実際の屋内環境での複数の実行を通じて検証されており、さまざまな部屋の種類にわたってシーンを空間的に解釈する能力を実証しています。
要約(オリジナル)
This work establishes the concept of commonsense scene composition, with a focus on extending Belief Scene Graphs by estimating the spatial distribution of unseen objects. Specifically, the commonsense scene composition capability refers to the understanding of the spatial relationships among related objects in the scene, which in this article is modeled as a joint probability distribution for all possible locations of the semantic object class. The proposed framework includes two variants of a Correlation Information (CECI) model for learning probability distributions: (i) a baseline approach based on a Graph Convolutional Network, and (ii) a neuro-symbolic extension that integrates a spatial ontology based on Large Language Models (LLMs). Furthermore, this article provides a detailed description of the dataset generation process for such tasks. Finally, the framework has been validated through multiple runs on simulated data, as well as in a real-world indoor environment, demonstrating its ability to spatially interpret scenes across different room types.
arxiv情報
著者 | Mario A. V. Saucedo,Vignesh Kottayam Viswanathan,Christoforos Kanellakis,George Nikolakopoulos |
発行日 | 2025-05-05 06:55:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google