LOP-Field: Brain-inspired Layout-Object-Position Fields for Robotic Scene Understanding

要約

空間認識は、動物に驚くほど効率的なナビゲーション能力を与えますが、これは主に空間環境のシーンレベルの理解に依存します。
最近、ラットの脳の鼻後皮質にある神経集団が、シーン内の物体よりも空間配置に強く同調していることが判明しました。
異なる領域を個別にエンコードするためのローカル シーンの空間レイアウトの表現に触発され、ロボット シーンを理解するための階層表現をモデル化するためのレイアウト-オブジェクト-位置 (LOP) の関連付けを実現する LOP フィールドを提案しました。
基礎モデルと暗黙的なシーン表現を活用したニューラル フィールドは、ロボットのシーン メモリとして実装され、位置、オブジェクト、レイアウトに関する情報を含むクエリ可能なシーン表現を保存します。
構築された LOP の関連付けを検証するために、定量的なメトリクスを使用して 3D 位置から領域情報を推測するモデルがテストされ、平均 88\% 以上の精度が達成されました。
また、領域情報を使用する提案された方法は、最先端の位置特定方法と比較して、テキストおよびRGB入力で改善されたオブジェクトおよびビューの位置特定結果を達成できることも示されています。

要約(オリジナル)

Spatial cognition empowers animals with remarkably efficient navigation abilities, largely depending on the scene-level understanding of spatial environments. Recently, it has been found that a neural population in the postrhinal cortex of rat brains is more strongly tuned to the spatial layout rather than objects in a scene. Inspired by the representations of spatial layout in local scenes to encode different regions separately, we proposed LOP-Field that realizes the Layout-Object-Position(LOP) association to model the hierarchical representations for robotic scene understanding. Powered by foundation models and implicit scene representation, a neural field is implemented as a scene memory for robots, storing a queryable representation of scenes with position-wise, object-wise, and layout-wise information. To validate the built LOP association, the model is tested to infer region information from 3D positions with quantitative metrics, achieving an average accuracy of more than 88\%. It is also shown that the proposed method using region information can achieve improved object and view localization results with text and RGB input compared to state-of-the-art localization methods.

arxiv情報

著者 Jiawei Hou,Wenhao Guan,Xiangyang Xue,Taiping Zeng
発行日 2024-06-11 15:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク