Human-Inspired Topological Representations for Visual Object Recognition in Unseen Environments

要約

目に見えず雑然とした屋内環境における視覚物体認識は、移動ロボットにとって困難な問題です。
この目標に向けて、私たちはこれまでの研究を拡張して、TOPS2 記述子と、オブジェクト ユニティとして知られる人間の推論メカニズムにヒントを得た付随する認識フレームワーク THOR2 を提案します。
トポロジカル ソフト クラスタリング用のマッパー アルゴリズムを使用して取得したカラー エンベディングを、形状ベースの TOPS 記述子とインターリーブして、TOPS2 記述子を取得します。
合成データを使用してトレーニングされた THOR2 は、形状ベースの THOR フレームワークよりも大幅に高い認識精度を達成し、ベンチマーク OCID データセットと UW-IS Occluded データセットという 2 つの現実世界のデータセットで RGB-D ViT を上回ります。
したがって、THOR2 は、低コストのロボットで堅牢な認識を実現するための有望なステップとなります。

要約(オリジナル)

Visual object recognition in unseen and cluttered indoor environments is a challenging problem for mobile robots. Toward this goal, we extend our previous work to propose the TOPS2 descriptor, and an accompanying recognition framework, THOR2, inspired by a human reasoning mechanism known as object unity. We interleave color embeddings obtained using the Mapper algorithm for topological soft clustering with the shape-based TOPS descriptor to obtain the TOPS2 descriptor. THOR2, trained using synthetic data, achieves substantially higher recognition accuracy than the shape-based THOR framework and outperforms RGB-D ViT on two real-world datasets: the benchmark OCID dataset and the UW-IS Occluded dataset. Therefore, THOR2 is a promising step toward achieving robust recognition in low-cost robots.

arxiv情報

著者 Ekta U. Samani,Ashis G. Banerjee
発行日 2023-09-15 08:24:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク