Enhancing Fine-Grained 3D Object Recognition using Hybrid Multi-Modal Vision Transformer-CNN Models

要約

小売店、レストラン、家庭など、人間中心の環境で活動するロボットは、異なる文脈にある類似の物体を高い精度で区別することが求められることが多い。しかし、カテゴリ内非類似度が高く、カテゴリ間非類似度が低いため、ロボットにおいて、きめ細かな物体認識は依然として課題となっています。また、細密な3Dデータセットの数が限られているため、この問題に効果的に取り組む上で大きな問題となる。本論文では、細目視覚分類(FGVC)の性能を向上させるために、ハイブリッドマルチモーダルVision Transformer(ViT)とConvolutional Neural Networks(CNN)アプローチを提案します。FGVCの3Dデータセットの不足に対処するため、我々は2つの合成データセットを生成した。最初のデータセットはレストランに関連する20のカテゴリーからなり、合計100のインスタンスからなり、2番目のデータセットは120の靴のインスタンスからなる。両データセットで我々のアプローチを評価した結果、CNNのみのベースラインとViTのみのベースラインの両方を上回り、レストランと靴のデータセットでそれぞれ94.50 %と93.51 %の認識精度を達成したことが示された。さらに、FGVC RGB-Dデータセットを研究コミュニティに公開し、さらなる実験と進化を可能にしました。さらに、我々は提案手法をロボットフレームワークと統合することに成功し、シミュレーションと実世界のロボットシナリオの両方において、きめ細かな知覚ツールとしての可能性を実証しました。

要約(オリジナル)

Robots operating in human-centered environments, such as retail stores, restaurants, and households, are often required to distinguish between similar objects in different contexts with a high degree of accuracy. However, fine-grained object recognition remains a challenge in robotics due to the high intra-category and low inter-category dissimilarities. In addition, the limited number of fine-grained 3D datasets poses a significant problem in addressing this issue effectively. In this paper, we propose a hybrid multi-modal Vision Transformer (ViT) and Convolutional Neural Networks (CNN) approach to improve the performance of fine-grained visual classification (FGVC). To address the shortage of FGVC 3D datasets, we generated two synthetic datasets. The first dataset consists of 20 categories related to restaurants with a total of 100 instances, while the second dataset contains 120 shoe instances. Our approach was evaluated on both datasets, and the results indicate that it outperforms both CNN-only and ViT-only baselines, achieving a recognition accuracy of 94.50 % and 93.51 % on the restaurant and shoe datasets, respectively. Additionally, we have made our FGVC RGB-D datasets available to the research community to enable further experimentation and advancement. Furthermore, we successfully integrated our proposed method with a robot framework and demonstrated its potential as a fine-grained perception tool in both simulated and real-world robotic scenarios.

arxiv情報

著者 Songsong Xiong,Georgios Tziafas,Hamidreza Kasaei
発行日 2023-03-06 15:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク