要約
画像分類、物体検出などの視覚ベースの認識は、コンピュータ ビジョンおよびロボット工学コミュニティにおける長年の課題です。
ロボット技術者に関して言えば、環境の知識は複雑なナビゲーション タスクの前提条件であるため、視覚的な場所認識は、ほとんどのローカライゼーションの実装や、同時ローカライゼーションとマッピング (SLAM) 内の再ローカライゼーションおよびループ クロージャ検出パイプラインにとって不可欠です。
より具体的には、コンピュータ ビジョン ツールを使用して、以前に訪問した場所を識別して照合するシステムの機能に対応します。
精度と堅牢性が向上した新しい技術の開発に向けて、研究者らは最近、自然言語処理手法で得られた成功に動機づけられながら、視覚データとテキストデータを統合する視覚言語モデルに注目しています。
要約(オリジナル)
Visual-based recognition, e.g., image classification, object detection, etc., is a long-standing challenge in computer vision and robotics communities. Concerning the roboticists, since the knowledge of the environment is a prerequisite for complex navigation tasks, visual place recognition is vital for most localization implementations or re-localization and loop closure detection pipelines within simultaneous localization and mapping (SLAM). More specifically, it corresponds to the system’s ability to identify and match a previously visited location using computer vision tools. Towards developing novel techniques with enhanced accuracy and robustness, while motivated by the success presented in natural language processing methods, researchers have recently turned their attention to vision-language models, which integrate visual and textual data.
arxiv情報
著者 | Antonios Gasteratos,Konstantinos A. Tsintotas,Tobias Fischer,Yiannis Aloimonos,Michael Milford |
発行日 | 2024-11-18 11:36:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google