A Saliency-Guided Street View Image Inpainting Framework for Efficient Last-Meters Wayfinding

要約

全地球測位システム (GPS) は、さまざまなナビゲーション アプリケーションで重要な役割を果たしてきました。
それにもかかわらず、最後の数メートル以内に完璧な目的地を特定することは、重要ではあるが未解決の問題のままです.
GPS 測位の精度によって制限されるため、ナビゲーション システムは常にユーザーに目的地の近くを表示しますが、正確な位置は表示しません。
没入型メディア テクノロジとしてのマップ内のストリート ビュー画像 (SVI) は、人間が最後の数メートルの道案内を行うための物理的環境を提供するのに役立ちました。
ただし、地理的コンテキストと取得条件が非常に多様であるため、キャプチャされた SVI には常にさまざまな気を散らすオブジェクト (歩行者や車両など) が含まれており、最後の数メートルで目的地を効率的に見つけることから人間の視覚的注意をそらします。
この問題に対処するために、顕著ガイド付き画像修復フレームワークを提案することにより、画像ベースの道案内で視覚的な気晴らしを減らすことの重要性を強調します。
これは、人間の視覚的注意を気を散らすオブジェクトから目的地に関連するオブジェクトにリダイレクトして、最後のメーターでより効率的かつ正確な道案内を行うことを目的としています。
具体的には、SVI の 3 つのセマンティック レベルから気を散らすオブジェクトを抽出するために、深い顕著なオブジェクト検出によって駆動される、コンテキストを意識した気を散らすオブジェクト検出方法が設計されています。
次に、検出された気を散らすオブジェクトを削除するために、高速フーリエ畳み込みを使用したラージ マスク修復法を採用します。
定性分析と定量分析の両方による実験結果は、顕著性に基づく修復方法がストリートビュー画像で優れた知覚品質を達成できるだけでなく、人間の視覚的注意をリダイレクトして、気を散らすものではなく静的な場所に関連するオブジェクトに集中できることを示しています。
人間ベースの評価は、ターゲットの目的地を見つける効率を改善する上での方法の有効性も正当化しました。

要約(オリジナル)

Global Positioning Systems (GPS) have played a crucial role in various navigation applications. Nevertheless, localizing the perfect destination within the last few meters remains an important but unresolved problem. Limited by the GPS positioning accuracy, navigation systems always show users a vicinity of a destination, but not its exact location. Street view images (SVI) in maps as an immersive media technology have served as an aid to provide the physical environment for human last-meters wayfinding. However, due to the large diversity of geographic context and acquisition conditions, the captured SVI always contains various distracting objects (e.g., pedestrians and vehicles), which will distract human visual attention from efficiently finding the destination in the last few meters. To address this problem, we highlight the importance of reducing visual distraction in image-based wayfinding by proposing a saliency-guided image inpainting framework. It aims at redirecting human visual attention from distracting objects to destination-related objects for more efficient and accurate wayfinding in the last meters. Specifically, a context-aware distracting object detection method driven by deep salient object detection has been designed to extract distracting objects from three semantic levels in SVI. Then we employ a large-mask inpainting method with fast Fourier convolutions to remove the detected distracting objects. Experimental results with both qualitative and quantitative analysis show that our saliency-guided inpainting method can not only achieve great perceptual quality in street view images but also redirect the human’s visual attention to focus more on static location-related objects than distracting ones. The human-based evaluation also justified the effectiveness of our method in improving the efficiency of locating the target destination.

arxiv情報

著者 Chuanbo Hu,Shan Jia,Fan Zhang,Xin Li
発行日 2022-11-17 13:40:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク