要約
変更された画像やビデオのオンライン普及を大幅に増加させた生成AI技術の最近の進歩は、インターネット上で利用可能なデジタルメディアの信頼性について深刻な懸念を提起し、情報チャネルとソーシャルネットワークを通じて配布されています。
この問題は、ジャーナリズム、法医学分析、地球観察などの信頼できるデータに大きく依存しているドメインに特に影響します。
これらの懸念に対処するために、GPS座標などの外部情報なしで非GEOタグ付きグラウンドビュー画像をジオメロケートする能力がますます重要になっています。
この研究は、GPSデータの助けを借りずに、さまざまな視野(FOV)を対応する衛星画像に潜在的に視野(FOV)を示す潜在的にグラウンドビュー画像をリンクするという課題に取り組んでいます。
これを達成するために、新しい4ストリームのシアムのような建築物を提案します。これは、地面と地面と両方に適用されるセマンティックセグメンテーションを活用することにより、以前の最先端の(SOTA)アプローチを拡張する四重セマンティックアラインネット(SAN-QUAD)を提案します。
衛星画像。
CVUSAデータセットのサブセットでの実験結果は、さまざまなFOV設定にわたる以前の方法で最大9.8%の大幅な改善を示しています。
要約(オリジナル)
The recent advancements in generative AI techniques, which have significantly increased the online dissemination of altered images and videos, have raised serious concerns about the credibility of digital media available on the Internet and distributed through information channels and social networks. This issue particularly affects domains that rely heavily on trustworthy data, such as journalism, forensic analysis, and Earth observation. To address these concerns, the ability to geolocate a non-geo-tagged ground-view image without external information, such as GPS coordinates, has become increasingly critical. This study tackles the challenge of linking a ground-view image, potentially exhibiting varying fields of view (FoV), to its corresponding satellite image without the aid of GPS data. To achieve this, we propose a novel four-stream Siamese-like architecture, the Quadruple Semantic Align Net (SAN-QUAD), which extends previous state-of-the-art (SOTA) approaches by leveraging semantic segmentation applied to both ground and satellite imagery. Experimental results on a subset of the CVUSA dataset demonstrate significant improvements of up to 9.8% over prior methods across various FoV settings.
arxiv情報
著者 | Emanuele Mule,Matteo Pannacci,Ali Ghasemi Goudarzi,Francesco Pro,Lorenzo Papa,Luca Maiano,Irene Amerini |
発行日 | 2025-02-24 14:04:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google