要約
合成画像と現実世界の画像の間のギャップを定量化することは、大量のデータに依存する変圧器ベースのモデルとデータセットの両方を改善するために不可欠であり、特に潜在的な影響が重要である航空シーンの理解などの未調査の領域において重要です。
この論文では、マルチモデル コンセンサス メトリック (MMCM) と深度ベースの構造メトリックを使用したシーンの複雑性評価の新しい方法論を紹介し、ドメイン間の知覚的および構造的差異の堅牢な評価を可能にします。
実世界 (ドローンスケープ) と合成 (スカイシーン) データセットを利用した私たちの実験分析では、実世界のシーンは一般に最先端のビジョン トランスフォーマーの間でより高いコンセンサスを示しているのに対し、合成シーンはより大きな変動性を示し、モデルの適応性に課題があることが実証されました。
この結果は、固有の複雑さと領域のギャップを強調し、シミュレーションの忠実性とモデルの一般化を強化する必要性を強調しています。
この研究は、ドメインの特性とモデルのパフォーマンスの間の相互作用に関する重要な洞察を提供し、航空シーンの理解におけるドメイン適応戦略を改善するための道筋を提供します。
要約(オリジナル)
Quantifying the gap between synthetic and real-world imagery is essential for improving both transformer-based models – that rely on large volumes of data – and datasets, especially in underexplored domains like aerial scene understanding where the potential impact is significant. This paper introduces a novel methodology for scene complexity assessment using Multi-Model Consensus Metric (MMCM) and depth-based structural metrics, enabling a robust evaluation of perceptual and structural disparities between domains. Our experimental analysis, utilizing real-world (Dronescapes) and synthetic (Skyscenes) datasets, demonstrates that real-world scenes generally exhibit higher consensus among state-of-the-art vision transformers, while synthetic scenes show greater variability and challenge model adaptability. The results underline the inherent complexities and domain gaps, emphasizing the need for enhanced simulation fidelity and model generalization. This work provides critical insights into the interplay between domain characteristics and model performance, offering a pathway for improved domain adaptation strategies in aerial scene understanding.
arxiv情報
著者 | Alina Marcu |
発行日 | 2024-11-29 18:18:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google