On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation

要約

単眼の奥行き推定における最近の進歩は、追加のガイダンスとして自然言語を組み込むことによって行われています。
印象的な結果が得られましたが、特に一般化と堅牢性の点で、以前の言語の影響はまだ解明されていません。
このペーパーでは、この事前の影響を定量化することでこのギャップに対処し、さまざまな設定にわたってその有効性をベンチマークする方法を紹介します。
私たちは、オブジェクト中心の 3 次元空間関係を伝える「低レベル」文を生成し、追加の言語事前条件として組み込み、深度推定に対する下流の影響を評価します。
私たちの重要な発見は、現在の言語ガイドによる奥行き推定器はシーンレベルの記述でのみ最適に動作し、低レベルの記述では直観に反して悪くなるということです。
追加のデータを活用しているにもかかわらず、これらの方法は直接的な敵対的攻撃に対して堅牢ではなく、分布の変化の増加に伴うパフォーマンスの低下につながります。
最後に、将来の研究の基礎を提供するために、失敗点を特定し、これらの欠点をより深く理解するための洞察を提供します。
深度推定に言語を使用する方法が増加する中、私たちの調査結果は、現実世界の設定で効果的に導入するには慎重な検討が必要な機会と落とし穴を浮き彫りにしています。

要約(オリジナル)

Recent advances in monocular depth estimation have been made by incorporating natural language as additional guidance. Although yielding impressive results, the impact of the language prior, particularly in terms of generalization and robustness, remains unexplored. In this paper, we address this gap by quantifying the impact of this prior and introduce methods to benchmark its effectiveness across various settings. We generate ‘low-level’ sentences that convey object-centric, three-dimensional spatial relationships, incorporate them as additional language priors and evaluate their downstream impact on depth estimation. Our key finding is that current language-guided depth estimators perform optimally only with scene-level descriptions and counter-intuitively fare worse with low level descriptions. Despite leveraging additional data, these methods are not robust to directed adversarial attacks and decline in performance with an increase in distribution shift. Finally, to provide a foundation for future research, we identify points of failures and offer insights to better understand these shortcomings. With an increasing number of methods using language for depth estimation, our findings highlight the opportunities and pitfalls that require careful consideration for effective deployment in real-world settings

arxiv情報

著者 Agneet Chatterjee,Tejas Gokhale,Chitta Baral,Yezhou Yang
発行日 2024-04-12 15:35:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク