要約
理想的な条件下での単眼深度の推定を改善するためにかなりの努力が払われています。
しかし、挑戦的な環境では、単眼の深さの推定は依然として困難に直面しています。
このペーパーでは、統一されたモデル内のさまざまな環境にわたって深さを予測するための視覚的なプロンプト学習を紹介し、Promptmonoと呼ばれる自己教師の学習フレームワークを提示します。
ドメイン固有の知識をキャプチャするための視覚的なプロンプトとして、学習可能なパラメーターのセットを使用します。
プロンプト情報を画像表現に統合するために、新しいゲートクロスが注意を促す(GCPA)モジュールが提案されており、多様な条件での深度推定が強化されます。
Oxford RobotcarデータセットとNuscenesデータセットで提案されたProsptmonoを評価します。
実験結果は、提案された方法の優れた性能を示しています。
要約(オリジナル)
Considerable efforts have been made to improve monocular depth estimation under ideal conditions. However, in challenging environments, monocular depth estimation still faces difficulties. In this paper, we introduce visual prompt learning for predicting depth across different environments within a unified model, and present a self-supervised learning framework called PromptMono. It employs a set of learnable parameters as visual prompts to capture domain-specific knowledge. To integrate prompting information into image representations, a novel gated cross prompting attention (GCPA) module is proposed, which enhances the depth estimation in diverse conditions. We evaluate the proposed PromptMono on the Oxford Robotcar dataset and the nuScenes dataset. Experimental results demonstrate the superior performance of the proposed method.
arxiv情報
著者 | Changhao Wang,Guanwen Zhang,Zhengyun Cheng,Wei Zhou |
発行日 | 2025-01-23 16:14:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google