Visual Attention-Prompted Prediction and Learning

要約

説明(注意)誘導学習は、トレーニング段階で人間の理解を組み込むことでモデルの予測力を高める方法です。
注意誘導学習は有望な結果を示していますが、多くの場合、時間と計算コストのかかるモデルの再トレーニングが必要になります。
この問題に対処するために、アテンション プロンプトによる予測手法を導入します。これにより、モデルの再トレーニングを必要とせずに、アテンション プロンプトに基づいて直接予測が可能になります。
ただし、このアプローチには次のようないくつかの課題があります。 1) 視覚的な注意プロンプトをモデルの意思決定プロセスにどのように組み込み、プロンプトがない場合でも将来の予測に活用するにはどうすればよいでしょうか。
2) 視覚的な注意プロンプトからの不完全な情報をどのように処理するか?
これらの課題に取り組むために、我々は、視覚的注意プロンプト予測と学習と呼ばれる新しいフレームワークを提案します。これは、視覚的注意プロンプトをモデルの意思決定プロセスにシームレスに統合し、予測のための注意プロンプトの有無にかかわらず画像に適応します。
視覚的注意プロンプトの不完全な情報に対処するために、摂動ベースの注意マップ修正方法を導入します。
さらに、アテンションマップ変更プロセスにおける適応摂動アノテーション集約のための新しい重み学習関数を備えた最適化ベースのマスク集約手法を提案します。
私たちの全体的なフレームワークは、注意プロンプトのないサンプルであっても将来の予測を強化するために、注意プロンプトのガイド付きマルチタスク方法で学習するように設計されており、より良い収束のために交互の方法でトレーニングされています。
2 つのデータセットに対して行われた広範な実験により、プロンプトが提供された場合と提供されなかった場合の両方で、サンプルの予測を強化する際の提案されたフレームワークの有効性が実証されました。

要約(オリジナル)

Explanation(attention)-guided learning is a method that enhances a model’s predictive power by incorporating human understanding during the training phase. While attention-guided learning has shown promising results, it often involves time-consuming and computationally expensive model retraining. To address this issue, we introduce the attention-prompted prediction technique, which enables direct prediction guided by the attention prompt without the need for model retraining. However, this approach presents several challenges, including: 1) How to incorporate the visual attention prompt into the model’s decision-making process and leverage it for future predictions even in the absence of a prompt? and 2) How to handle the incomplete information from the visual attention prompt? To tackle these challenges, we propose a novel framework called Visual Attention-Prompted Prediction and Learning, which seamlessly integrates visual attention prompts into the model’s decision-making process and adapts to images both with and without attention prompts for prediction. To address the incomplete information of the visual attention prompt, we introduce a perturbation-based attention map modification method. Additionally, we propose an optimization-based mask aggregation method with a new weight learning function for adaptive perturbed annotation aggregation in the attention map modification process. Our overall framework is designed to learn in an attention-prompt guided multi-task manner to enhance future predictions even for samples without attention prompts and trained in an alternating manner for better convergence. Extensive experiments conducted on two datasets demonstrate the effectiveness of our proposed framework in enhancing predictions for samples, both with and without provided prompts.

arxiv情報

著者 Yifei Zhang,Siyi Gu,Bo Pan,Guangji Bai,Xiaofeng Yang,Liang Zhao
発行日 2023-10-12 15:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク