Semantic Segmentation Enhanced Transformer Model for Human Attention Prediction

要約

Saliency Prediction は、与えられた RGB 画像から人間の目の注意の分布を予測することを目的としています。
最近の最先端の方法のほとんどは、従来の CNN からの深い画像特徴表現に基づいています。
ただし、従来の畳み込みでは、カーネル サイズが小さいため、画像の全体的な特徴をうまく捉えることができませんでした。
また、オブジェクト、色、光など、人間の視覚に密接に関連する高レベルの要素は考慮されていません。
これらに触発されて、セマンティックセグメンテーションを別の学習目標として使用するトランスフォーマーベースの方法を提案します。
画像のよりグローバルな手がかりを Transformer でキャプチャできます。
さらに、オブジェクトのセグメンテーションを同時に学習することで、人間の視覚をシミュレートします。これは、認知科学における人間の視線制御の調査で検証します。
サブタスク用に追加のデコーダーを構築し、複数のタスクが同じ Transformer エンコーダーを共有して、複数の特徴空間から学習するよう強制します。
実際には、サブタスクを追加するだけでメインタスクの学習が混乱する可能性があるため、複数の学習ターゲット間の機能の相互作用に対処するためにマルチタスク注意モジュールが提案されています。
私たちの方法は、他の最先端の方法と比較して競争力のあるパフォーマンスを実現します。

要約(オリジナル)

Saliency Prediction aims to predict the attention distribution of human eyes given an RGB image. Most of the recent state-of-the-art methods are based on deep image feature representations from traditional CNNs. However, the traditional convolution could not capture the global features of the image well due to its small kernel size. Besides, the high-level factors which closely correlate to human visual perception, e.g., objects, color, light, etc., are not considered. Inspired by these, we propose a Transformer-based method with semantic segmentation as another learning objective. More global cues of the image could be captured by Transformer. In addition, simultaneously learning the object segmentation simulates the human visual perception, which we would verify in our investigation of human gaze control in cognitive science. We build an extra decoder for the subtask and the multiple tasks share the same Transformer encoder, forcing it to learn from multiple feature spaces. We find in practice simply adding the subtask might confuse the main task learning, hence Multi-task Attention Module is proposed to deal with the feature interaction between the multiple learning targets. Our method achieves competitive performance compared to other state-of-the-art methods.

arxiv情報

著者 Shuo Zhang
発行日 2023-01-26 10:27:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク