要約
機械翻訳に由来する Transformer は、長期的な依存関係のモデル化において特に強力です。
現在、Transformer はさまざまなビジョン タスクで革命的な進歩を遂げており、畳み込みニューラル ネットワーク (CNN) ベースのフレームワークと比較してパフォーマンスが大幅に向上しています。
この論文では、正確で信頼性の高い顕著な物体検出のために変圧器の貢献を活用することに関する広範な研究を行っています。
前者については、トランスフォーマーを決定論的モデルに適用し、効果的な構造モデリングとグローバル コンテキスト モデリング機能により、CNN ベースのフレームワークと比較して優れたパフォーマンスが得られることを説明します。
後者については、CNN ベースのフレームワークとトランスフォーマー ベースのフレームワークの両方が、モデルが高い信頼度で誤った予測を生成する傾向があるという過信の問題に大きく悩まされていることがわかります。
CNNベースとトランスフォーマーベースの両方のフレームワークの信頼度を推定するために、敵対的生成ネットワーク(GAN)に基づく潜在変数モデル、つまり敵対的生成ネットワーク(iGAN)を提示します。
潜在変数の確率的属性により、モデル予測の信頼性を評価するための補助出力として機能する、予測の不確実性を推定することが容易になります。
潜在変数の分布を固定標準正規分布 $\mathcal{N}(0,\mathbf{I})$ として定義する従来の GAN とは異なり、提案された iGAN は勾配ベースのマルコフ連鎖モンテによって潜在変数を推論します。
カルロ (MCMC)、つまりランジュバン ダイナミクスは、入力依存の潜在変数モデルにつながります。
提案した iGAN を完全および弱教師付き顕著な物体検出に適用し、トランスフォーマー フレームワーク内の iGAN が正確で信頼性の高い顕著な物体検出につながることを説明します。
要約(オリジナル)
Transformer, which originates from machine translation, is particularly powerful at modeling long-range dependencies. Currently, the transformer is making revolutionary progress in various vision tasks, leading to significant performance improvements compared with the convolutional neural network (CNN) based frameworks. In this paper, we conduct extensive research on exploiting the contributions of transformers for accurate and reliable salient object detection. For the former, we apply transformer to a deterministic model, and explain that the effective structure modeling and global context modeling abilities lead to its superior performance compared with the CNN based frameworks. For the latter, we observe that both CNN and transformer based frameworks suffer greatly from the over-confidence issue, where the models tend to generate wrong predictions with high confidence. To estimate the reliability degree of both CNN- and transformer-based frameworks, we further present a latent variable model, namely inferential generative adversarial network (iGAN), based on the generative adversarial network (GAN). The stochastic attribute of the latent variable makes it convenient to estimate the predictive uncertainty, serving as an auxiliary output to evaluate the reliability of model prediction. Different from the conventional GAN, which defines the distribution of the latent variable as fixed standard normal distribution $\mathcal{N}(0,\mathbf{I})$, the proposed iGAN infers the latent variable by gradient-based Markov Chain Monte Carlo (MCMC), namely Langevin dynamics, leading to an input-dependent latent variable model. We apply our proposed iGAN to both fully and weakly supervised salient object detection, and explain that iGAN within the transformer framework leads to both accurate and reliable salient object detection.
arxiv情報
著者 | Yuxin Mao,Jing Zhang,Zhexiong Wan,Yuchao Dai,Aixuan Li,Yunqiu Lv,Xinyu Tian,Deng-Ping Fan,Nick Barnes |
発行日 | 2022-12-30 12:12:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google