Mitigating Transformer Overconfidence via Lipschitz Regularization

要約

Transformers は多くのコンピューター ビジョン タスクで有望な結果を達成していますが、標準の Dot Product Self-Attendee (DPSA) では無制限の入力ドメインの距離をほとんど維持できないため、予測を過信する傾向があります。
この研究では、新しい Lipschitz Regularized Transformer (LRFormer) を提案することで、このギャップを埋めます。
具体的には、リプシッツ性を保証するために、バナッハ空間内の距離を伴う新しい類似度関数を提示し、また、収縮性リプシッツ境界によって項を正規化します。
提案された方法は理論的に保証されて分析され、その有効性と信頼性に対する厳密な根拠が提供されます。
標準視覚ベンチマークで行われた広範な実験により、私たちの方法が予測、校正、不確実性推定において最先端のシングルフォワードパスアプローチよりも優れていることが実証されました。

要約(オリジナル)

Though Transformers have achieved promising results in many computer vision tasks, they tend to be over-confident in predictions, as the standard Dot Product Self-Attention (DPSA) can barely preserve distance for the unbounded input domain. In this work, we fill this gap by proposing a novel Lipschitz Regularized Transformer (LRFormer). Specifically, we present a new similarity function with the distance within Banach Space to ensure the Lipschitzness and also regularize the term by a contractive Lipschitz Bound. The proposed method is analyzed with a theoretical guarantee, providing a rigorous basis for its effectiveness and reliability. Extensive experiments conducted on standard vision benchmarks demonstrate that our method outperforms the state-of-the-art single forward pass approaches in prediction, calibration, and uncertainty estimation.

arxiv情報

著者 Wenqian Ye,Yunsheng Ma,Xu Cao,Kun Tang
発行日 2023-07-18 16:20:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク