要約
Vision Transformer (ViT) は、さまざまなコンピューター ビジョン タスクで優れたパフォーマンスを発揮します。
ViT が画像パッチ間の複雑で広範な関係を捉えるには注意が不可欠であり、これによりモデルが画像パッチの重要性を比較検討できるようになり、意思決定プロセスの理解を助けることができます。
ただし、ViT の注意を医療診断などの一か八かの意思決定タスクの証拠として利用する場合、注意メカニズムが誤って無関係な領域に焦点を当ててしまう可能性があるため、問題が発生します。
この研究では、ViT の注意力の統計的テストを提案します。これにより、厳密に制御されたエラー率で、ViT の意思決定の信頼できる定量的証拠指標として注意力を使用できるようになります。
選択的推論と呼ばれるフレームワークを使用して、注意の統計的有意性を p 値の形式で定量化します。これにより、注意の誤検出確率を理論に基づいて定量化できます。
提案手法の妥当性と有効性を数値実験と脳画像診断への応用を通じて実証する。
要約(オリジナル)
The Vision Transformer (ViT) demonstrates exceptional performance in various computer vision tasks. Attention is crucial for ViT to capture complex wide-ranging relationships among image patches, allowing the model to weigh the importance of image patches and aiding our understanding of the decision-making process. However, when utilizing the attention of ViT as evidence in high-stakes decision-making tasks such as medical diagnostics, a challenge arises due to the potential of attention mechanisms erroneously focusing on irrelevant regions. In this study, we propose a statistical test for ViT’s attentions, enabling us to use the attentions as reliable quantitative evidence indicators for ViT’s decision-making with a rigorously controlled error rate. Using the framework called selective inference, we quantify the statistical significance of attentions in the form of p-values, which enables the theoretically grounded quantification of the false positive detection probability of attentions. We demonstrate the validity and the effectiveness of the proposed method through numerical experiments and applications to brain image diagnoses.
arxiv情報
著者 | Tomohiro Shiraishi,Daiki Miwa,Teruyuki Katsuoka,Vo Nguyen Le Duy,Koichi Taji,Ichiro Takeuchi |
発行日 | 2024-01-16 07:18:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google