要約
すべての可能な異常を収集してラベル付けすることは不可能であるため、教師なし異常の検出とローカリゼーションは重要なタスクです。
多くの研究では、異常の正確なセグメンテーションを達成するためにローカル情報とグローバル情報を統合することの重要性が強調されています。
この目的のために、長距離のコンテンツ インタラクションのモデル化を可能にする Transformer への関心が高まっています。
ただし、自己注意によるグローバルな相互作用は、一般に、ほとんどの画像スケールに対してコストがかかりすぎます。
この調査では、HaloNet を使用した Transformer のローカル 2D バージョンに基づく最初の自動エンコーダーである HaloAE を紹介します。
HaloAE を使用して、畳み込みとローカル 2D ブロック単位のセルフアテンション レイヤーを組み合わせ、単一のモデルを通じて異常検出とセグメンテーションを共同で実行するハイブリッド モデルを作成しました。
MVTec データセットで競争力のある結果を達成しました。これは、Transformer を組み込んだビジョン モデルが自己注意操作のローカル計算の恩恵を受け、他のアプリケーションへの道を開く可能性があることを示唆しています。
要約(オリジナル)
Unsupervised anomaly detection and localization is a crucial task as it is impossible to collect and label all possible anomalies. Many studies have emphasized the importance of integrating local and global information to achieve accurate segmentation of anomalies. To this end, there has been a growing interest in Transformer, which allows modeling long-range content interactions. However, global interactions through self attention are generally too expensive for most image scales. In this study, we introduce HaloAE, the first auto-encoder based on a local 2D version of Transformer with HaloNet. With HaloAE, we have created a hybrid model that combines convolution and local 2D block-wise self-attention layers and jointly performs anomaly detection and segmentation through a single model. We achieved competitive results on the MVTec dataset, suggesting that vision models incorporating Transformer could benefit from a local computation of the self-attention operation, and pave the way for other applications.
arxiv情報
著者 | E. Mathian,H. Liu,L. Fernandez-Cuesta,D. Samaras,M. Foll,L. Chen |
発行日 | 2022-09-26 13:37:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google