要約
Transformer ベースのディープ ネットワークは、CNN よりも大きな利点を示すことが増えています。
既存の研究の中には、これを山火事の認識または検出の分野に適用したものもあります。
ただし、バニラの Transformer は煙の特徴を抽出するのに適していないことがわかりました。
色、透明度、テクスチャなどの低レベルの情報は煙の認識にとって非常に重要であり、トランスフォーマーは中レベルまたは高レベルの特徴間の意味論的な関連性により注意を払い、低レベルの特徴の微妙な変化には敏感ではないためです。
空間に沿って。
この問題を解決するために、我々は Swin Transformer に基づく Cross Contrast Patch Embedding (CCPE) モジュールを提案します。このモジュールは、垂直方向と水平方向の両方でマルチスケールの空間周波数コントラスト情報を使用して、基礎となる詳細に関するネットワークの識別を改善します。
煙の境界があいまいなため、インスタンスに対する正と負のラベルの割り当てがジレンマに陥り、これが山火事検出のもう 1 つの課題となっています。
この問題を解決するために、分離可能なネガティブ サンプリング メカニズム(SNSM)が提案されています。
ポジティブ画像とネガティブ画像にそれぞれ 2 つの異なるネガティブ インスタンス サンプリング戦略を使用することにより、ネットワーク トレーニングのプロセスにおけるラベルの多様性によって引き起こされる監視信号の混乱の問題が軽減されます。
この論文では、提案された方法を評価し、将来の研究を促進するために、これまでで最大の実際の山火事テスト セットである RealFire テストもリリースします。
3,649 個のビデオ クリップから 50,535 個の画像が含まれています。
提案された方法は、RealFire Test データセットで広範囲にテストおよび評価されており、ベースライン検出モデルと比較してパフォーマンスが大幅に向上しています。
要約(オリジナル)
The Transformer-based deep networks have increasingly shown significant advantages over CNNs. Some existing work has applied it in the field of wildfire recognition or detection. However, we observed that the vanilla Transformer is not friendly for extracting smoke features. Because low-level information such as color, transparency and texture is very important for smoke recognition, and transformer pays more attention to the semantic relevance between middle- or high-level features, and is not sensitive to the subtle changes of low-level features along the space. To solve this problem, we propose the Cross Contrast Patch Embedding(CCPE) module based on the Swin Transformer, which uses the multi-scales spatial frequency contrast information in both vertical and horizontal directions to improve the discrimination of the network on the underlying details. The fuzzy boundary of smoke makes the positive and negative label assignment for instances in a dilemma, which is another challenge for wildfires detection. To solve this problem, a Separable Negative Sampling Mechanism(SNSM) is proposed. By using two different negative instance sampling strategies on positive images and negative images respectively, the problem of supervision signal confusion caused by label diversity in the process of network training is alleviated. This paper also releases the RealFire Test, the largest real wildfire test set so far, to evaluate the proposed method and promote future research. It contains 50,535 images from 3,649 video clips. The proposed method has been extensively tested and evaluated on RealFire Test dataset, and has a significant performance improvement compared with the baseline detection models.
arxiv情報
著者 | Chong Wang,Cheng Xu,Adeel Akram,Zhilin Shan,Qixing Zhang |
発行日 | 2023-12-31 09:40:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google