要約
ディープ畳み込みニューラル ネットワークの最近の進歩により、顕著性予測のパフォーマンスが大幅に向上しました。
ただし、ニューラル ネットワーク アーキテクチャを手動で構成するには、専門分野の知識が必要であり、依然として時間がかかり、エラーが発生しやすい可能性があります。
これを解決するために、私たちは 2 つの貢献を備えた顕著性予測のための新しい Neural Architecture Search (NAS) フレームワークを提案します。
まず、顕著性予測用のスーパーネットは、SalNAS と呼ばれるスーパーネット内のエンコーダー/デコーダーに動的畳み込みを統合することにより、すべての候補アーキテクチャを含む重み共有ネットワークで構築されます。
第二に、SalNAS は非常に効率的 (2,098 万パラメータ) であるにもかかわらず、一般化が欠如しているという問題が生じる可能性があります。
これを解決するために、Self-KD と呼ばれる自己知識蒸留アプローチを提案します。このアプローチは、グラウンド トゥルースと教師モデルからの予測の間の加重平均情報を使用して生徒 SalNAS をトレーニングします。
教師モデルは同じアーキテクチャを共有していますが、相互検証によって選択された最もパフォーマンスの高い重みが含まれています。
Self-KD は、教師モデルで勾配を計算する必要がなくても適切に一般化できるため、効率的なトレーニング システムが可能になります。
Self-KD を利用することで、SalNAS は軽量モデルでありながら、7 つのベンチマーク データセットにわたるほとんどの評価ルーブリックで他の最先端の顕著性予測モデルを上回ります。
コードは https://github.com/chakkritte/SalNAS で入手できます。
要約(オリジナル)
Recent advancements in deep convolutional neural networks have significantly improved the performance of saliency prediction. However, the manual configuration of the neural network architectures requires domain knowledge expertise and can still be time-consuming and error-prone. To solve this, we propose a new Neural Architecture Search (NAS) framework for saliency prediction with two contributions. Firstly, a supernet for saliency prediction is built with a weight-sharing network containing all candidate architectures, by integrating a dynamic convolution into the encoder-decoder in the supernet, termed SalNAS. Secondly, despite the fact that SalNAS is highly efficient (20.98 million parameters), it can suffer from the lack of generalization. To solve this, we propose a self-knowledge distillation approach, termed Self-KD, that trains the student SalNAS with the weighted average information between the ground truth and the prediction from the teacher model. The teacher model, while sharing the same architecture, contains the best-performing weights chosen by cross-validation. Self-KD can generalize well without the need to compute the gradient in the teacher model, enabling an efficient training system. By utilizing Self-KD, SalNAS outperforms other state-of-the-art saliency prediction models in most evaluation rubrics across seven benchmark datasets while being a lightweight model. The code will be available at https://github.com/chakkritte/SalNAS
arxiv情報
著者 | Chakkrit Termritthikun,Ayaz Umer,Suwichaya Suwanwimolkul,Feng Xia,Ivan Lee |
発行日 | 2024-07-29 14:48:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google