要約
詳細な分類は分類問題の特定のケースであり、視覚的な外観を共有し、微妙な違いによってのみ区別できるオブジェクトを分類することを目的としています。
自動動物監視システムでは、動物の種や個体を特定するために、きめの細かい分類モデルがよく使用されます。
系統的エラーを分析するには、モデルの決定を正確に視覚的に説明することが重要です。
注意ベースまたは勾配ベースの方法は、分類の決定に最も寄与する画像内の領域を識別するために一般的に使用されます。
これらの方法では、説明が粗すぎるかノイズが多すぎるため、視覚的な微妙な違いを確実に識別するのには適していません。
ただし、摂動ベースの方法では、分類結果の原因となるピクセルを正確に特定できます。
ドロップアウトのフィルイン (FIDO) アルゴリズムは、それらの方法の 1 つです。
コンクリート ドロップアウト (CD) を利用して一連のアトリビューション マスクをサンプリングし、分類モデルの出力に基づいてサンプリング パラメーターを更新します。
このアルゴリズムの既知の問題は、勾配推定値のばらつきが大きいことですが、著者らはこれまでサンプリング パラメーターのミニバッチ更新によってこの問題を軽減してきました。
このペーパーでは、CD サンプリングを簡素化し、大きなミニバッチ サイズへの依存を減らすことで、これらの計算の不安定性を回避するソリューションを紹介します。
まず、推定の品質を損なうことなく、計算量を削減しながら、より小さいミニバッチ サイズでパラメーターを推定することができます。
さらに、私たちのソリューションは、より細かく、より一貫性のある属性マスクを生成します。
最後に、結果のアトリビューション マスクを使用して、モデルをさらに微調整することなく、トレーニング済みモデルの分類パフォーマンスを向上させます。
要約(オリジナル)
Fine-grained classification is a particular case of a classification problem, aiming to classify objects that share the visual appearance and can only be distinguished by subtle differences. Fine-grained classification models are often deployed to determine animal species or individuals in automated animal monitoring systems. Precise visual explanations of the model’s decision are crucial to analyze systematic errors. Attention- or gradient-based methods are commonly used to identify regions in the image that contribute the most to the classification decision. These methods deliver either too coarse or too noisy explanations, unsuitable for identifying subtle visual differences reliably. However, perturbation-based methods can precisely identify pixels causally responsible for the classification result. Fill-in of the dropout (FIDO) algorithm is one of those methods. It utilizes the concrete dropout (CD) to sample a set of attribution masks and updates the sampling parameters based on the output of the classification model. A known problem of the algorithm is a high variance in the gradient estimates, which the authors have mitigated until now by mini-batch updates of the sampling parameters. This paper presents a solution to circumvent these computational instabilities by simplifying the CD sampling and reducing reliance on large mini-batch sizes. First, it allows estimating the parameters with smaller mini-batch sizes without losing the quality of the estimates but with a reduced computational effort. Furthermore, our solution produces finer and more coherent attribution masks. Finally, we use the resulting attribution masks to improve the classification performance of a trained model without additional fine-tuning of the model.
arxiv情報
著者 | Dimitri Korsch,Maha Shadaydeh,Joachim Denzler |
発行日 | 2023-07-27 13:01:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google