要約
マルチラベル画像分類は、コンピューター ビジョンや医療画像処理など、多くの分野で困難な作業となります。
最近の進歩により、パフォーマンスを向上させ、ラベルの依存関係をキャプチャするために、グラフベースおよびトランスフォーマーベースの方法が導入されました。
ただし、これらの方法には、多くの場合、大量の計算を必要とし、解釈性に欠ける複雑なモジュールが含まれています。
この論文では、マルチラベル画像分類タスクにおけるこれらの課題に対処する新しいフレームワークである、確率的マルチラベル対照学習 (ProbMCL) を提案します。
私たちのシンプルかつ効果的なアプローチでは、教師あり対比学習を採用しています。この学習では、決定閾値に基づいてアンカー画像と十分なラベルを共有するサンプルがポジティブセットとして導入されます。
この構造は、正のペアの埋め込みを一緒に引き寄せ、しきい値を下回る負のサンプルを押しのけることによって、ラベルの依存関係を捕捉します。
混合密度ネットワークを対比学習に組み込み、混合ガウス分布を生成して特徴エンコーダーの認識論的不確実性を調査することで、表現学習を強化します。
私たちは、コンピューター ビジョンおよび医療画像ドメインのデータセットを使用した実験を通じて、フレームワークの有効性を検証します。
私たちの手法は、両方のデータセットで低い計算量を達成しながら、既存の最先端の手法を上回ります。
視覚化分析は、ProbMCL で学習された分類子が意味のある意味論的なトポロジーを維持していることも示しています。
要約(オリジナル)
Multi-label image classification presents a challenging task in many domains, including computer vision and medical imaging. Recent advancements have introduced graph-based and transformer-based methods to improve performance and capture label dependencies. However, these methods often include complex modules that entail heavy computation and lack interpretability. In this paper, we propose Probabilistic Multi-label Contrastive Learning (ProbMCL), a novel framework to address these challenges in multi-label image classification tasks. Our simple yet effective approach employs supervised contrastive learning, in which samples that share enough labels with an anchor image based on a decision threshold are introduced as a positive set. This structure captures label dependencies by pulling positive pair embeddings together and pushing away negative samples that fall below the threshold. We enhance representation learning by incorporating a mixture density network into contrastive learning and generating Gaussian mixture distributions to explore the epistemic uncertainty of the feature encoder. We validate the effectiveness of our framework through experimentation with datasets from the computer vision and medical imaging domains. Our method outperforms the existing state-of-the-art methods while achieving a low computational footprint on both datasets. Visualization analyses also demonstrate that ProbMCL-learned classifiers maintain a meaningful semantic topology.
arxiv情報
著者 | Ahmad Sajedi,Samir Khaki,Yuri A. Lawryshyn,Konstantinos N. Plataniotis |
発行日 | 2024-04-12 16:37:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google