要約
ディープ メトリック ラーニング (DML) は、入力データから非線形セマンティック埋め込みを学習し、類似したペアをまとめ、類似していないデータを互いに遠ざけます。
この目的のために、過去 10 年間に多くの異なる方法が提案され、さまざまなアプリケーションで有望な結果が得られています。
DML アルゴリズムの成功は、その損失関数に大きく依存します。
ただし、完全な損失関数はなく、最適な類似度埋め込みの一部の側面のみを扱います。
さらに、テスト段階で目に見えないカテゴリでの DML の一般化可能性は、既存の損失関数では考慮されていない重要な問題です。
これらの課題に対処するために、共有の深い特徴抽出器の上に構築されたさまざまな損失を組み合わせる新しいアプローチを提案します。
提案された損失の集合は、深いモデルを強制して、すべての損失と一致する特徴を抽出します。
選択された損失は多様であり、それぞれが最適なセマンティック埋め込みのさまざまな側面を強調しているため、効果的な結合方法により、個々の損失が大幅に改善され、目に見えないカテゴリでうまく一般化されます。
ここでは、損失関数の選択に制限はなく、私たちの方法は既存のものの任意のセットで機能します。
さらに、ハイパーパラメーターを調整する必要なく、エンドツーエンドのパラダイムで各損失関数とその重みを最適化できます。
従来の Zero-Shot-Learning (ZSL) 設定で、マシン ビジョン ドメインのいくつかの一般的なデータセットでメソッドを評価します。
結果は非常に心強いものであり、すべてのデータセットで、私たちの方法がすべてのベースライン損失よりも大幅に優れていることを示しています。
要約(オリジナル)
Deep Metric Learning (DML) learns a non-linear semantic embedding from input data that brings similar pairs together while keeping dissimilar data away from each other. To this end, many different methods are proposed in the last decade with promising results in various applications. The success of a DML algorithm greatly depends on its loss function. However, no loss function is perfect, and it deals only with some aspects of an optimal similarity embedding. Besides, the generalizability of the DML on unseen categories during the test stage is an important matter that is not considered by existing loss functions. To address these challenges, we propose novel approaches to combine different losses built on top of a shared deep feature extractor. The proposed ensemble of losses enforces the deep model to extract features that are consistent with all losses. Since the selected losses are diverse and each emphasizes different aspects of an optimal semantic embedding, our effective combining methods yield a considerable improvement over any individual loss and generalize well on unseen categories. Here, there is no limitation in choosing loss functions, and our methods can work with any set of existing ones. Besides, they can optimize each loss function as well as its weight in an end-to-end paradigm with no need to adjust any hyper-parameter. We evaluate our methods on some popular datasets from the machine vision domain in conventional Zero-Shot-Learning (ZSL) settings. The results are very encouraging and show that our methods outperform all baseline losses by a large margin in all datasets.
arxiv情報
著者 | Davood Zabihzadeh,Zahraa Alitbi,Seyed Jalaleddin Mousavirad |
発行日 | 2022-12-29 15:35:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google