Learning Triangular Distribution in Visual World

要約

畳み込みニューラル ネットワークは、通常、非線形の視覚特徴から明確に定義されたラベルへの注入を学習する形式をとるラベル分布学習を含む、広範なビジョン タスクで成功します。
ただし、特徴間の不一致がラベルの不一致にどのようにマッピングされるかは周囲のものであり、その正しさは保証されません。これらの問題に対処するために、特徴とそのラベルの間の数学的関係を研究し、ラベル分布学習のための一般的で単純なフレームワークを提示します。
我々は、特徴とラベルの間の単射関数を構築するいわゆる三角分布変換 (TDT) を提案し、対称特徴の不一致がラベル間の差異を線形に反映することを保証します。
提案された TDT は、さまざまなラベル配布学習タスクに対処するために、主流のバックボーン ネットワークのプラグインとして使用できます。
顔年齢認識、照明色度推定、美的評価に関する実験では、TDT が従来技術と同等以上の結果を達成することが示されています。

要約(オリジナル)

Convolution neural network is successful in pervasive vision tasks, including label distribution learning, which usually takes the form of learning an injection from the non-linear visual features to the well-defined labels. However, how the discrepancy between features is mapped to the label discrepancy is ambient, and its correctness is not guaranteed.To address these problems, we study the mathematical connection between feature and its label, presenting a general and simple framework for label distribution learning. We propose a so-called Triangular Distribution Transform (TDT) to build an injective function between feature and label, guaranteeing that any symmetric feature discrepancy linearly reflects the difference between labels. The proposed TDT can be used as a plug-in in mainstream backbone networks to address different label distribution learning tasks. Experiments on Facial Age Recognition, Illumination Chromaticity Estimation, and Aesthetics assessment show that TDT achieves on-par or better results than the prior arts.

arxiv情報

著者 Ping Chen,Xingpeng Zhang,Chengtao Zhou,Dichao Fan,Peng Tu,Le Zhang,Yanlin Qian
発行日 2024-03-18 09:03:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク