BSL: Understanding and Improving Softmax Loss for Recommendation

要約

損失関数は推奨モデルの最適化の方向を決定し、モデルのパフォーマンスにとって重要ですが、最近の推奨研究ではあまり注目されていません。
さまざまな損失の中でも、Softmax 損失 (SL) は、顕著な精度を達成するだけでなく、より優れた堅牢性と公平性でも際立っていることがわかります。
それにもかかわらず、現在の文献には、SL の有効性についての包括的な説明が不足しています。
この研究ギャップに対処するために、私たちは SL の理論的分析を実施し、次の 3 つの洞察を明らかにします。 1) SL の最適化は、ネガティブ データに対して分布ロバスト最適化 (DRO) を実行することと同等であり、それによってネガティブな分布の摂動を学習し、ノイズの多いネガティブに対するロバスト性を実現します。

2) 他の損失関数と比較すると、SL は予測の分散に暗黙的にペナルティを課すため、予測値間のギャップが小さくなり、より公平な結果が得られます。
これらの洞察に基づいて、SL の利点をプラス側とマイナス側の両方に拡張する新しい損失関数である双方向 SoftMax Loss (BSL) をさらに提案します。
BSL は、ネガティブな例に使用されるのと同じ Log-Expectation-Exp 構造をポジティブな例に適用することで SL を強化し、ノイズの多いポジティブな例に対してもモデルを堅牢にします。
驚くべきことに、BSL はシンプルで実装が簡単で、SL と比較して追加のコード行は 1 行だけです。
4 つの現実世界のデータセットと 3 つの代表的なバックボーンでの実験により、私たちの提案の有効性が実証されました。
コードは https://github.com/junkangwu/BSL で入手できます。

要約(オリジナル)

Loss functions steer the optimization direction of recommendation models and are critical to model performance, but have received relatively little attention in recent recommendation research. Among various losses, we find Softmax loss (SL) stands out for not only achieving remarkable accuracy but also better robustness and fairness. Nevertheless, the current literature lacks a comprehensive explanation for the efficacy of SL. Toward addressing this research gap, we conduct theoretical analyses on SL and uncover three insights: 1) Optimizing SL is equivalent to performing Distributionally Robust Optimization (DRO) on the negative data, thereby learning against perturbations on the negative distribution and yielding robustness to noisy negatives. 2) Comparing with other loss functions, SL implicitly penalizes the prediction variance, resulting in a smaller gap between predicted values and and thus producing fairer results. Building on these insights, we further propose a novel loss function Bilateral SoftMax Loss (BSL) that extends the advantage of SL to both positive and negative sides. BSL augments SL by applying the same Log-Expectation-Exp structure to positive examples as is used for negatives, making the model robust to the noisy positives as well. Remarkably, BSL is simple and easy-to-implement — requiring just one additional line of code compared to SL. Experiments on four real-world datasets and three representative backbones demonstrate the effectiveness of our proposal. The code is available at https://github.com/junkangwu/BSL

arxiv情報

著者 Junkang Wu,Jiawei Chen,Jiancan Wu,Wentao Shi,Jizhi Zhang,Xiang Wang
発行日 2023-12-20 09:46:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG パーマリンク