Bipartite Ranking From Multiple Labels: On Loss Versus Label Aggregation

要約

Bipartiteランキングは、単一のバイナリターゲットラベルに対してROC曲線(AUC)の下の最大領域(AUC)のインスタンスにランキングを学習することを目標に、基本的な監視された学習問題です。
ただし、明確なヒトアノテーターから、複数のバイナリターゲットラベル、たとえば複数のバイナリターゲットラベルが観察される場合があります。
このようなラベルを単一のコヒーレントランキングにどのように合成できますか?
この作業では、ベイズ最適なソリューションを特徴付けることにより、この問題に対する2つのアプローチ(損失集約とラベル集計)に対する2つのアプローチを正式に分析します。
これに基づいて、両方の方法がパレート最適ソリューションを生成できるが、損失集約はラベル独裁を示すことができることを示しています。
これは、ラベルの集約が損失集約よりも好ましいことを示唆しており、これを経験的に検証します。

要約(オリジナル)

Bipartite ranking is a fundamental supervised learning problem, with the goal of learning a ranking over instances with maximal area under the ROC curve (AUC) against a single binary target label. However, one may often observe multiple binary target labels, e.g., from distinct human annotators. How can one synthesize such labels into a single coherent ranking? In this work, we formally analyze two approaches to this problem — loss aggregation and label aggregation — by characterizing their Bayes-optimal solutions. Based on this, we show that while both methods can yield Pareto-optimal solutions, loss aggregation can exhibit label dictatorship: one can inadvertently (and undesirably) favor one label over others. This suggests that label aggregation can be preferable to loss aggregation, which we empirically verify.

arxiv情報

著者 Michal Lukasik,Lin Chen,Harikrishna Narasimhan,Aditya Krishna Menon,Wittawat Jitkrittum,Felix X. Yu,Sashank J. Reddi,Gang Fu,Mohammadhossein Bateni,Sanjiv Kumar
発行日 2025-04-15 15:25:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG, stat.ML パーマリンク