要約
オープン語彙の Extreme Multi-labelクラシフィケーション (OXMC) は、非常に大規模な事前定義されたラベル セット (通常は $10^3$ から $10^{12}$ ラベル) を超えた予測を可能にすることで従来の XMC を拡張し、現実世界のラベル付けの動的な性質に対処します。
タスク。
ただし、データ アノテーションにおける自己選択バイアスにより、特に人気の低い入力の場合、トレーニング データとテスト データの両方で大幅なラベルの欠落が発生します。
これにより、2 つの重大な課題が生じます。生成モデルは、ラベルの生成が不十分であるため「怠惰」であることを学習し、テスト セット内の注釈が不十分なために評価が信頼できなくなります。
この研究では、OXMC を無限キーフレーズ生成タスクとして再構成し、生成モデルの遅延に対処する Positive-Unlabeled Sequence Learning (PUSL) を導入します。
さらに、不完全なグラウンドトゥルースで OXMC モデルを確実に評価するために、一連の評価指標 F1@$\mathcal{O}$ と新しく提案された B@$k$ を採用することを提案します。
ラベルが大幅に欠落している非常に不均衡な e コマース データセットでは、PUSL は 30% 多い一意のラベルを生成し、予測の 72% が実際のユーザー クエリと一致します。
偏りの少ない EURLex-4.3k データセットでは、特にラベル数が 15 から 30 に増加するにつれて、PUSL は優れた F1 スコアを示しています。私たちのアプローチは、ラベルが欠落している OXMC でのモデリングと評価の両方の課題に効果的に取り組みます。
要約(オリジナル)
Open-vocabulary Extreme Multi-label Classification (OXMC) extends traditional XMC by allowing prediction beyond an extremely large, predefined label set (typically $10^3$ to $10^{12}$ labels), addressing the dynamic nature of real-world labeling tasks. However, self-selection bias in data annotation leads to significant missing labels in both training and test data, particularly for less popular inputs. This creates two critical challenges: generation models learn to be ‘lazy” by under-generating labels, and evaluation becomes unreliable due to insufficient annotation in the test set. In this work, we introduce Positive-Unlabeled Sequence Learning (PUSL), which reframes OXMC as an infinite keyphrase generation task, addressing the generation model’s laziness. Additionally, we propose to adopt a suite of evaluation metrics, F1@$\mathcal{O}$ and newly proposed B@$k$, to reliably assess OXMC models with incomplete ground truths. In a highly imbalanced e-commerce dataset with substantial missing labels, PUSL generates 30% more unique labels, and 72% of its predictions align with actual user queries. On the less skewed EURLex-4.3k dataset, PUSL demonstrates superior F1 scores, especially as label counts increase from 15 to 30. Our approach effectively tackles both the modeling and evaluation challenges in OXMC with missing labels.
arxiv情報
| 著者 | Ranran Haoran Zhang,Bensu Uçar,Soumik Dey,Hansi Wu,Binbin Li,Rui Zhang |
| 発行日 | 2024-08-22 17:20:27+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google