SemSup-XC: Semantic Supervision for Zero and Few-shot Extreme Classification

要約

極端な分類 (XC) には、ニュース記事の分類や電子商取引の商品のタグ付けなどの現実世界のアプリケーションを使用して、多数のクラス (数千から数百万) の予測が含まれます。
このタスクのゼロショット バージョンでは、追加の監視なしで新しいクラスに一般化する必要があります。
この論文では、法律、電子商取引、および Wikipedia データから派生した 3 つの XC データセット上で最先端のゼロショットおよび少数ショットのパフォーマンスを実現するモデルである SemSup-XC を開発します。
SemSup-XC を開発するために、自動的に収集されたセマンティック クラス記述を使用してクラスを表現し、セマンティックと語彙の類似性の組み合わせを使用して入力インスタンスをクラス記述に照合する新しいハイブリッド マッチング モジュールを通じて一般化を促進します。
対照学習でトレーニングされた SemSup-XC は、ベースラインを大幅に上回り、検討した 3 つのデータセットすべてで最先端のパフォーマンスを確立し、ゼロショット テストで最大 12 精度ポイント、ワンショット テストで 10 精度ポイント以上を獲得しました。
再現率@10でも同様のゲイン。
私たちのアブレーション研究は、ハイブリッドマッチングモジュールと自動的に収集されたクラスの説明の相対的な重要性を強調しています。

要約(オリジナル)

Extreme classification (XC) involves predicting over large numbers of classes (thousands to millions), with real-world applications like news article classification and e-commerce product tagging. The zero-shot version of this task requires generalization to novel classes without additional supervision. In this paper, we develop SemSup-XC, a model that achieves state-of-the-art zero-shot and few-shot performance on three XC datasets derived from legal, e-commerce, and Wikipedia data. To develop SemSup-XC, we use automatically collected semantic class descriptions to represent classes and facilitate generalization through a novel hybrid matching module that matches input instances to class descriptions using a combination of semantic and lexical similarity. Trained with contrastive learning, SemSup-XC significantly outperforms baselines and establishes state-of-the-art performance on all three datasets considered, gaining up to 12 precision points on zero-shot and more than 10 precision points on one-shot tests, with similar gains for recall@10. Our ablation studies highlight the relative importance of our hybrid matching module and automatically collected class descriptions.

arxiv情報

著者 Pranjal Aggarwal,Ameet Deshpande,Karthik Narasimhan
発行日 2023-06-22 06:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク