Efficacy of Dual-Encoders for Extreme Multi-Label Classification

要約

デュアル エンコーダ モデルは、主にゼロ ショットおよび少数ショットのシナリオを伴うオープンドメインの質問応答のための高密度検索タスクで大きな成功を収めていることが実証されています。
ただし、極端なマルチラベル分類 (XMC) など、トレーニング データが豊富なマルチショット検索問題におけるパフォーマンスは、まだ調査されていません。
既存の経験的証拠は、このような問題に対して、デュアルエンコーダ法の精度が、クラス数に比例して学習可能なパラメータの数を増加させる最先端 (SOTA) 極端分類法のパフォーマンスに劣ることを示唆しています。
その結果、最近のいくつかの極端な分類手法では、デュアル エンコーダーと学習可能な分類ヘッドを組み合わせて使用​​し、各クラスがこれらのタスクで優れた性能を発揮できるようにしています。
このペーパーでは、XMC タスクにおける「純粋な」DE モデルの可能性を調査します。
私たちの調査結果では、正しくトレーニングされた場合、標準のデュアル エンコーダーは、トレーニング可能なパラメーターの数が 20 分の 1 でありながら、最大の XMC データセットであっても、Precision@1 で最大 2% の SOTA 極端分類法と同等またはそれを上回るパフォーマンスを発揮できることが明らかになりました。
さらに、微分可能なtopk誤差ベースの損失関数を提案します。これは、特にRecall@kメトリクスを最適化するために使用できます。
補足資料には、結果を再現するための他のリソースとともに PyTorch 実装が含まれています。

要約(オリジナル)

Dual-encoder models have demonstrated significant success in dense retrieval tasks for open-domain question answering that mostly involves zero-shot and few-shot scenarios. However, their performance in many-shot retrieval problems where training data is abundant, such as extreme multi-label classification (XMC), remains under-explored. Existing empirical evidence suggests that, for such problems, the dual-encoder method’s accuracies lag behind the performance of state-of-the-art (SOTA) extreme classification methods that grow the number of learnable parameters linearly with the number of classes. As a result, some recent extreme classification techniques use a combination of dual-encoders and a learnable classification head for each class to excel on these tasks. In this paper, we investigate the potential of ‘pure’ DE models in XMC tasks. Our findings reveal that when trained correctly standard dual-encoders can match or outperform SOTA extreme classification methods by up to 2% at Precision@1 even on the largest XMC datasets while being 20x smaller in terms of the number of trainable parameters. We further propose a differentiable topk error-based loss function, which can be used to specifically optimize for Recall@k metrics. We include our PyTorch implementation along with other resources for reproducing the results in the supplementary material.

arxiv情報

著者 Nilesh Gupta,Devvrit Khatri,Ankit S Rawat,Srinadh Bhojanapalli,Prateek Jain,Inderjit S Dhillon
発行日 2023-10-16 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク