InceptionXML: A Lightweight Framework with Synchronized Negative Sampling for Short Text Extreme Classification

要約

短文データを多数のターゲットラベルに自動アノテーションすることは、短文極限分類と呼ばれ、関連検索の予測や商品推薦を含む多くの応用が見出されている。本論文では、軽量でありながら強力であり、検索や推薦で遭遇するショートテキストクエリ特有の語順の欠如に頑健な畳み込みアーキテクチャInceptionXMLを提案する。従来のCNNでテキスト分類に適用されていた単語次元ではなく、埋め込み次元に沿って演算を再構成することで、畳み込みを適用することの有効性を実証する。このパイプラインは、ラベルショートリスタと極限分類器を同期させることで、ラベルショートリスタのために最近提案された動的ハードネガティブマイニング技術の欠点を改善する。SyncXMLは推論時間を半分に短縮するだけでなく、モデルサイズも最先端のAstecより一桁小さい。包括的な実証的比較を通じて、ベンチマークデータセットにおいてInceptionXMLが既存のアプローチを上回るだけでなく、変換器ベースラインにおいてもわずか2%のFLOPしか必要としないことを示す。InceptionXMLのコードはhttps://github.com/xmc-aalto/inceptionxml。

要約(オリジナル)

Automatic annotation of short-text data to a large number of target labels, referred to as Short Text Extreme Classification, has found numerous applications including prediction of related searches and product recommendation. In this paper, we propose a convolutional architecture InceptionXML which is light-weight, yet powerful, and robust to the inherent lack of word-order in short-text queries encountered in search and recommendation. We demonstrate the efficacy of applying convolutions by recasting the operation along the embedding dimension instead of the word dimension as applied in conventional CNNs for text classification. Towards scaling our model to datasets with millions of labels, we also propose SyncXML pipeline which improves upon the shortcomings of the recently proposed dynamic hard-negative mining technique for label short-listing by synchronizing the label-shortlister and extreme classifier. SyncXML not only reduces the inference time to half but is also an order of magnitude smaller than state-of-the-art Astec in terms of model size. Through a comprehensive empirical comparison, we show that not only can InceptionXML outperform existing approaches on benchmark datasets but also the transformer baselines requiring only 2% FLOPs. The code for InceptionXML is available at https://github.com/xmc-aalto/inceptionxml.

arxiv情報

著者 Siddhant Kharbanda,Atmadeep Banerjee,Devaansh Gupta,Akash Palrecha,Rohit Babbar
発行日 2024-05-03 17:35:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク