Multi-Head Encoding for Extreme Label Classification

要約

現実世界のインスタンスのカテゴリの数は通常膨大であり、各インスタンスには複数のラベルが含まれる場合があります。
機械学習を利用してこれらの大量のラベルを区別するために、eXtreme Label Classification (XLC) が確立されました。
ただし、カテゴリの数が増えると、分類器内のパラメーターと非線形演算の数も増加します。
これにより、分類子計算過負荷問題 (CCOP) が発生します。
これに対処するために、バニラ分類子をマルチヘッド分類子に置き換えるマルチヘッド エンコーディング (MHE) メカニズムを提案します。
トレーニング プロセス中に、MHE は極端なラベルを複数の短いローカル ラベルの積に分解し、各ヘッドはこれらのローカル ラベルでトレーニングされます。
テスト中に、予測ラベルは各ヘッドの局所予測から直接計算できます。
これにより、計算負荷が幾何学的に軽減されます。
次に、さまざまな XLC タスク (単一ラベル、マルチラベル、モデル事前トレーニング タスクなど) の特性に応じて、3 つの MHE ベースの実装 (マルチヘッド プロダクト、マルチヘッド カスケード、およびマルチヘッド サンプリング) が行われます。
より効果的に CCOP に対処するために提案されています。
さらに、低ランク近似問題をフロベニウスノルムからクロスエントロピーまで一般化することにより、MHE がバニラ分類器とほぼ同等のパフォーマンスを達成できることを理論的に示します。
実験結果は、提案された方法が XLC タスクのトレーニングと推論プロセスを大幅に合理化しながら、最先端のパフォーマンスを達成することを示しています。
ソースコードは https://github.com/Anoise/MHE で公開されています。

要約(オリジナル)

The number of categories of instances in the real world is normally huge, and each instance may contain multiple labels. To distinguish these massive labels utilizing machine learning, eXtreme Label Classification (XLC) has been established. However, as the number of categories increases, the number of parameters and nonlinear operations in the classifier also rises. This results in a Classifier Computational Overload Problem (CCOP). To address this, we propose a Multi-Head Encoding (MHE) mechanism, which replaces the vanilla classifier with a multi-head classifier. During the training process, MHE decomposes extreme labels into the product of multiple short local labels, with each head trained on these local labels. During testing, the predicted labels can be directly calculated from the local predictions of each head. This reduces the computational load geometrically. Then, according to the characteristics of different XLC tasks, e.g., single-label, multi-label, and model pretraining tasks, three MHE-based implementations, i.e., Multi-Head Product, Multi-Head Cascade, and Multi-Head Sampling, are proposed to more effectively cope with CCOP. Moreover, we theoretically demonstrate that MHE can achieve performance approximately equivalent to that of the vanilla classifier by generalizing the low-rank approximation problem from Frobenius-norm to Cross-Entropy. Experimental results show that the proposed methods achieve state-of-the-art performance while significantly streamlining the training and inference processes of XLC tasks. The source code has been made public at https://github.com/Anoise/MHE.

arxiv情報

著者 Daojun Liang,Haixia Zhang,Dongfeng Yuan,Minggao Zhang
発行日 2024-12-13 14:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク