r-softmax: Generalized Softmax with Controllable Sparsity Rate

要約

タイトル: r-softmax: 一般化されたスパース率を制御可能なsoftmax
要約:
– 人工ニューラルネットワークのモデルは、多くの分野で著しい成果を上げている。
– しかし、深層学習のソリューションにおいて、モデルが提供する表現を確率分布に写像する関数は重要な役割を持っている。
– 機械学習のコミュニティでは一般的に受け入れられているsoftmaxは、スパースな出力を返すことができず、常に正の確率をすべての位置に広げる。
– 本論文では、softmaxを改良したr-softmaxを提案し、制御可能なスパースな確率分布を出力できるようにした。また、既存のスパースな確率写像関数とは異なり、出力スパース度を直感的に制御できる仕組みを提供している。
– 複数の多ラベルデータセットでの実験により、r-softmaxが他のスパースなsoftmaxの代替手法を上回り、元のsoftmaxと高い競争力を持つことを示した。
– さらに、事前学習された変換言語モデルの自己注意モジュールにr-softmaxを適用し、異なる自然言語処理のタスクに対してモデルを微調整すると改善されることを示した。

要約(オリジナル)

Nowadays artificial neural network models achieve remarkable results in many disciplines. Functions mapping the representation provided by the model to the probability distribution are the inseparable aspect of deep learning solutions. Although softmax is a commonly accepted probability mapping function in the machine learning community, it cannot return sparse outputs and always spreads the positive probability to all positions. In this paper, we propose r-softmax, a modification of the softmax, outputting sparse probability distribution with controllable sparsity rate. In contrast to the existing sparse probability mapping functions, we provide an intuitive mechanism for controlling the output sparsity level. We show on several multi-label datasets that r-softmax outperforms other sparse alternatives to softmax and is highly competitive with the original softmax. We also apply r-softmax to the self-attention module of a pre-trained transformer language model and demonstrate that it leads to improved performance when fine-tuning the model on different natural language processing tasks.

arxiv情報

著者 Klaudia Bałazy,Łukasz Struski,Marek Śmieja,Jacek Tabor
発行日 2023-04-12 16:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク