要約
わずか数百回のトレーニング更新の後、言語生成の標準的な確率モデルは、自然言語の多くの意味論的規則または構文規則をまだ学習していない可能性が高く、次のトークンにわたる確率分布を推定することが困難になります。
しかし、この時点で、これらのモデルは、ターゲットのトレーニング コーパスのユニグラム分布を出力するという、単純で損失を最小限に抑える動作を特定しました。
このようなヒューリスティックを使用すると、「この動作でモデルを初期化し、貴重なコンピューティング リソースとモデルの容量を節約できるか?」という疑問が生じます。
ここでは、モデルの最終線形層のバイアス項を対数ユニグラム分布で初期化するだけで、事前知識としてユニグラム頻度統計を反映する別個のモジュールを標準的なニューラル言語生成モデルに効果的に与えることができることを示します。
この単純な手法のテストベッドとしてニューラル機械翻訳を使用し、次のことを観察しました。(i) 学習効率が向上します。
(ii) 全体的なパフォーマンスが向上します。
そしておそらく最も重要なことは、(iii) モデルが言語の非周波数関連の側面に特化することを奨励することによって、強い周波数の影響を解きほぐしているように見えることです。
要約(オリジナル)
After just a few hundred training updates, a standard probabilistic model for language generation has likely not yet learnt many semantic or syntactic rules of natural language, making it difficult to estimate the probability distribution over next tokens. Yet around this point, these models have identified a simple, loss-minimising behaviour: to output the unigram distribution of the target training corpus. The use of such a heuristic raises the question: Can we initialise our models with this behaviour and save precious compute resources and model capacity? Here we show that we can effectively endow standard neural language generation models with a separate module that reflects unigram frequency statistics as prior knowledge, simply by initialising the bias term in a model’s final linear layer with the log-unigram distribution. We use neural machine translation as a test bed for this simple technique and observe that it: (i) improves learning efficiency; (ii) achieves better overall performance; and perhaps most importantly (iii) appears to disentangle strong frequency effects by encouraging the model to specialise in non-frequency-related aspects of language.
arxiv情報
著者 | Clara Meister,Wojciech Stokowiec,Tiago Pimentel,Lei Yu,Laura Rimell,Adhiguna Kuncoro |
発行日 | 2023-06-23 05:59:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google