Local and Global Decoding in Text Generation

要約

対話システムなどのアプリケーションの重要なコンポーネントであるテキスト生成は、言語モデル配布から文字列をサンプリングするデコード アルゴリズムに依存しています。
top-$k$ や top-$\pi$ などの従来の方法では、モデルの出力分布に局所的な正規化が適用されるため、モデルが歪む可能性があります。
この論文では、これらの復号化方法のグローバルに正規化されたバージョンを導入することによって、この歪みの影響を調査します。
さらに、明示的に計算せずにグローバルに正規化された分布からのサンプリングを近似するための独立したメトロポリス・ヘイスティングス アルゴリズムを提案します。
私たちの実証分析では、Pythia 言語モデルを使用して、さまざまなハイパーパラメーターを使用した 2 つのデコード アルゴリズム (top-$k$ および top-$\pi$) にわたるローカルおよびグローバル正規化のパフォーマンスを比較します。
結果は、ほとんどの構成で、ディストリビューションの整合性が保たれているにもかかわらず、グローバル デコードのパフォーマンスが同じアルゴリズムのローカル デコード バージョンよりも劣ることを示しています。
私たちの結果は、歪みがローカル デコード アルゴリズムの重要な特徴であることを示唆しています。

要約(オリジナル)

Text generation, a key component in applications such as dialogue systems, relies on decoding algorithms that sample strings from a language model distribution. Traditional methods, such as top-$k$ and top-$\pi$, apply local normalisation to the model’s output distribution, which can distort it. In this paper, we investigate the effect of this distortion by introducing globally-normalised versions of these decoding methods. Additionally, we propose an independent Metropolis-Hastings algorithm to approximate sampling from globally-normalised distributions without explicitly computing them. Our empirical analysis compares the performance of local and global normalisation across two decoding algorithms (top-$k$ and top-$\pi$) with various hyperparameters, using Pythia language models. Results show that, in most configurations, global decoding performs worse than the local decoding version of the same algorithms — despite preserving the distribution’s integrity. Our results suggest that distortion is an important feature of local decoding algorithms.

arxiv情報

著者 Daniel Gareev,Thomas Hofmann,Ezhilmathi Krishnasamy,Tiago Pimentel
発行日 2024-10-14 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク