The Benefits of Bad Advice: Autocontrastive Decoding across Model Layers

要約

タイトル:悪いアドバイスの利点:モデル層間の自動対照的デコード

要約:

– 自然言語処理のタスクに言語モデルを適用する際、途中の中間層表現は情報が少ないと考えられているため、通常は最終的なモデル層の表現を用いる。
– しかし、本研究ではモデル層にわたる徐々に改善される特性に着目し、上位と下位のモデル層の対比から追加の情報を抽出できると主張している。
– 具体的には、生成モデルのありそうな次のトークン予測の選択において、下位層の予測が最も避けるべき候補を強調するのに役立ちます。
– モデル層間の対照を利用した新しい手法を提案し、オープンエンドの生成におけるモデルの退化的な振る舞いを緩和し、生成されたテキストの品質を大幅に向上させることを示しました。
– さらに、推論時にモデル層間を対照することで、一定の言語モデル能力の側面に重要な利点があること、特定のモデルパラメータのセットから推論時により効果的に知識を抽出できることが示されました。

要約(オリジナル)

Applying language models to natural language processing tasks typically relies on the representations in the final model layer, as intermediate hidden layer representations are presumed to be less informative. In this work, we argue that due to the gradual improvement across model layers, additional information can be gleaned from the contrast between higher and lower layers during inference. Specifically, in choosing between the probable next token predictions of a generative model, the predictions of lower layers can be used to highlight which candidates are best avoided. We propose a novel approach that utilizes the contrast between layers to improve text generation outputs, and show that it mitigates degenerative behaviors of the model in open-ended generation, significantly improving the quality of generated texts. Furthermore, our results indicate that contrasting between model layers at inference time can yield substantial benefits to certain aspects of general language model capabilities, more effectively extracting knowledge during inference from a given set of model parameters.

arxiv情報

著者 Ariel Gera,Roni Friedman,Ofir Arviv,Chulaka Gunasekara,Benjamin Sznajder,Noam Slonim,Eyal Shnarch
発行日 2023-05-02 17:42:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク