要約
大規模言語モデル (LLM) は実稼働システムでますます使用され、チャットボット、要約、質問応答などのアプリケーションを強化しています。
成功にもかかわらず、特に構造化された出力や特定のレベルの詳細を必要とするタスクの場合、応答の長さを制御することは依然として大きな課題です。
この研究では、応答長を正確に制御するために事前トレーニングされたデコーダ専用 LLM を適応させる方法を提案します。
私たちのアプローチでは、ユーザーが設定した応答終了長までカウントダウンする二次長差位置エンコーディング (LDPE) を入力埋め込みに組み込んでいます。
LDPE を使用した微調整により、モデルは応答を目的の長さで一貫して終了する方法を学習し、平均トークン エラーを 3 トークン未満に達成できます。
また、正確なターゲットではなく柔軟な上限の長さ制御を可能にする拡張機能である Max New Tokens++ も紹介します。
質問応答や文書要約などのタスクに関する実験結果は、私たちの方法が応答品質を損なうことなく正確な長さ制御を可能にすることを示しています。
要約(オリジナル)
Large Language Models (LLMs) are increasingly used in production systems, powering applications such as chatbots, summarization, and question answering. Despite their success, controlling the length of their response remains a significant challenge, particularly for tasks requiring structured outputs or specific levels of detail. In this work, we propose a method to adapt pre-trained decoder-only LLMs for precise control of response length. Our approach incorporates a secondary length-difference positional encoding (LDPE) into the input embeddings, which counts down to a user-set response termination length. Fine-tuning with LDPE allows the model to learn to terminate responses coherently at the desired length, achieving mean token errors of less than 3 tokens. We also introduce Max New Tokens++, an extension that enables flexible upper-bound length control, rather than an exact target. Experimental results on tasks such as question answering and document summarization demonstrate that our method enables precise length control without compromising response quality.
arxiv情報
著者 | Bradley Butcher,Michael O’Keefe,James Titchener |
発行日 | 2024-12-16 16:22:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google