要約
LLMは一般に、厳密な長さの要件に基づいて出力の長さを調整することはできません。これは、多様なユーザーとシステムの要件を順守する必要があるアプリケーションでの有用性を改善する機能です。
既存のデータを拡張し、既存の微調整技術を適用することにより、この機能を獲得するためのLLMSを訓練するアプローチを提示します。これは、ベースラインモデルと比較して、訓練されたモデルの長さ要件と全体的な応答品質への順守に基づいて比較します。
我々の結果は、これらの手法がLLMSを訓練するために正常に適用して長さの要件を順守できることを示しています。トレーニングされたモデルは、長さの要件により適切なテキストを生成します。
我々の結果は、ベースラインモデルによって生成されなかったトレーニングデータを使用する場合、メソッドが応答品質を変更する可能性があることを示しています。
これにより、特定のシナリオで別のトレーニング目標と同時にアラインメントが可能になりますが、そうでなければ望ましくありません。
モデル自身の応答を含むデータセットでのトレーニングは、この問題を排除します。
要約(オリジナル)
LLMs are not generally able to adjust the length of their outputs based on strict length requirements, a capability that would improve their usefulness in applications that require adherence to diverse user and system requirements. We present an approach to train LLMs to acquire this capability by augmenting existing data and applying existing fine-tuning techniques, which we compare based on the trained models’ adherence to the length requirement and overall response quality relative to the baseline model. Our results demonstrate that these techniques can be successfully applied to train LLMs to adhere to length requirements, with the trained models generating texts which better align to the length requirements. Our results indicate that our method may change the response quality when using training data that was not generated by the baseline model. This allows simultaneous alignment to another training objective in certain scenarios, but is undesirable otherwise. Training on a dataset containing the model’s own responses eliminates this issue.
arxiv情報
著者 | Diana Marie Schenke,Timo Baumann |
発行日 | 2025-02-26 17:38:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google