要約
大規模な言語モデルの命令追従機能により、人間は自然な方法で AI エージェントと対話できるようになります。
ただし、特定の長さの応答を生成する必要がある場合、大規模な言語モデルは数値的制約を正確に認識することが本質的に難しいため、ユーザーのニーズを満たすのに苦労することがよくあります。
生成される応答の長さを制御する大規模な言語モデルの機能を調査するために、ターゲット長生成タスク (TLG) を提案し、正確な一致 (PM) と柔軟な一致 (FM) という 2 つのメトリクスを設計して、次の条件を順守するモデルのパフォーマンスを評価します。
指定された応答長。
さらに、Ruler と呼ばれる新しいモデルに依存しないアプローチを導入します。これは、メタ長トークン (MLT) を使用して、長さ制限のある命令の下で大規模な言語モデルの命令追従能力を強化します。
具体的には、Ruler は、命令内の長さの制約に基づいて、指定された長さの応答を生成する機能を LLM に提供します。
さらに、Ruler は長さの制約が明示的に指定されていない場合でも適切な MLT を自動的に生成することができ、優れた汎用性と汎用性を示します。
包括的な実験により、ターゲット長生成タスクにおけるさまざまな LLM にわたるルーラーの有効性が示されています (たとえば、すべてのレベルで PM で平均ゲイン 27.97、FM で平均ゲイン 29.57)。
さらに、ルーラーの有効性と一般化をさらに実証するために、大規模なアブレーション実験を実施しています。
コードとデータは https://github.com/Geaming2002/Ruler で入手できます。
要約(オリジナル)
The instruction-following ability of large language models enables humans to interact with AI agents in a natural way. However, when required to generate responses of a specific length, large language models often struggle to meet users’ needs due to their inherent difficulty in accurately perceiving numerical constraints. To explore the ability of large language models to control the length of generated responses, we propose the Target Length Generation Task (TLG) and design two metrics, Precise Match (PM) and Flexible Match (FM) to evaluate the model’s performance in adhering to specified response lengths. Furthermore, we introduce a novel, model-agnostic approach called Ruler, which employs Meta Length Tokens (MLTs) to enhance the instruction-following ability of large language models under length-constrained instructions. Specifically, Ruler equips LLMs with the ability to generate responses of a specified length based on length constraints within the instructions. Moreover, Ruler can automatically generate appropriate MLT when length constraints are not explicitly provided, demonstrating excellent versatility and generalization. Comprehensive experiments show the effectiveness of Ruler across different LLMs on Target Length Generation Task, e.g., at All Level 27.97 average gain on PM, 29.57 average gain on FM. In addition, we conduct extensive ablation experiments to further substantiate the efficacy and generalization of Ruler. Our code and data is available at https://github.com/Geaming2002/Ruler.
arxiv情報
著者 | Jiaming Li,Lei Zhang,Yunshui Li,Ziqiang Liu,yuelin bai,Run Luo,Longze Chen,Min Yang |
発行日 | 2024-10-01 09:20:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google