要約
アライメントされた命令に従うモデルは、アライメントされていない命令よりもユーザーの要求をより適切に満たすことができます。
ただし、そのようなモデルの評価には長さのバイアスがあり、トレーニング アルゴリズムはより長い応答を学習することでこのバイアスを利用する傾向があることが示されています。
この研究では、望ましい長さの制約を含む命令を使用して、推論時に制御できるモデルをトレーニングする方法を示します。
このようなモデルは、長さの指示による評価において優れており、GPT4、Llama 3、Mixtral などの標準的な指示に従うモデルよりも優れています。
要約(オリジナル)
Aligned instruction following models can better fulfill user requests than their unaligned counterparts. However, it has been shown that there is a length bias in evaluation of such models, and that training algorithms tend to exploit this bias by learning longer responses. In this work we show how to train models that can be controlled at inference time with instructions containing desired length constraints. Such models are superior in length instructed evaluations, outperforming standard instruction following models such as GPT4, Llama 3 and Mixtral.
arxiv情報
著者 | Weizhe Yuan,Ilia Kulikov,Ping Yu,Kyunghyun Cho,Sainbayar Sukhbaatar,Jason Weston,Jing Xu |
発行日 | 2024-06-25 17:29:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google