要約
複数の制約を持つ実世界の命令は、既存の大規模言語モデル(LLM)にとって大きな挑戦となる。LLMは、組み込まれた制約の順序を乱すと、劇的な性能変動を示すという観察結果がある。しかし、既存の研究では、多制約命令追従の分野において、この位置偏り問題を系統的に調査したものはない。このギャップを埋めるために、我々は、新しい難易度分布指数(CDDI)によって制約の難易度分布を定量的に測定するプロービング課題を設計する。実験結果を通じて、LLMは「難しい→簡単」の順に制約を提示された場合に、より高い性能を発揮することがわかった。この嗜好性は、異なるアーキテクチャや異なるパラメータサイズのLLMにも一般化できる。さらに、LLMの注意と制約の順序の相関に関する直感的な洞察を提供する、説明研究を行う。我々のコードとデータセットは、https://github.com/meowpass/PBIF で公開されている。
要約(オリジナル)
Real-world instructions with multiple constraints pose a significant challenge to existing large language models (LLMs). An observation is that the LLMs exhibit dramatic performance fluctuation when disturbing the order of the incorporated constraints. Yet, none of the existing works has systematically investigated this position bias problem in the field of multi-constraint instruction following. To bridge this gap, we design a probing task where we quantitatively measure the difficulty distribution of the constraints by a novel Difficulty Distribution Index (CDDI). Through the experimental results, we find that LLMs are more performant when presented with the constraints in a “hard-to-easy” order. This preference can be generalized to LLMs with different architecture or different sizes of parameters. Additionally, we conduct an explanation study, providing an intuitive insight into the correlation between the LLM’s attention and constraint orders. Our code and dataset are publicly available at https://github.com/meowpass/PBIF.
arxiv情報
著者 | Jie Zeng,Qianyu He,Qingyu Ren,Jiaqing Liang,Yanghua Xiao,Weikang Zhou,Zeye Sun,Fei Yu |
発行日 | 2025-03-03 06:29:31+00:00 |
arxivサイト | arxiv_id(pdf) |