Verbosity $\neq$ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models

要約

答えに確信が持てないとき、人間は、応答の一部が正しいことを期待して、必要以上に多くの言葉で応答することがよくあります。
大規模言語モデル (LLM) でも同様の動作が観察されており、これを「Verbosity Compensation (VC)」と呼んでいます。
VC は、ユーザーの理解を混乱させて効率を低下させ、無駄なトークンを生成する待ち時間とコストを増加させることで LLM サービスに影響を与えるため、有害です。
このペーパーでは、Verbosity Compensation を定義および分析し、その原因を調査し、シンプルな軽減アプローチを提案する最初の研究を紹介します。
私たちは、冗長性の補償を、簡潔に書くように求められたときに、情報を失わずに圧縮できる応答を生成する動作として定義します。
新しく開発された 14 個の LLM を使用して、知識と推論ベースの QA タスクの 5 つのデータセットに対して行われた実験では、3 つの結論が明らかになりました。
1) すべてのモデルとすべてのデータセットにわたって冗長性補正が広範囲に存在することを明らかにします。
特に、GPT-4 は 50.40% の VC 頻度を示します。
2) 冗長な応答と簡潔な応答の間には大きなパフォーマンスのギャップがあり、Qasper データセットでは 27.61% という顕著な差があることが明らかになりました。
また、LLM の能力が増加しても、この差が自然に減少しないことも示します。
1) と 2) は両方とも、VC の行動の頻度を軽減し、冗長性を真実性をもって解きほぐすことが緊急に必要であることを強調しています。
冗長応答を他のモデル生成応答に置き換える、シンプルだが効果的なカスケード アルゴリズムを提案します。
結果は、私たちのアプローチが Qasper データセット上で Mistral モデルの VC を 63.81% から 16.16% に効果的に軽減することを示しています。
3) また、詳細な応答は 5 つのデータセットすべてでより高い不確実性を示すこともわかり、これは詳細さとモデルの不確実性の間に強い関連性があることを示唆しています。
データセットとコードは https://github.com/psunlpgroup/VerbosityLLM で入手できます。

要約(オリジナル)

When unsure about an answer, humans often respond with more words than necessary, hoping that part of the response will be correct. We observe a similar behavior in large language models (LLMs), which we term ‘Verbosity Compensation’ (VC). VC is harmful because it confuses the user understanding, leading to low efficiency, and influences the LLM services by increasing the latency and cost of generating useless tokens. In this paper, we present the first work that defines and analyzes Verbosity Compensation, explores its causes, and proposes a simple mitigating approach. We define Verbosity Compensation as the behavior of generating responses that can be compressed without information loss when prompted to write concisely. Our experiments, conducted on five datasets of knowledge and reasoning-based QA tasks with 14 newly developed LLMs, reveal three conclusions. 1) We reveal a pervasive presence of verbosity compensation across all models and all datasets. Notably, GPT-4 exhibits a VC frequency of 50.40%. 2) We reveal the large performance gap between verbose and concise responses, with a notable difference of 27.61% on the Qasper dataset. We also demonstrate that this difference does not naturally diminish as LLM capability increases. Both 1) and 2) highlight the urgent need to mitigate the frequency of VC behavior and disentangle verbosity with veracity. We propose a simple yet effective cascade algorithm that replaces the verbose responses with the other model-generated responses. The results show that our approach effectively alleviates the VC of the Mistral model from 63.81% to 16.16% on the Qasper dataset. 3) We also find that verbose responses exhibit higher uncertainty across all five datasets, suggesting a strong connection between verbosity and model uncertainty. Our dataset and code are available at https://github.com/psunlpgroup/VerbosityLLM.

arxiv情報

著者 Yusen Zhang,Sarkar Snigdha Sarathi Das,Rui Zhang
発行日 2024-11-12 15:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク