Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability

要約

Commongenなどの生成的なCommonsense推論タスクでは、生成大規模な言語モデル(LLM)が、与えられたすべての概念を含む文章を作成します。
ただし、命令に従う機能に焦点を当てる場合、プロンプトがコンセプトの順序を指定する場合、LLMSは指定された順序に付着する文を生成する必要があります。
これに対処するために、LLMSの構成一般化と指導公開能力を評価するために設計されたベンチマークであるOrder Commongenを提案します。
このベンチマーク測定では、概念が指定された順序で生成されるかどうかを評価するために順序付けられたカバレッジを測定し、両方の能力の同時評価を可能にしました。
36 LLMを使用して包括的な分析を実施しましたが、LLMは一般に指示の意図を理解していますが、特定の概念の順序パターンに対するバイアスは、概念の順序が変更された場合でも低ダイバーシティの出力または同一の結果につながることが多いことを発見しました。
さらに、最も命令に準拠したLLMでさえ、約75%の注文されたカバレッジのみを達成し、命令に従ったものと構成一般化機能の両方の改善の必要性を強調しました。

要約(オリジナル)

In generative commonsense reasoning tasks such as CommonGen, generative large language models (LLMs) compose sentences that include all given concepts. However, when focusing on instruction-following capabilities, if a prompt specifies a concept order, LLMs must generate sentences that adhere to the specified order. To address this, we propose Ordered CommonGen, a benchmark designed to evaluate the compositional generalization and instruction-following abilities of LLMs. This benchmark measures ordered coverage to assess whether concepts are generated in the specified order, enabling a simultaneous evaluation of both abilities. We conducted a comprehensive analysis using 36 LLMs and found that, while LLMs generally understand the intent of instructions, biases toward specific concept order patterns often lead to low-diversity outputs or identical results even when the concept order is altered. Moreover, even the most instruction-compliant LLM achieved only about 75% ordered coverage, highlighting the need for improvements in both instruction-following and compositional generalization capabilities.

arxiv情報

著者 Yusuke Sakai,Hidetaka Kamigaito,Taro Watanabe
発行日 2025-06-18 17:00:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク