CCSBench: Evaluating Compositional Controllability in LLMs for Scientific Document Summarization

要約

科学知識の普及を多様な聴衆に広げるためには、科学文書の要約では長さや経験的焦点などの複数の属性を同時に制御する必要があります。
しかし、既存の研究は通常、単一の属性の制御に焦点を当てており、複数の属性の構成制御については十分に検討されていません。
このギャップに対処するために、科学分野における構成制御可能な要約のベンチマークである CCSBench を導入します。
私たちのベンチマークでは、客観的で直接的な明示的属性 (長さなど) と、より主観的で概念的な暗黙的属性 (経験的焦点など) の両方をきめ細かく制御できます。
私たちは、GPT-4、LLaMA2、その他の一般的な LLM について、さまざまな設定で広範な実験を行っています。
私たちの調査結果は、制御属性間のトレードオフのバランスを取る大規模言語モデルの能力、特に深い理解と抽象的な推論を必要とする暗黙的な属性間のトレードオフのバランスに大きな限界があることを明らかにしました。

要約(オリジナル)

To broaden the dissemination of scientific knowledge to diverse audiences, scientific document summarization must simultaneously control multiple attributes such as length and empirical focus. However, existing research typically focuses on controlling single attributes, leaving the compositional control of multiple attributes underexplored. To address this gap, we introduce CCSBench, a benchmark for compositional controllable summarization in the scientific domain. Our benchmark enables fine-grained control over both explicit attributes (e.g., length), which are objective and straightforward, and implicit attributes (e.g., empirical focus), which are more subjective and conceptual. We conduct extensive experiments on GPT-4, LLaMA2, and other popular LLMs under various settings. Our findings reveal significant limitations in large language models’ ability to balance trade-offs between control attributes, especially implicit ones that require deeper understanding and abstract reasoning.

arxiv情報

著者 Yixi Ding,Jiaying Wu,Tongyao Zhu,Yanxia Qin,Qian Liu,Min-Yen Kan
発行日 2024-10-16 14:21:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク