要約
大規模な言語モデル(LLM)のパフォーマンスと使いやすさは、説明生成タスクでの使用を促進しています。
しかし、彼らの広範な採用にもかかわらず、LLMの説明は信頼できないことがわかっているため、ユーザーが悪い説明と良いことを区別することは困難です。
この問題に対処するために、Rubrikのキューブ、教育に触発されたルーブリックと26kの説明のデータセットを提示します。
キューブデータセットは、2つの推論と2つの言語タスクに焦点を当てており、提案されたルーブリックを効果的にテストするために必要な多様性を提供します。
Rubrikを使用して、説明はタスクと知覚される困難の両方に影響されることがわかります。
低品質は、主に凝集と単語の選択ではなく、LLM生成の説明における簡潔さの欠如に起因します。
完全なデータセット、ルーブリック、およびコードは、受け入れられると利用可能になります。
要約(オリジナル)
The performance and usability of Large-Language Models (LLMs) are driving their use in explanation generation tasks. However, despite their widespread adoption, LLM explanations have been found to be unreliable, making it difficult for users to distinguish good from bad explanations. To address this issue, we present Rubrik’s CUBE, an education-inspired rubric and a dataset of 26k explanations, written and later quality-annotated using the rubric by both humans and six open- and closed-source LLMs. The CUBE dataset focuses on two reasoning and two language tasks, providing the necessary diversity for us to effectively test our proposed rubric. Using Rubrik, we find that explanations are influenced by both task and perceived difficulty. Low quality stems primarily from a lack of conciseness in LLM-generated explanations, rather than cohesion and word choice. The full dataset, rubric, and code will be made available upon acceptance.
arxiv情報
著者 | Diana Galvan-Sosa,Gabrielle Gaudeau,Pride Kavumba,Yunmeng Li,Hongyi gu,Zheng Yuan,Keisuke Sakaguchi,Paula Buttery |
発行日 | 2025-03-31 09:48:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google