要約
この論文では、生成タスクに熟練した大規模言語モデル (LLM) が評価者としても同様に熟練しているという仮定を検討します。
TriviaQA (Joshi et al., 2017) データセットを使用して、質問応答 (QA) および評価タスクにおける 3 つの LLM と 1 つのオープンソース LM のパフォーマンスを評価します。
結果は大きな差異を示しており、LLM は生成タスクと比較して評価タスクのパフォーマンスが低いことが示されています。
興味深いことに、モデルが能力に欠けている領域で回答を正確に評価するという不誠実な評価の例が発見され、評価者としての LLM の誠実さと信頼性を検査する必要性が強調されています。
この研究は「生成 AI パラドックス」(West et al., 2023) の理解に貢献し、生成の卓越性と評価熟練度の間の相関関係を調査する必要性と、モデル評価における忠実性の側面を精査する必要性を強調しています。
要約(オリジナル)
This paper explores the assumption that Large Language Models (LLMs) skilled in generation tasks are equally adept as evaluators. We assess the performance of three LLMs and one open-source LM in Question-Answering (QA) and evaluation tasks using the TriviaQA (Joshi et al., 2017) dataset. Results indicate a significant disparity, with LLMs exhibiting lower performance in evaluation tasks compared to generation tasks. Intriguingly, we discover instances of unfaithful evaluation where models accurately evaluate answers in areas where they lack competence, underscoring the need to examine the faithfulness and trustworthiness of LLMs as evaluators. This study contributes to the understanding of ‘the Generative AI Paradox’ (West et al., 2023), highlighting a need to explore the correlation between generative excellence and evaluation proficiency, and the necessity to scrutinize the faithfulness aspect in model evaluations.
arxiv情報
著者 | Juhyun Oh,Eunsu Kim,Inha Cha,Alice Oh |
発行日 | 2024-02-09 06:16:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google