要約
この研究では、チェックリスト ベースのテキスト評価のための属性を生成するために、Think-Aloud (TA) メソッドを使用して人間の専門知識と大規模言語モデル (LLM) を統合するフレームワークである \textbf{InteractEval} を紹介します。
人間の柔軟性と推論を LLM の一貫性と組み合わせることで、InteractEval は、一貫性、流暢性、一貫性、関連性で構成される 4 つの異なる次元にわたって、従来の非 LLM ベースおよび LLM ベースのベースラインを上回るパフォーマンスを発揮します。
この実験では、TA 法の有効性も調査され、人間と LLM の両方で発散的思考が促進され、より広範囲の関連属性が生成され、テキスト評価のパフォーマンスが向上することが示されました。
比較分析により、人間は内部品質 (一貫性と流暢性) に関連する属性を特定することに優れていますが、LLM は外部整合性 (一貫性と関連性) に関連する属性の方が優れていることがわかります。
したがって、人間と LLM の両方を一緒に活用することで、最良の評価結果が得られます。
言い換えれば、この研究は、自動化されたチェックリストベースのテキスト評価フレームワークにおいて人間とLLMを効果的に組み合わせる必要性を強調しています。
コードは \textbf{\url{https://github.com/BBeeChu/InteractEval.git}} で入手できます。
要約(オリジナル)
This study introduces \textbf{InteractEval}, a framework that integrates human expertise and Large Language Models (LLMs) using the Think-Aloud (TA) method to generate attributes for checklist-based text evaluation. By combining human flexibility and reasoning with LLM consistency, InteractEval outperforms traditional non-LLM-based and LLM-based baselines across four distinct dimensions, consisting of Coherence, Fluency, Consistency, and Relevance. The experiment also investigates the effectiveness of the TA method, showing that it promotes divergent thinking in both humans and LLMs, leading to the generation of a wider range of relevant attributes and enhance text evaluation performance. Comparative analysis reveals that humans excel at identifying attributes related to internal quality (Coherence and Fluency), but LLMs perform better at those attributes related to external alignment (Consistency and Relevance). Consequently, leveraging both humans and LLMs together produces the best evaluation outcomes. In other words, this study emphasizes the necessity of effectively combining humans and LLMs in an automated checklist-based text evaluation framework. The code is available at \textbf{\url{https://github.com/BBeeChu/InteractEval.git}}.
arxiv情報
著者 | SeongYeub Chu,JongWoo Kim,MunYong Yi |
発行日 | 2024-09-11 15:40:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google