Hierarchical Evaluation Framework: Best Practices for Human Evaluation

要約

自然言語処理(NLP)では、開発されたシステムの品質と関連性を評価することで、システムの強化を促進するため、人間による評価が重要な役割を果たします。しかし、自然言語処理において広く受け入れられている人間評価メトリクスが存在しないため、異なるシステム間の公正な比較や、普遍的な評価基準の確立が妨げられています。人間評価メトリクスに関する既存文献の広範な分析を通じて、私たちはNLP評価方法論におけるいくつかのギャップを特定しました。これらのギャップは、独自の階層的評価フレームワークを開発する動機となった。提案されたフレームワークは、特に、自然言語処理システムの性能をより包括的に表現する上で、特筆すべき利点を提供する。我々はこのフレームワークを、人間とAIとの共生モデルの中で利用される、開発された機械読解システムの評価に適用した。その結果、入力と出力の品質間の関連性が強調され、出力のみに注目するのではなく、両方のコンポーネントを評価する必要性が強調された。今後の研究では、NLPシステムを評価する評価者にとって、提案するフレームワークが時間短縮につながる可能性を調査する予定である。

要約(オリジナル)

Human evaluation plays a crucial role in Natural Language Processing (NLP) as it assesses the quality and relevance of developed systems, thereby facilitating their enhancement. However, the absence of widely accepted human evaluation metrics in NLP hampers fair comparisons among different systems and the establishment of universal assessment standards. Through an extensive analysis of existing literature on human evaluation metrics, we identified several gaps in NLP evaluation methodologies. These gaps served as motivation for developing our own hierarchical evaluation framework. The proposed framework offers notable advantages, particularly in providing a more comprehensive representation of the NLP system’s performance. We applied this framework to evaluate the developed Machine Reading Comprehension system, which was utilized within a human-AI symbiosis model. The results highlighted the associations between the quality of inputs and outputs, underscoring the necessity to evaluate both components rather than solely focusing on outputs. In future work, we will investigate the potential time-saving benefits of our proposed framework for evaluators assessing NLP systems.

arxiv情報

著者 Iva Bojic,Jessica Chen,Si Yuan Chang,Qi Chwen Ong,Shafiq Joty,Josip Car
発行日 2023-10-03 09:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.HC パーマリンク