要約
自然言語処理 (NLP) では、黄金の品質評価方法として常に人間の判断に依存しています。
ただし、特にデータサンプル (観測値) が非常に少ない場合に、翻訳品質評価 (TQE) などの特定の評価タスクの評価者間信頼性 (IRR) レベルをより適切に評価する方法については、議論が続いています。
この研究では、まず、データ (評価) 点が 1 つしかない場合に、測定値の信頼区間を推定する方法についての研究を紹介します。
次に、人間が生成した 2 つの観察スコアを使用した例につながります。この例では、「Student’s \textit{t}-Distribution」メソッドを導入し、これら 2 つのデータ ポイントのみを使用して IRR スコアを測定する方法を説明します。
、品質評価の信頼区間 (CI) も同様です。
たとえ 1 つの追加の観測値であっても、より多くの観測値を導入することで評価の信頼性がどのように大幅に向上するかについて定量的な分析を行います。
私たちは研究者に対し、あらゆる可能な手段で IRR スコアを報告することを奨励します。
可能な限り生徒の \textit{t}-配布方法を使用します。
したがって、NLP 評価はより意味があり、透明性があり、信頼できるものになります。
この \textit{t}-Distribution メソッドは、NLP フィールドの外でも、観察データが不足している場合に、実験調査の信頼できる評価のための IRR レベルを測定するために使用できます。
キーワード: 評価者間信頼性 (IRR)。
希少な観察;
信頼区間 (CI);
自然言語処理 (NLP);
翻訳品質評価 (TQE);
学生の \textit{t}-配布物
要約(オリジナル)
In natural language processing (NLP) we always rely on human judgement as the golden quality evaluation method. However, there has been an ongoing debate on how to better evaluate inter-rater reliability (IRR) levels for certain evaluation tasks, such as translation quality evaluation (TQE), especially when the data samples (observations) are very scarce. In this work, we first introduce the study on how to estimate the confidence interval for the measurement value when only one data (evaluation) point is available. Then, this leads to our example with two human-generated observational scores, for which, we introduce “Student’s \textit{t}-Distribution” method and explain how to use it to measure the IRR score using only these two data points, as well as the confidence intervals (CIs) of the quality evaluation. We give quantitative analysis on how the evaluation confidence can be greatly improved by introducing more observations, even if only one extra observation. We encourage researchers to report their IRR scores in all possible means, e.g. using Student’s \textit{t}-Distribution method whenever possible; thus making the NLP evaluation more meaningful, transparent, and trustworthy. This \textit{t}-Distribution method can be also used outside of NLP fields to measure IRR level for trustworthy evaluation of experimental investigations, whenever the observational data is scarce. Keywords: Inter-Rater Reliability (IRR); Scarce Observations; Confidence Intervals (CIs); Natural Language Processing (NLP); Translation Quality Evaluation (TQE); Student’s \textit{t}-Distribution
arxiv情報
著者 | Serge Gladkoff,Lifeng Han,Goran Nenadic |
発行日 | 2023-07-09 16:13:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google