Student’s t-Distribution: On Measuring the Inter-Rater Reliability When the Observations are Scarce

要約

自然言語処理 (NLP) では、黄金の品質評価方法として常に人間の判断に依存しています。
ただし、特にデータ サンプル (観察) が非常に少ない場合に、翻訳品質評価 (TQE) などの特定の評価タスクの評価者間信頼性 (IRR) レベルをより適切に評価する方法については、継続的な議論が行われています。
本稿ではまず、データ(評価)点が1点しかない場合に、測定値の信頼区間を推定する方法についての研究を紹介します。
次に、これは人間が生成した 2 つの観測スコアの例につながります。そのために、「Student’s \textit{t}-Distribution」メソッドを紹介し、これらの 2 つのデータ ポイントのみを使用して IRR スコアを測定するためにそれを使用する方法を説明します。
、および品質評価の信頼区間 (CI)。
観測値を 1 つ追加するだけでも、観測値を増やすことで評価の信頼性がどのように大幅に向上するかについて、定量的な分析を行います。
研究者には、IRR スコアをあらゆる可能な手段で報告することをお勧めします。
可能な限り Student の \textit{t}-Distribution メソッドを使用します。
したがって、NLP 評価はより意味があり、透明性があり、信頼できるものになります。
この \textit{t}-Distribution メソッドは、観測データが不足しているときはいつでも、実験調査の信頼できる評価のために IRR レベルを測定するために NLP フィールドの外でも使用できます。
キーワード: 評価者間信頼性 (IRR);
乏しい観測;
信頼区間 (CI);
自然言語処理 (NLP);
翻訳品質評価 (TQE);
生徒の \textit{t}-分布

要約(オリジナル)

In natural language processing (NLP) we always rely on human judgement as the golden quality evaluation method. However, there has been an ongoing debate on how to better evaluate inter-rater reliability (IRR) levels for certain evaluation tasks, such as translation quality evaluation (TQE), especially when the data samples (observations) are very scarce. In this work, we first introduce the study on how to estimate the confidence interval for the measurement value when only one data (evaluation) point is available. Then, this leads to our example with two human-generated observational scores, for which, we introduce “Student’s \textit{t}-Distribution” method and explain how to use it to measure the IRR score using only these two data points, as well as the confidence intervals (CIs) of the quality evaluation. We give quantitative analysis on how the evaluation confidence can be greatly improved by introducing more observations, even if only one extra observation. We encourage researchers to report their IRR scores in all possible means, e.g. using Student’s \textit{t}-Distribution method whenever possible; thus making the NLP evaluation more meaningful, transparent, and trustworthy. This \textit{t}-Distribution method can be also used outside of NLP fields to measure IRR level for trustworthy evaluation of experimental investigations, whenever the observational data is scarce. Keywords: Inter-Rater Reliability (IRR); Scarce Observations; Confidence Intervals (CIs); Natural Language Processing (NLP); Translation Quality Evaluation (TQE); Student’s \textit{t}-Distribution

arxiv情報

著者 Serge Gladkoff,Lifeng Han,Goran Nenadic
発行日 2023-03-08 11:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, cs.NA, math.IT, math.NA, stat.AP パーマリンク