要約
この論文は、人間の評価に関する NLP 研究の結果を再現するための ReproNLP 共有タスクの ReproHum 要素の一部として、Anatanasova et al (2020) による Generating Fact Checking Explains の部分的な複製を紹介します。
この共有タスクは、分野としての NLP が時間の経過とともにどの程度再現可能になっているかを調査することを目的としています。
タスク主催者と元の作成者から提供された指示に従って、カバレッジ基準に関する 40 の入力に対する 3 つのファクトチェック説明 (ゴールド スタンダードと 2 つのモデルの出力で構成される) の相対ランキングを収集します。
オリジナルの作品の生の結果の複製と再分析の結果は、オリジナルの発見を裏付けるものであり、オリジナルの作品と複製の間に同様のパターンが見られます。
元の結果からわずかな差異が観察されましたが、私たちの発見は、提案されたモデルの有効性に関して元の著者によって導かれた主な結論を裏付けています。
要約(オリジナル)
This paper presents a partial reproduction of Generating Fact Checking Explanations by Anatanasova et al (2020) as part of the ReproHum element of the ReproNLP shared task to reproduce the findings of NLP research regarding human evaluation. This shared task aims to investigate the extent to which NLP as a field is becoming more or less reproducible over time. Following the instructions provided by the task organisers and the original authors, we collect relative rankings of 3 fact-checking explanations (comprising a gold standard and the outputs of 2 models) for 40 inputs on the criteria of Coverage. The results of our reproduction and reanalysis of the original work’s raw results lend support to the original findings, with similar patterns seen between the original work and our reproduction. Whilst we observe slight variation from the original results, our findings support the main conclusions drawn by the original authors pertaining to the efficacy of their proposed models.
arxiv情報
著者 | Tyler Loakman,Chenghua Lin |
発行日 | 2024-05-14 17:36:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google