Missing Information, Unresponsive Authors, Experimental Flaws: The Impossibility of Assessing the Reproducibility of Previous Human Evaluations in NLP

要約

我々は、何が NLP における人間の評価の再現性を高めるか、あるいは低下させるかを調査する調整された研究に適した、NLP における以前の人間による一連の評価を特定する取り組みについて報告します。
我々は、論文のわずか 13\% が、(i) 再現に対する障壁が十分に低く、(ii) 再現を考慮するのに十分な入手可能な情報を持っていたこと、および我々が選択した実験の 1 つを除いてすべてを示した結果と発見を紹介します。
というのは、複製には、複製を行う意義が疑わしい欠陥があることが発見されたからである。
その結果、私たちは調整された研究デザインを再現アプローチから、標準化してから 2 回再現するアプローチに変更する必要がありました。
NLP における人間による評価の大部分が反復可能ではない、および/または再生産可能ではない、および/または再生産を正当化するには欠陥が多すぎるという全体的な (否定的な) 発見は、悲惨な状況を描いていますが、設計とレポートの方法について再考する機会を提供しています。
NLP における人間の評価。

要約(オリジナル)

We report our efforts in identifying a set of previous human evaluations in NLP that would be suitable for a coordinated study examining what makes human evaluations in NLP more/less reproducible. We present our results and findings, which include that just 13\% of papers had (i) sufficiently low barriers to reproduction, and (ii) enough obtainable information, to be considered for reproduction, and that all but one of the experiments we selected for reproduction was discovered to have flaws that made the meaningfulness of conducting a reproduction questionable. As a result, we had to change our coordinated study design from a reproduce approach to a standardise-then-reproduce-twice approach. Our overall (negative) finding that the great majority of human evaluations in NLP is not repeatable and/or not reproducible and/or too flawed to justify reproduction, paints a dire picture, but presents an opportunity for a rethink about how to design and report human evaluations in NLP.

arxiv情報

著者 Anya Belz,Craig Thomson,Ehud Reiter,Gavin Abercrombie,Jose M. Alonso-Moral,Mohammad Arvan,Anouck Braggaar,Mark Cieliebak,Elizabeth Clark,Kees van Deemter,Tanvi Dinkar,Ondřej Dušek,Steffen Eger,Qixiang Fang,Mingqi Gao,Albert Gatt,Dimitra Gkatzia,Javier González-Corbelle,Dirk Hovy,Manuela Hürlimann,Takumi Ito,John D. Kelleher,Filip Klubicka,Emiel Krahmer,Huiyuan Lai,Chris van der Lee,Yiru Li,Saad Mahamood,Margot Mieskes,Emiel van Miltenburg,Pablo Mosteiro,Malvina Nissim,Natalie Parde,Ondřej Plátek,Verena Rieser,Jie Ruan,Joel Tetreault,Antonio Toral,Xiaojun Wan,Leo Wanner,Lewis Watson,Diyi Yang
発行日 2023-08-07 09:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68, cs.CL, I.2.7 パーマリンク