Missing Information, Unresponsive Authors, Experimental Flaws: The Impossibility of Assessing the Reproducibility of Previous Human Evaluations in NLP

要約

タイトル:NLPにおける以前の人間の評価の再現性を評価することが不可能である理由:欠落情報、回答のない著者、実験の欠陥

要約:

– 人間によるNLPの先行研究で再現性を調べることに適した評価を見つける試みを報告する。
– 結果として、わずか13%の論文が再現可能性に十分低い障壁を持ち、かつ十分な情報を持っていたため、再生を検討することができるといえる。
– 厳密な再生の意義を疑問視する欠陥があるため、再生のために選択した実験以外はすべて問題があった。
– 結果的に、再現アプローチから標準化して2回再現するアプローチに研究の設計を変更する必要があった。
– 大多数のNLPにおける人間による評価は決して繰り返すことができず、再現不可能であり、実験の欠陥があるため、再生を正当化するのに十分でないことが示されている。
– この (否定的な) 結果は厳しい状況を示しているが、NLPで人間評価をどのようにデザインして報告するかを見直す機会を提供する。

要約(オリジナル)

We report our efforts in identifying a set of previous human evaluations in NLP that would be suitable for a coordinated study examining what makes human evaluations in NLP more/less reproducible. We present our results and findings, which include that just 13\% of papers had (i) sufficiently low barriers to reproduction, and (ii) enough obtainable information, to be considered for reproduction, and that all but one of the experiments we selected for reproduction was discovered to have flaws that made the meaningfulness of conducting a reproduction questionable. As a result, we had to change our coordinated study design from a reproduce approach to a standardise-then-reproduce-twice approach. Our overall (negative) finding that the great majority of human evaluations in NLP is not repeatable and/or not reproducible and/or too flawed to justify reproduction, paints a dire picture, but presents an opportunity for a rethink about how to design and report human evaluations in NLP.

arxiv情報

著者 Anya Belz,Craig Thomson,Ehud Reiter,Gavin Abercrombie,Jose M. Alonso-Moral,Mohammad Arvan,Jackie Cheung,Mark Cieliebak,Elizabeth Clark,Kees van Deemter,Tanvi Dinkar,Ondřej Dušek,Steffen Eger,Qixiang Fang,Albert Gatt,Dimitra Gkatzia,Javier González-Corbelle,Dirk Hovy,Manuela Hürlimann,Takumi Ito,John D. Kelleher,Filip Klubicka,Huiyuan Lai,Chris van der Lee,Emiel van Miltenburg,Yiru Li,Saad Mahamood,Margot Mieskes,Malvina Nissim,Natalie Parde,Ondřej Plátek,Verena Rieser,Pablo Mosteiro Romero,Joel Tetreault,Antonio Toral,Xiaojun Wan,Leo Wanner,Lewis Watson,Diyi Yang
発行日 2023-05-02 17:46:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 68, cs.CL, I.2.7 パーマリンク