Reproducibility is Nothing without Correctness: The Importance of Testing Code in NLP

要約

タイトル: 自然言語処理において、コーディングのテストが重要である理由:再現性が正しさを伴わなければ何の意味もない

要約:
– 研究実験において、コードの正しさはしばしば結果の質に基づいてのみ仮定される。
– これには誤った結果や誤認識的な発見のリスクが伴う。
– この問題に対処するために、我々は現在の焦点である結果の再現性に加えて、コーディングのベストプラクティスに重点を置くべきであると主張する。
– 我々は、最先端のコンフォーマー・アーキテクチャの広く使用されているオープンソースの実装に3つのバグを特定し、修正することで、NLPコミュニティへの呼びかけを強化します。
– 言語設定の自動音声認識と翻訳の比較実験を通じて、バグの存在が良好で再現性のある結果の達成を妨げないことを示し、誤った結論を導き、将来の研究を誤導する可能性があることを示す。
– この研究は、正確さを促進し、開発されたソフトウェアの品質を改善するためのベストプラクティスの採用への行動を呼びかけるものである。

要約(オリジナル)

Despite its pivotal role in research experiments, code correctness is often presumed only on the basis of the perceived quality of the results. This comes with the risk of erroneous outcomes and potentially misleading findings. To address this issue, we posit that the current focus on result reproducibility should go hand in hand with the emphasis on coding best practices. We bolster our call to the NLP community by presenting a case study, in which we identify (and correct) three bugs in widely used open-source implementations of the state-of-the-art Conformer architecture. Through comparative experiments on automatic speech recognition and translation in various language settings, we demonstrate that the existence of bugs does not prevent the achievement of good and reproducible results and can lead to incorrect conclusions that potentially misguide future research. In response to this, this study is a call to action toward the adoption of coding best practices aimed at fostering correctness and improving the quality of the developed software.

arxiv情報

著者 Sara Papi,Marco Gaido,Andrea Pilzer,Matteo Negri
発行日 2023-03-31 08:15:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク