Reproducibility is Nothing without Correctness: The Importance of Testing Code in NLP

要約

研究実験における極めて重要な役割にもかかわらず、コードの正確性は、多くの場合、結果の認識された品質に基づいてのみ推定されます。
これには、誤った結果や誤解を招く可能性のある調査結果のリスクが伴います。
この問題に対処するために、結果の再現性に対する現在の焦点は、コーディングのベスト プラクティスに重点を置くことと密接に連携する必要があると考えています。
ケース スタディを提示することで、NLP コミュニティへの呼びかけを強化します。このケース スタディでは、最先端の Conformer アーキテクチャの広く使用されているオープン ソース実装で 3 つのバグを特定 (および修正) します。
さまざまな言語設定での自動音声認識と翻訳の比較実験を通じて、バグの存在が良好で再現可能な結果の達成を妨げず、将来の研究を誤った方向に導く可能性のある誤った結論につながる可能性があることを示しています。
これに応えて、この調査は、開発されたソフトウェアの正確性を促進し、品質を向上させることを目的としたコーディングのベストプラクティスの採用に向けた行動への呼びかけです。

要約(オリジナル)

Despite its pivotal role in research experiments, code correctness is often presumed only on the basis of the perceived quality of the results. This comes with the risk of erroneous outcomes and potentially misleading findings. To address this issue, we posit that the current focus on result reproducibility should go hand in hand with the emphasis on coding best practices. We bolster our call to the NLP community by presenting a case study, in which we identify (and correct) three bugs in widely used open-source implementations of the state-of-the-art Conformer architecture. Through comparative experiments on automatic speech recognition and translation in various language settings, we demonstrate that the existence of bugs does not prevent the achievement of good and reproducible results and can lead to incorrect conclusions that potentially misguide future research. In response to this, this study is a call to action toward the adoption of coding best practices aimed at fostering correctness and improving the quality of the developed software.

arxiv情報

著者 Sara Papi,Marco Gaido,Andrea Pilzer,Matteo Negri
発行日 2023-03-29 07:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク