When Good and Reproducible Results are a Giant with Feet of Clay: The Importance of Software Quality in NLP

要約

研究実験におけるコードの正確性は、研究実験において重要な役割を果たしているにもかかわらず、多くの場合、知覚された結果の品質に基づいてのみ推定されます。
この仮定には、誤った結果や誤解を招く可能性のある結果が生じるリスクが伴います。
この問題に対処するには、現在の再現性への重点は、ソフトウェアの品質への重点と並行して行うべきであると考えます。
最先端の Conformer アーキテクチャの広く使用されている実装における 3 つのバグを特定して修正するケース スタディを紹介します。
さまざまな言語での音声認識と翻訳の実験を通じて、バグの存在が良好で再現可能な結果の達成を妨げるものではないが、将来の研究を誤った方向に導く可能性のある誤った結論につながる可能性があることを実証しました。
対策として、NLP コミュニティ内でコーディングのベスト プラクティスを促進し、研究ソフトウェアの品質を向上させることを目的として、コード品質チェックリストを提案し、ニューラル モデルのテスト専用ライブラリである pangoliNN をリリースします。

要約(オリジナル)

Despite its crucial role in research experiments, code correctness is often presumed only on the basis of the perceived quality of results. This assumption comes with the risk of erroneous outcomes and potentially misleading findings. To address this issue, we posit that the current focus on reproducibility should go hand in hand with the emphasis on software quality. We present a case study in which we identify and fix three bugs in widely used implementations of the state-of-the-art Conformer architecture. Through experiments on speech recognition and translation in various languages, we demonstrate that the presence of bugs does not prevent the achievement of good and reproducible results, which however can lead to incorrect conclusions that potentially misguide future research. As a countermeasure, we propose a Code-quality Checklist and release pangoliNN, a library dedicated to testing neural models, with the goal of promoting coding best practices and improving research software quality within the NLP community.

arxiv情報

著者 Sara Papi,Marco Gaido,Andrea Pilzer,Matteo Negri
発行日 2023-08-15 21:53:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク