Surveying (Dis)Parities and Concerns of Compute Hungry NLP Research

要約

NLP の最近の改善の多くは、数十億のパラメーターを備えた大規模な事前トレーニング済み言語モデル (PLM) の開発と使用に由来しています。
モデルのサイズが大きいと、計算コストがそのようなモデルのトレーニングと評価の主な制限要因の 1 つになります。
そして、PLM 研究の持続可能性、再現性、包括性について深刻な懸念を引き起こしています。
こうした懸念は多くの場合、個人的な経験や観察に基づいています。
しかし、それらを調査する大規模な調査は行われていなかった。
この研究では、環境への影響、公平性、査読への影響という 3 つのトピックに関するこれらの懸念を定量化する最初の試みを提供します。
NLP コミュニティの 312 人の参加者を対象に調査を実施することで、年功序列、学界、業界に関する、異なるグループ間およびグループ内の既存の(格差)を把握します。
そして査読プロセスへの影響。
トピックごとに分析を提供し、見つかった格差を軽減するための推奨事項を考案し、その一部はすでに導入に成功しています。
最後に、多くの参加者が自由記述形式の回答で提起した追加の懸念について説明します。

要約(オリジナル)

Many recent improvements in NLP stem from the development and use of large pre-trained language models (PLMs) with billions of parameters. Large model sizes makes computational cost one of the main limiting factors for training and evaluating such models; and has raised severe concerns about the sustainability, reproducibility, and inclusiveness for researching PLMs. These concerns are often based on personal experiences and observations. However, there had not been any large-scale surveys that investigate them. In this work, we provide a first attempt to quantify these concerns regarding three topics, namely, environmental impact, equity, and impact on peer reviewing. By conducting a survey with 312 participants from the NLP community, we capture existing (dis)parities between different and within groups with respect to seniority, academia, and industry; and their impact on the peer reviewing process. For each topic, we provide an analysis and devise recommendations to mitigate found disparities, some of which already successfully implemented. Finally, we discuss additional concerns raised by many participants in free-text responses.

arxiv情報

著者 Ji-Ung Lee,Haritz Puerto,Betty van Aken,Yuki Arase,Jessica Zosa Forde,Leon Derczynski,Andreas Rücklé,Iryna Gurevych,Roy Schwartz,Emma Strubell,Jesse Dodge
発行日 2023-06-29 12:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク