Revealing Trends in Datasets from the 2022 ACL and EMNLP Conferences

要約

自然言語処理 (NLP) は、Transformer アーキテクチャの出現以来、大幅に成長しました。
トランスフォーマーは、事前トレーニングされた大規模言語モデル (PLM) を生み出しました。
いくつかのタスクにわたって NLP システムのパフォーマンスが大幅に向上しました。
NLP システムは、特定のタスクを達成する点では人間と同等か、場合によっては人間よりも優れています。
ただし、 \emph{事前トレーニング時のデータセットの品質が向上すると、タスクに関係なく、PLM がより優れたパフォーマンスを達成できる}ということは依然として一般的です。高品質のデータセットが必要なため、NLP 研究者は特定のニーズを満たすために新しいデータセットを作成し続けるようになりました。

たとえば、2 つのトップ NLP カンファレンスである ACL と EMNLP は、2022 年に新しいデータセットを紹介する 92 件の論文を受け入れました。
この作業は、これらのデータセット内で採掘された傾向と洞察を明らかにすることを目的としています。
さらに、将来のデータセットのキュレーションに興味のある研究者に貴重な提案を提供します。

要約(オリジナル)

Natural language processing (NLP) has grown significantly since the advent of the Transformer architecture. Transformers have given birth to pre-trained large language models (PLMs). There has been tremendous improvement in the performance of NLP systems across several tasks. NLP systems are on par or, in some cases, better than humans at accomplishing specific tasks. However, it remains the norm that \emph{better quality datasets at the time of pretraining enable PLMs to achieve better performance, regardless of the task.} The need to have quality datasets has prompted NLP researchers to continue creating new datasets to satisfy particular needs. For example, the two top NLP conferences, ACL and EMNLP, accepted ninety-two papers in 2022, introducing new datasets. This work aims to uncover the trends and insights mined within these datasets. Moreover, we provide valuable suggestions to researchers interested in curating datasets in the future.

arxiv情報

著者 Jesse Atuhurra,Hidetaka Kamigaito
発行日 2024-07-15 14:07:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク