Models of reference production: How do they withstand the test of time?

要約

近年、多くの NLP 研究はパフォーマンスの向上のみに焦点を当てています。
この研究では、NLP の言語的および科学的側面に焦点を当てます。
私たちは、コンテキスト内で参照表現を生成するタスク (REG-in-context) をケーススタディとして使用し、10 年以上前にこのトピックに取り組んだ英語の包括的な共有タスクのセットである GREC から分析を開始します。
(1) より現実的なデータセットで、(2) より高度な方法を使用してモデルを評価した場合、モデルのパフォーマンスはどうなるかを尋ねます。
さまざまな評価指標と特徴選択実験を使用してモデルをテストします。
結果はコーパスと評価指標の選択によって大きく影響されるため、GREC はもはや人間の参照生成を模倣するモデルの能力の信頼できる評価を提供するとみなすことはできないと結論付けています。
また、私たちの結果は、事前トレーニングされた言語モデルは古典的な機械学習モデルよりもコーパスの選択に依存しないため、より堅牢なクラス予測を行うことも示唆しています。

要約(オリジナル)

In recent years, many NLP studies have focused solely on performance improvement. In this work, we focus on the linguistic and scientific aspects of NLP. We use the task of generating referring expressions in context (REG-in-context) as a case study and start our analysis from GREC, a comprehensive set of shared tasks in English that addressed this topic over a decade ago. We ask what the performance of models would be if we assessed them (1) on more realistic datasets, and (2) using more advanced methods. We test the models using different evaluation metrics and feature selection experiments. We conclude that GREC can no longer be regarded as offering a reliable assessment of models’ ability to mimic human reference production, because the results are highly impacted by the choice of corpus and evaluation metrics. Our results also suggest that pre-trained language models are less dependent on the choice of corpus than classic Machine Learning models, and therefore make more robust class predictions.

arxiv情報

著者 Fahime Same,Guanyi Chen,Kees van Deemter
発行日 2023-07-27 12:46:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク