Challenges to Evaluating the Generalization of Coreference Resolution Models: A Measurement Modeling Perspective

要約

複数のデータセットで同じ共参照解像度 (CR) モデルを評価することがますます一般的になってきています。
これらの複数のデータセットの評価により、モデルの一般化について有意義な結論を引き出すことができるでしょうか?
それとも、特定の実験設定 (使用された特定のデータセットなど) の特異性を反映しているのでしょうか?
これを研究するために、測定の妥当性を分析するために社会科学で一般的に使用されるフレームワークである測定モデリングのレンズを通して評価を考察します。
この視点を採用することで、複数のデータセットの評価が、正確に何を測定するかに関するさまざまな要素を混同する危険性があることを示します。
このため、これらの評価からより一般化可能な結論を導き出すことが困難になります。
たとえば、7 つのデータセットにわたって、CR モデルの一般化を反映することを目的とした測定値は、共参照の定義方法と運用方法の両方の差異と相関していることが多いことを示します。
これにより、CR モデルがあらゆる特異な次元にわたって一般化できるかどうかに関する結論を導き出す能力が制限されます。
私たちは、測定モデリング フレームワークが、CR 評価によって実際に測定される内容に関する課題を議論するために必要な語彙を提供すると信じています。

要約(オリジナル)

It is increasingly common to evaluate the same coreference resolution (CR) model on multiple datasets. Do these multi-dataset evaluations allow us to draw meaningful conclusions about model generalization? Or, do they rather reflect the idiosyncrasies of a particular experimental setup (e.g., the specific datasets used)? To study this, we view evaluation through the lens of measurement modeling, a framework commonly used in the social sciences for analyzing the validity of measurements. By taking this perspective, we show how multi-dataset evaluations risk conflating different factors concerning what, precisely, is being measured. This in turn makes it difficult to draw more generalizable conclusions from these evaluations. For instance, we show that across seven datasets, measurements intended to reflect CR model generalization are often correlated with differences in both how coreference is defined and how it is operationalized; this limits our ability to draw conclusions regarding the ability of CR models to generalize across any singular dimension. We believe the measurement modeling framework provides the needed vocabulary for discussing challenges surrounding what is actually being measured by CR evaluations.

arxiv情報

著者 Ian Porada,Alexandra Olteanu,Kaheer Suleman,Adam Trischler,Jackie Chi Kit Cheung
発行日 2024-06-18 16:19:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク