要約
共参照解決モデルは、多くの場合、複数のデータセットで評価されます。
ただし、データセットは、コーパスの選択や注釈ガイドラインなどの要因により、共参照がどのように実現されるか、つまり、データセットで共参照の理論的概念がどのように運用されるかで異なります。
現在の相互参照解決モデルのエラーが、データセット (OntoNotes、PreCo、および Winogrande) 間での既存の操作化の違いにどの程度関連しているかを調査します。
具体的には、モデルのパフォーマンスを区別し、いくつかのタイプの相互参照に対応するカテゴリに分類します。これには、一般的な言及、複合修飾子、コピュラ述語などの相互参照が含まれます。
この内訳は、最新のモデルが異なる共参照タイプ間で一般化する能力がどのように異なるかを調査するのに役立ちます。
たとえば、私たちの実験では、OntoNotes でトレーニングされたモデルは、PreCo の一般的な言及とコピュラ述語ではうまく機能しませんでした。
私たちの調査結果は、現在の相互参照解決モデルの期待を調整するのに役立ちます。
そして、今後の作業では、モデルを開発する際に一般化が不十分であることに経験的に関連するタイプの共参照を明示的に説明できます。
要約(オリジナル)
Coreference resolution models are often evaluated on multiple datasets. Datasets vary, however, in how coreference is realized — i.e., how the theoretical concept of coreference is operationalized in the dataset — due to factors such as the choice of corpora and annotation guidelines. We investigate the extent to which errors of current coreference resolution models are associated with existing differences in operationalization across datasets (OntoNotes, PreCo, and Winogrande). Specifically, we distinguish between and break down model performance into categories corresponding to several types of coreference, including coreferring generic mentions, compound modifiers, and copula predicates, among others. This break down helps us investigate how state-of-the-art models might vary in their ability to generalize across different coreference types. In our experiments, for example, models trained on OntoNotes perform poorly on generic mentions and copula predicates in PreCo. Our findings help calibrate expectations of current coreference resolution models; and, future work can explicitly account for those types of coreference that are empirically associated with poor generalization when developing models.
arxiv情報
著者 | Ian Porada,Alexandra Olteanu,Kaheer Suleman,Adam Trischler,Jackie Chi Kit Cheung |
発行日 | 2023-03-16 05:32:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google