要約
文芸小説における引用帰属の現在のモデルは、トレーニング データやテスト データで利用可能な情報のレベルが異なることを前提としているため、実際の推論には課題が生じています。
ここでは、引用の帰属を、文字の識別、共参照の解決、引用の識別、話者の帰属という 4 つの相互接続されたサブタスクのセットとしてアプローチします。
私たちは、文学小説における注釈付きの共参照と引用の大規模なデータセット (Project Dialogism Novel Corpus) を使用して、これらのサブタスクのそれぞれについて個別に最先端のモデルをベンチマークします。
また、特に話者帰属タスクのモデルをトレーニングおよび評価し、単純な逐次予測モデルが最先端のモデルと同等の精度スコアを達成することを示しています。
要約(オリジナル)
Current models for quotation attribution in literary novels assume varying levels of available information in their training and test data, which poses a challenge for in-the-wild inference. Here, we approach quotation attribution as a set of four interconnected sub-tasks: character identification, coreference resolution, quotation identification, and speaker attribution. We benchmark state-of-the-art models on each of these sub-tasks independently, using a large dataset of annotated coreferences and quotations in literary novels (the Project Dialogism Novel Corpus). We also train and evaluate models for the speaker attribution task in particular, showing that a simple sequential prediction model achieves accuracy scores on par with state-of-the-art models.
arxiv情報
著者 | Krishnapriya Vishnubhotla,Frank Rudzicz,Graeme Hirst,Adam Hammond |
発行日 | 2023-07-07 17:37:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google