要約
共参照の注釈と解決は、計算文学研究の重要な要素です。
しかし、これまでフィクション用に高品質のシステムを構築することは困難でした。
共参照には複雑な構造化された出力が必要であり、文学テキストには微妙な推論と非常に多様な言語が含まれます。
新しい言語モデルベースの seq2seq システムは、マークダウンのような注釈を付けて入力文のコピーを直接生成する方法を学習することで、これらの問題の両方を解決する機会を提供します。
新しいモデルをトレーニングするためのワークフローだけでなく、相互参照用にいくつかのトレーニング済みモデルを作成、評価、リリースします。
要約(オリジナル)
Coreference annotation and resolution is a vital component of computational literary studies. However, it has previously been difficult to build high quality systems for fiction. Coreference requires complicated structured outputs, and literary text involves subtle inferences and highly varied language. New language-model-based seq2seq systems present the opportunity to solve both these problems by learning to directly generate a copy of an input sentence with markdown-like annotations. We create, evaluate, and release several trained models for coreference, as well as a workflow for training new models.
arxiv情報
著者 | Rebecca M. M. Hicke,David Mimno |
発行日 | 2024-01-31 15:35:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google