Distinguishing Fictional Voices: a Study of Authorship Verification Models for Quotation Attribution

要約

直接話声の話者を自動的に検出する最近のアプローチでは、多くの場合、エンティティの周囲の言及など、コンテキスト内で見つかる局所的な情報を優先して、登場人物に関する一般的な情報が無視されます。
この研究では、英語小説の大規模なコーパス (Project Dialogism Novel Corpus) 内の既製の事前トレーニング済み著者検証モデルを使用して引用文をエンコードすることによって構築された登場人物の文体表現を調査します。
結果は、これらのモデルの一部で取得された文体情報と話題情報の組み合わせは、文字を相互に正確に区別しますが、引用を帰属させる際に意味論のみのモデルよりも必ずしも改善されるわけではないことを示唆しています。
ただし、これらの結果は小説によって異なるため、特に文学テキストや登場人物の研究に合わせて調整されたスタイロメトリック モデルのさらなる調査が行われる必要があります。

要約(オリジナル)

Recent approaches to automatically detect the speaker of an utterance of direct speech often disregard general information about characters in favor of local information found in the context, such as surrounding mentions of entities. In this work, we explore stylistic representations of characters built by encoding their quotes with off-the-shelf pretrained Authorship Verification models in a large corpus of English novels (the Project Dialogism Novel Corpus). Results suggest that the combination of stylistic and topical information captured in some of these models accurately distinguish characters among each other, but does not necessarily improve over semantic-only models when attributing quotes. However, these results vary across novels and more investigation of stylometric models particularly tailored for literary texts and the study of characters should be conducted.

arxiv情報

著者 Gaspard Michel,Elena V. Epure,Romain Hennequin,Christophe Cerisara
発行日 2024-01-30 12:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク