Separating Style from Substance: Enhancing Cross-Genre Authorship Attribution through Data Selection and Presentation

要約

2 つの文書が同じ著者によって書かれたかどうかを判断する作業は、機械にとっても人間にとっても困難です。
2 つの文書が異なるトピック (例: 野球と政治) または異なるジャンル (例: ブログ投稿と学術記事) について書かれている場合、この作業はさらに困難になります。
マシンの場合、トピックの境界を越える現実世界のトレーニング例が相対的に不足していることと、ジャンルを超えたデータが不足しつつあることにより、問題はさらに複雑になります。
私たちは、著者帰属のためのトピック情報へのモデルの依存を抑制し、それに応じて、トピックに関係なく、スタイルをより確実に示す情報を強制的に組み込むように設計された、トレーニングデータ選択のための的を絞った方法と新しい学習カリキュラムを提案します。
これらの改良により、ジャンル間の著者帰属の平均が 62.7% 相対的に向上し、ジャンルごとの条件も 16.6% 向上しました。

要約(オリジナル)

The task of deciding whether two documents are written by the same author is challenging for both machines and humans. This task is even more challenging when the two documents are written about different topics (e.g. baseball vs. politics) or in different genres (e.g. a blog post vs. an academic article). For machines, the problem is complicated by the relative lack of real-world training examples that cross the topic boundary and the vanishing scarcity of cross-genre data. We propose targeted methods for training data selection and a novel learning curriculum that are designed to discourage a model’s reliance on topic information for authorship attribution and correspondingly force it to incorporate information more robustly indicative of style no matter the topic. These refinements yield a 62.7% relative improvement in average cross-genre authorship attribution, as well as 16.6% in the per-genre condition.

arxiv情報

著者 Steven Fincke,Elizabeth Boschee
発行日 2024-08-09 17:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク