要約
著者証明 (AV) は、一連の文書を分析して、文書が特定の著者によって書かれたかどうかを判断するプロセスです。
この問題は、問題の文書が犯罪の証拠となる場合など、法医学のシナリオでよく発生します。
既存の最先端の AV 手法は、その機能に関するもっともらしい科学的説明によって裏付けられていない計算ソリューションを使用しており、多くの場合、分析者にとって解釈が困難です。
これに対処するために、$\lambda_G$ (LambdaG) と呼ばれる量の計算に依存する方法を提案します。これは、著者候補の文法モデルが与えられた場合の文書の尤度と、著者候補の文法モデルが与えられた場合の同じ文書の可能性との比率です。
参照集団の文法モデル。
これらの文法モデルは、文法特徴のみに基づいてトレーニングされた $n$-gram 言語モデルを使用して推定されます。
LambdaG は、トレーニングに大量のデータを必要としないにもかかわらず、微調整された Siamese Transformer ネットワークなど、より高い計算複雑さで他の確立された AV 手法よりも優れたパフォーマンスを発揮します。
12 のデータセットに適用された 4 つのベースライン手法に基づく経験的評価では、LambdaG が 11 のケースで、またトピックに依存しない手法のみを考慮した場合は 12 のケースすべてで精度と AUC の両方の点でより良い結果が得られることが示されています。
このアルゴリズムは、多くのジャンル間比較における参照母集団のジャンルの重要な変動に対しても非常に堅牢です。
これらのプロパティに加えて、LambdaG が現在の最先端のものよりも解釈しやすいことを示します。
他の方法に対する LambdaG の利点は、言語処理の認知言語理論と互換性があるという事実によるものであると私たちは主張します。
要約(オリジナル)
Authorship Verification (AV) is the process of analyzing a set of documents to determine whether they were written by a specific author. This problem often arises in forensic scenarios, e.g., in cases where the documents in question constitute evidence for a crime. Existing state-of-the-art AV methods use computational solutions that are not supported by a plausible scientific explanation for their functioning and that are often difficult for analysts to interpret. To address this, we propose a method relying on calculating a quantity we call $\lambda_G$ (LambdaG): the ratio between the likelihood of a document given a model of the Grammar for the candidate author and the likelihood of the same document given a model of the Grammar for a reference population. These Grammar Models are estimated using $n$-gram language models that are trained solely on grammatical features. Despite not needing large amounts of data for training, LambdaG still outperforms other established AV methods with higher computational complexity, including a fine-tuned Siamese Transformer network. Our empirical evaluation based on four baseline methods applied to twelve datasets shows that LambdaG leads to better results in terms of both accuracy and AUC in eleven cases and in all twelve cases if considering only topic-agnostic methods. The algorithm is also highly robust to important variations in the genre of the reference population in many cross-genre comparisons. In addition to these properties, we demonstrate how LambdaG is easier to interpret than the current state-of-the-art. We argue that the advantage of LambdaG over other methods is due to fact that it is compatible with Cognitive Linguistic theories of language processing.
arxiv情報
著者 | Andrea Nini,Oren Halvani,Lukas Graner,Valerio Gherardi,Shunichi Ishihara |
発行日 | 2024-03-13 12:25:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google