PART: Pre-trained Authorship Representation Transformer

要約

文書を書いている著者は、語彙、レジストリ、句読点、間違い、さらには絵文字の使用など、テキスト内の識別情報を刻印します。
以前の作品は、手作りの機能または分類タスクを使用して著者モデルを訓練し、ドメイン外の著者のパフォーマンスが低下しました。
スタイロメトリック表現を使用する方が適していますが、これ自体がオープンな研究の課題です。
このホワイトペーパーでは、セマンティクスの代わりに\ textBf {Authorship Embeddings}を学習するための対照的な訓練されたモデルフィットである部分を提案します。
1162の文学著者、17287年のブログポスター、135の企業メールアカウントに属する約1.5mのテキストでモデルをトレーニングします。
識別可能なライティングスタイルを備えた不均一なセット。
現在の課題に関するモデルを評価し、競争力のあるパフォーマンスを達成します。
また、250人の著者に制限された場合、ゼロショット72.39 \%の精度を達成するデータセットのテストスプリットに関するモデルを評価します。
著者の性別、年齢、職業などの観察機能を観察する機能を観察する、利用可能なデータセットで異なるデータの視覚化を伴う表現を定性的に評価します。

要約(オリジナル)

Authors writing documents imprint identifying information within their texts: vocabulary, registry, punctuation, misspellings, or even emoji usage. Previous works use hand-crafted features or classification tasks to train their authorship models, leading to poor performance on out-of-domain authors. Using stylometric representations is more suitable, but this by itself is an open research challenge. In this paper, we propose PART, a contrastively trained model fit to learn \textbf{authorship embeddings} instead of semantics. We train our model on ~1.5M texts belonging to 1162 literature authors, 17287 blog posters and 135 corporate email accounts; a heterogeneous set with identifiable writing styles. We evaluate the model on current challenges, achieving competitive performance. We also evaluate our model on test splits of the datasets achieving zero-shot 72.39\% accuracy when bounded to 250 authors, a 54\% and 56\% higher than RoBERTa embeddings. We qualitatively assess the representations with different data visualizations on the available datasets, observing features such as gender, age, or occupation of the author.

arxiv情報

著者 Javier Huertas-Tato,Alejandro Martin,David Camacho
発行日 2025-05-09 09:18:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク