Capturing Style in Author and Document Representation

要約

幅広い深層自然言語処理 (NLP) モデルは、単語とドキュメントの連続的かつ低次元の表現を統合します。
驚くべきことに、作成者の表現学習を研究するモデルはほとんどありません。
これらの表現は、著者の識別や分類、または推奨システムなど、多くの NLP タスクに使用できます。
既存の作品の強い制限は、文体が明示的に捉えられていないため、文学データにはほとんど適用できないことです。
そこで、我々は、スタイル上の制約のある著者と文書の両方の埋め込みを学習する、変分情報ボトルネック (VIB) に基づく新しいアーキテクチャを提案します。
私たちのモデルは、事前トレーニングされたドキュメント エンコーダーを微調整します。
事前定義された文体特徴を追加して、文体指標に関して表現軸を解釈可能にすることで、文体の検出を促進します。
私たちは、Gutenberg プロジェクトから抽出された文学コーパス、ブログ著者コーパス、IMDb62 の 3 つのデータセットでこの手法を評価しました。これらのデータセットについて、著者の文体的側面をより正確に捕捉しながら、著者帰属における強力な/最近のベースラインと一致またはそれを上回っていることを示しました。

要約(オリジナル)

A wide range of Deep Natural Language Processing (NLP) models integrates continuous and low dimensional representations of words and documents. Surprisingly, very few models study representation learning for authors. These representations can be used for many NLP tasks, such as author identification and classification, or in recommendation systems. A strong limitation of existing works is that they do not explicitly capture writing style, making them hardly applicable to literary data. We therefore propose a new architecture based on Variational Information Bottleneck (VIB) that learns embeddings for both authors and documents with a stylistic constraint. Our model fine-tunes a pre-trained document encoder. We stimulate the detection of writing style by adding predefined stylistic features making the representation axis interpretable with respect to writing style indicators. We evaluate our method on three datasets: a literary corpus extracted from the Gutenberg Project, the Blog Authorship Corpus and IMDb62, for which we show that it matches or outperforms strong/recent baselines in authorship attribution while capturing much more accurately the authors stylistic aspects.

arxiv情報

著者 Enzo Terreau,Antoine Gourru,Julien Velcin
発行日 2024-07-18 10:01:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク