Low-Resource Authorship Style Transfer: Can Non-Famous Authors Be Imitated?

要約

著者スタイルの転送には、元の意味を保持しながら、ターゲット著者のスタイルに一致するようにテキストを変更することが含まれます。
STRAP のような既存の教師なしアプローチは、主に、書籍、講演、その他の出版作品における執筆スタイルの多くの例を用いて、対象となる著者にスタイルを伝達することに重点を置いています。
この高リソースのトレーニング データ要件 (多くの場合 100,000 ワードを超える) により、これらのアプローチは主に、出版された著者、政治家、その他の有名な人物や著者スタイルへのスタイルの移転に役立ちますが、有名でない著者へのスタイルの移転は十分ではありませんでした。
-勉強しました。
\textit{低リソースの著者スタイル転送} タスクを導入します。これは、対象となる著者のスタイルのテキストが限られた量しか存在しない、より困難なクラスの著者スタイル転送です。
私たちの実験では、特に Reddit からソースとターゲットの著者を選択し、その Reddit 投稿のスタイルを転送し、ターゲットの著者のスタイルの投稿を 16 件 (平均約 500 ワード) に制限しました。
スタイル転送の精度は通常、分類者または人間の判断者が出力を対象の作成者によって書かれたものとして分類する頻度によって測定されます。
最近の著者表現モデルは、わずか数個の文章サンプルでも著者識別に優れており、私たちが提案する評価指標を通じてこのタスクの自動評価が初めて可能になりました。
私たちの結果は、私たちが最も強力なベースラインとして開発したコンテキスト内学習テクニックを確立していますが、現在のアプローチではこの困難なタスクをまだ習得できていないことがわかりました。
さらなる調査を促すために、データと実装を公開します。

要約(オリジナル)

Authorship style transfer involves altering text to match the style of a target author whilst preserving the original meaning. Existing unsupervised approaches like STRAP have largely focused on style transfer to target authors with many examples of their writing style in books, speeches, or other published works. This high-resource training data requirement (often greater than 100,000 words) makes these approaches primarily useful for style transfer to published authors, politicians, or other well-known figures and authorship styles, while style transfer to non-famous authors has not been well-studied. We introduce the \textit{low-resource authorship style transfer} task, a more challenging class of authorship style transfer where only a limited amount of text in the target author’s style may exist. In our experiments, we specifically choose source and target authors from Reddit and style transfer their Reddit posts, limiting ourselves to just 16 posts (on average ~500 words) of the target author’s style. Style transfer accuracy is typically measured by how often a classifier or human judge will classify an output as written by the target author. Recent authorship representations models excel at authorship identification even with just a few writing samples, making automatic evaluation of this task possible for the first time through evaluation metrics we propose. Our results establish an in-context learning technique we develop as the strongest baseline, though we find current approaches do not yet achieve mastery of this challenging task. We release our data and implementations to encourage further investigation.

arxiv情報

著者 Ajay Patel,Nicholas Andrews,Chris Callison-Burch
発行日 2023-08-23 16:31:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク