要約
著者のスタイルを執筆内容から自動的に切り離すことは、計算言語学における長年の、そしておそらく克服できない問題です。
同時に、著者ラベルを備えた大規模なテキスト コーパスが利用できるようになったことで、最近、著者の帰属を目的として純粋にデータ駆動型の方法で著者の表現を学習できるようになりました。このタスクは、表面上、コンテンツのエンコードよりも書き方のエンコードに大きく依存しています。
ただし、著者名はトピックなどの他の潜在変数と相関している可能性があるため、この代理タスクが成功しても、そのような表現が文体を捉えていることが保証されるわけではありません。
これらの表現が伝える情報の性質をより深く理解するため、特にこれらの表現が主に書き方をエンコードしているという仮説を検証するために、私たちは一連の的を絞った実験を通じてこれらの表現を体系的に調査しました。
これらの実験の結果は、代理著者性予測タスクのために学習された表現が実際に文体の影響を受けやすいことを示唆しています。
結果として、著者名表現は、時間の経過によるトピックの変動など、特定の種類のデータの変化に対して堅牢であることが期待される場合があります。
さらに、私たちの発見は、スタイル転送などのスタイル表現を必要とする下流アプリケーションへの扉を開く可能性があります。
要約(オリジナル)
Automatically disentangling an author’s style from the content of their writing is a longstanding and possibly insurmountable problem in computational linguistics. At the same time, the availability of large text corpora furnished with author labels has recently enabled learning authorship representations in a purely data-driven manner for authorship attribution, a task that ostensibly depends to a greater extent on encoding writing style than encoding content. However, success on this surrogate task does not ensure that such representations capture writing style since authorship could also be correlated with other latent variables, such as topic. In an effort to better understand the nature of the information these representations convey, and specifically to validate the hypothesis that they chiefly encode writing style, we systematically probe these representations through a series of targeted experiments. The results of these experiments suggest that representations learned for the surrogate authorship prediction task are indeed sensitive to writing style. As a consequence, authorship representations may be expected to be robust to certain kinds of data shift, such as topic drift over time. Additionally, our findings may open the door to downstream applications that require stylistic representations, such as style transfer.
arxiv情報
著者 | Andrew Wang,Cristina Aggazzotti,Rebecca Kotula,Rafael Rivera Soto,Marcus Bishop,Nicholas Andrews |
発行日 | 2023-08-22 15:10:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google