要約
このテクニカル ノートでは、歴史的データセットから時間的 (言語拡張に関連する、または無関係) と人格 (著者帰属) を発見するための新しいアプローチを提案します。
過去 42 人の米国大統領による一般教書演説に対する私たちのアプローチを例示します。このデータセットは、データ量が比較的少なく、テキストの量とスタイルのばらつきが大きいことで知られています。
それにもかかわらず、私たちは著者帰属タスクで約 95\% の精度を達成することができ、執筆日を単一の大統領任期に特定しました。
要約(オリジナル)
In this technical note we suggest a novel approach to discover temporal (related and unrelated to language dilation) and personality (authorship attribution) in historical datasets. We exemplify our approach on the State of the Union speeches given by the past 42 US presidents: this dataset is known for its relatively small amount of data, and high variability of the amount and style of texts. Nevertheless we manage to achieve about 95\% accuracy on the authorship attribution task, and pin down the date of writing to a single presidential term.
arxiv情報
| 著者 | Alexander Kolpakov,Igor Rivin |
| 発行日 | 2024-08-07 08:31:05+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google