A ripple in time: a discontinuity in American history

要約

このノートでは、Kaggle の一般教書演説 (SOTU) データセットを使用して、アメリカの歴史の一般的な年表と、演説自体の性格と性質に関するいくつかの驚くべき (そしてそれほど驚くべきではない) 観察を行います。
私たちの主なアプローチは、BERT (DistilBERT) や GPT-2 などのベクトル埋め込みを使用することです。
BERT (およびそのバリエーション) が NLP 分類タスクに最も適していると広く信じられていますが、GPT-2 と UMAP などの非線形次元削減手法を併用すると、より優れた分離と強力なクラスタリングが提供されることがわかりました。
このため、GPT-2 + UMAP は興味深い代替手段となります。
私たちの場合、モデルの微調整は必要なく、事前にトレーニングされたすぐに使用できる GPT-2 モデルで十分です。
また、どの大統領がどの演説を行ったかを分類するために微調整された DistilBERT モデルを使用し、非常に良好な結果が得られました (精度は実行に応じて 93% ~ 95%)。
執筆年を決定するために同様のタスクが実行され、それを約 4 年 (大統領の 1 期に相当) と特定することができました。
SOTU アドレスが提供する文章サンプルは比較的少なく (平均約 8,000 ワード、2,000 ワード未満から 20,000 ワード以上まで幅広くあります)、著者の数が比較的多いことは注目に値します (私たちは
42 人の米国大統領の SOTU アドレスを使用)。
これは、このノートで説明されているすべての計算が Google Colab の単一の GPU インスタンスを使用して実行できる一方で、使用された手法がかなり効率的であることが判明したことを示しています。
付属のコードは GitHub で入手できます。

要約(オリジナル)

In this note we use the State of the Union Address (SOTU) dataset from Kaggle to make some surprising (and some not so surprising) observations pertaining to the general timeline of American history, and the character and nature of the addresses themselves. Our main approach is using vector embeddings, such as BERT (DistilBERT) and GPT-2. While it is widely believed that BERT (and its variations) is most suitable for NLP classification tasks, we find out that GPT-2 in conjunction with nonlinear dimension reduction methods such as UMAP provide better separation and stronger clustering. This makes GPT-2 + UMAP an interesting alternative. In our case, no model fine-tuning is required, and the pre-trained out-of-the-box GPT-2 model is enough. We also used a fine-tuned DistilBERT model for classification detecting which President delivered which address, with very good results (accuracy 93% – 95% depending on the run). An analogous task was performed to determine the year of writing, and we were able to pin it down to about 4 years (which is a single presidential term). It is worth noting that SOTU addresses provide relatively small writing samples (with about 8’000 words on average, and varying widely from under 2’000 words to more than 20’000), and that the number of authors is relatively large (we used SOTU addresses of 42 US presidents). This shows that the techniques employed turn out to be rather efficient, while all the computations described in this note can be performed using a single GPU instance of Google Colab. The accompanying code is available on GitHub.

arxiv情報

著者 Alexander Kolpakov,Igor Rivin
発行日 2024-01-23 09:16:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SI, H.3.3 パーマリンク