A decomposition of book structure through ousiometric fluctuations in cumulative word-time

要約

書籍の語法変化を調べるために定量的な手法が用いられてきたが、書籍の長さとは無関係な、物語の形などの全体的な傾向に焦点を当てた研究が行われてきた。そこで、本研究では、本の長さとは無関係に、1冊の本の中でどのように単語が変化していくかを、1冊の本の中の単語数ではなく、ある時点で完了した単語数の関数として調べます。意味差から得られる意味の価値-覚醒-優位の枠組みを再解釈したウシオメトリクスを用いて、テキストを累積単語時間におけるパワーと危険のスコアの時系列に変換する。各時系列は、経験的モード分解を用いて、構成する振動モードの和と非振動トレンドに分解される。元のパワーと危険度の時系列とシャッフルされたテキストから得られた時系列の分解を比較すると、短い本は一般的な傾向しか示さず、長い本は一般的な傾向に加えて揺らぎがあることがわかる。これらの変動は、本の長さや図書館の分類コードに関係なく、通常数千語の周期を持つが、本の内容や構造によって異なる。この結果は、ウシオメトリックな意味で、長い本は短い本の拡大版ではなく、より短いテキストの連結に近い構造であることを示唆している。さらに、この結果は、長いテキストを章などのセクションに分割することを必要とする編集慣行と一致している。また、本手法は、様々な長さのテキストに対応するデータ駆動型のノイズ除去アプローチを提供する。これは、大きなウィンドウサイズを使用する従来のアプローチとは対照的で、特に短いテキストでは、関連情報を不用意に平滑化してしまう可能性がある。これらの結果は、計算文学分析、特に物語の基本的な単位の測定において、将来の研究の道を開くものである。

要約(オリジナル)

While quantitative methods have been used to examine changes in word usage in books, studies have focused on overall trends, such as the shapes of narratives, which are independent of book length. We instead look at how words change over the course of a book as a function of the number of words, rather than the fraction of the book, completed at any given point; we define this measure as ‘cumulative word-time’. Using ousiometrics, a reinterpretation of the valence-arousal-dominance framework of meaning obtained from semantic differentials, we convert text into time series of power and danger scores in cumulative word-time. Each time series is then decomposed using empirical mode decomposition into a sum of constituent oscillatory modes and a non-oscillatory trend. By comparing the decomposition of the original power and danger time series with those derived from shuffled text, we find that shorter books exhibit only a general trend, while longer books have fluctuations in addition to the general trend. These fluctuations typically have a period of a few thousand words regardless of the book length or library classification code, but vary depending on the content and structure of the book. Our findings suggest that, in the ousiometric sense, longer books are not expanded versions of shorter books, but are more similar in structure to a concatenation of shorter texts. Further, they are consistent with editorial practices that require longer texts to be broken down into sections, such as chapters. Our method also provides a data-driven denoising approach that works for texts of various lengths, in contrast to the more traditional approach of using large window sizes that may inadvertently smooth out relevant information, especially for shorter texts. These results open up avenues for future work in computational literary analysis, particularly the measurement of a basic unit of narrative.

arxiv情報

著者 Mikaela Irene Fudolig,Thayer Alshaabi,Kathryn Cramer,Christopher M. Danforth,Peter Sheridan Dodds
発行日 2023-05-12 00:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY, physics.soc-ph パーマリンク