要約
文学的であろうと歴史的であろうと、テキストは、その目的、著者、文化的文脈によって形作られた構造的および文体的なパターンを示します。
繰り返しと制約された表現を特徴とする定式的なテキストは、より動的な構成と比較して、自己情報の変動性が低い傾向があります。
歴史的な文書、特にヘブライ語の聖書のような多著者のテキストにそのようなパターンを特定することは、その起源、目的、伝達に関する洞察を提供します。
この研究の目的は、繰り返しフレーズ、構文構造、スタイルマーカーを分析することにより、定式的なクラスター(体系的な繰り返しと構造的制約を示すセクション)を特定することを目的としています。
ただし、特に事前定義されたラベルなしでパターンを推測する必要がある高次元のテキストスペースでは、監視されていない方法で非形式的要素と区別することは計算上の課題をもたらします。
これに対処するために、小さなサンプルの高次元設定で不安定になる共分散ベースの方法とは異なり、テキストの構造化されたパターンを検出するために、加重自己情報分布を活用する情報理論的アルゴリズムを開発します。
差別的な自己情報に基づいた連続的な定式化を使用して古典的な離散自己情報測定を拡張することにより、ガウス症の下での神経埋め込みを含むさまざまなタイプのテキスト表現に適用される方法のままです。
ヘブライ語の聖書の仮説を立てた著者部門に適用された私たちのアプローチは、スタイル層を分離し、テキストの層別化のための定量的な枠組みを提供します。
この方法は、構成パターンを分析する能力を高め、複雑な著者と編集プロセスによって形作られたテキストの文学的および文化的進化に関するより深い洞察を提供します。
要約(オリジナル)
Texts, whether literary or historical, exhibit structural and stylistic patterns shaped by their purpose, authorship, and cultural context. Formulaic texts, characterized by repetition and constrained expression, tend to have lower variability in self-information compared to more dynamic compositions. Identifying such patterns in historical documents, particularly multi-author texts like the Hebrew Bible provides insights into their origins, purpose, and transmission. This study aims to identify formulaic clusters — sections exhibiting systematic repetition and structural constraints — by analyzing recurring phrases, syntactic structures, and stylistic markers. However, distinguishing formulaic from non-formulaic elements in an unsupervised manner presents a computational challenge, especially in high-dimensional textual spaces where patterns must be inferred without predefined labels. To address this, we develop an information-theoretic algorithm leveraging weighted self-information distributions to detect structured patterns in text, unlike covariance-based methods, which become unstable in small-sample, high-dimensional settings, our approach directly models variations in self-information to identify formulaicity. By extending classical discrete self-information measures with a continuous formulation based on differential self-information, our method remains applicable across different types of textual representations, including neural embeddings under Gaussian priors. Applied to hypothesized authorial divisions in the Hebrew Bible, our approach successfully isolates stylistic layers, providing a quantitative framework for textual stratification. This method enhances our ability to analyze compositional patterns, offering deeper insights into the literary and cultural evolution of texts shaped by complex authorship and editorial processes.
arxiv情報
著者 | Gideon Yoffe,Yair Segev,Barak Sober |
発行日 | 2025-03-10 13:24:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google