Estimating the Influence of Sequentially Correlated Literary Properties in Textual Classification: A Data-Centric Hypothesis-Testing Approach

要約

スタイロメトリーは、ジャンルやテーマなどの要素とは異なる半意識的な選択を反映すると想定される文学的特徴を分析することによって、作家を区別することを目的としています。
ただし、これらのコンポーネントは重複することが多く、特徴分布のみに基づいたテキスト分類が複雑になります。
主題的な内容などの一部の文学的特性は、隣接するテキスト単位間の相関関係として現れる可能性がありますが、作家スタイルなどの他の特性は、それとは独立している可能性があります。
我々は、これらの相関がいつ分類を促進するかを決定することを目的として、逐次的に相関する文学的特性がテキスト分類に及ぼす影響を評価するための仮説検定アプローチを導入します。
私たちの方法では、多変量バイナリ分布を使用して、テキスト単位間の逐次相関を確率過程としてモデル化し、さまざまな隣接スケールにわたるクラスタリングの可能性を評価します。
これにより、分類が連続的に相関するプロパティによって支配されているか、それとも独立したままであるかを調べることができます。
多様な英語散文コーパスの実験では、私たちの分析では、教師ありフレームワークと教師なしフレームワーク内で従来の埋め込みとニューラル埋め込みが統合されています。
結果は、私たちのアプローチが、テキストの分類が逐次的に相関する文学的特性によって主に影響を受けない場合、特にテキストが類似のジャンル内の単一の著者によってではなく、著者のスタイルまたはジャンルが異なる場合を効果的に識別することを示しています。

要約(オリジナル)

Stylometry aims to distinguish authors by analyzing literary traits assumed to reflect semi-conscious choices distinct from elements like genre or theme. However, these components often overlap, complicating text classification based solely on feature distributions. While some literary properties, such as thematic content, are likely to manifest as correlations between adjacent text units, others, like authorial style, may be independent thereof. We introduce a hypothesis-testing approach to evaluate the influence of sequentially correlated literary properties on text classification, aiming to determine when these correlations drive classification. Using a multivariate binary distribution, our method models sequential correlations between text units as a stochastic process, assessing the likelihood of clustering across varying adjacency scales. This enables us to examine whether classification is dominated by sequentially correlated properties or remains independent. In experiments on a diverse English prose corpus, our analysis integrates traditional and neural embeddings within supervised and unsupervised frameworks. Results demonstrate that our approach effectively identifies when textual classification is not primarily influenced by sequentially correlated literary properties, particularly in cases where texts differ in authorial style or genre rather than by a single author within a similar genre.

arxiv情報

著者 Gideon Yoffe,Nachum Dershowitz,Ariel Vishne,Barak Sober
発行日 2024-11-18 13:15:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク