要約
デジタル化されたテキストデータの急増には、観測されたテキストパターンで信頼できる推論方法が必要です。
この記事では、ドキュメントの2つのグループ間の類似性を比較するための新しい2サンプルテキストテストを提案しています。
仮説は、テキストデータを生成する確率的マッピングが2つのドキュメントグループで同一であるかどうかです。
提案されたテストは、ドキュメントのエントロピーを比較することにより、テキストの類似性を評価することを目的としています。
エントロピーは、ニューラルネットワークベースの言語モデルを使用して推定されます。
テスト統計は、推定および推論フレームワークから導き出されます。このフレームワークでは、エントロピーが最初に推定セットを使用して近似され、その後に残りのデータセットに推論が行われます。
理論的には、軽度の条件下では、テスト統計が漸近的に正規分布に従うことを示しました。
P値を統一された決定に組み合わせたテスト能力を強化するために、複数のデータ分割戦略が提案されています。
さまざまなシミュレーション研究と実際のデータの例は、提案された2サンプルテキストテストが名目1つのエラー率を維持しながら、既存の方法と比較してより大きな電力を提供することを実証しました。
提案された方法は、ドキュメントクラス、特に大規模なテキスト情報が非常に重要な分野での違いを主張するための新しいソリューションを提供します。
要約(オリジナル)
The surge in digitized text data requires reliable inferential methods on observed textual patterns. This article proposes a novel two-sample text test for comparing similarity between two groups of documents. The hypothesis is whether the probabilistic mapping generating the textual data is identical across two groups of documents. The proposed test aims to assess text similarity by comparing the entropy of the documents. Entropy is estimated using neural network-based language models. The test statistic is derived from an estimation-and-inference framework, where the entropy is first approximated using an estimation set, followed by inference on the remaining data set. We showed theoretically that under mild conditions, the test statistic asymptotically follows a normal distribution. A multiple data-splitting strategy is proposed to enhance test power, which combines p-values into a unified decision. Various simulation studies and a real data example demonstrated that the proposed two-sample text test maintains the nominal Type one error rate while offering greater power compared to existing methods. The proposed method provides a novel solution to assert differences in document classes, particularly in fields where large-scale textual information is crucial.
arxiv情報
著者 | Jingbin Xu,Chen Qian,Meimei Liu,Feng Guo |
発行日 | 2025-05-08 14:15:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google