Statistical Analysis of Sentence Structures through ASCII, Lexical Alignment and PCA

要約

音声パーツ(POS)タグ付けなどの構文ツールを使用することで、文の構造とその分布を多様なコーパス全体に理解するのに役立ちましたが、それは非常に複雑であり、自然言語処理(NLP)の課題をもたらします。
この研究は、そのようなツールに頼らずに調和して、名詞、動詞、決定因子などの使用方法(名詞、動詞、決定者などの使用)を理解することに焦点を当てています。
情報交換(ASCII)コードにAmerican Standard Codeを使用して、PCAを介して圧縮バージョンを使用した後、さまざまなソースからの11のテキストコーパスのテキストとその語彙カテゴリアライメントを表す新しい統計的方法を提案し、Shapiro-WilkやAnderson-Darling Testsなどのヒストグラムと正常テストを介して結果を分析します。
ASCIIコードに焦点を当てることにより、このアプローチはテキスト処理を簡素化しますが、構文ツールを置き換えるのではなく、テキストバランスを評価するためのリソース効率の高いツールとして提供することでそれらを補完します。
Grokによって生成されたストーリーは、LLM出力のバランスの取れた文構造を示す正常性に近いことを示していますが、残りの10のうち4つは正常性テストに合格します。
さらなる研究では、より広範なタスクのための構文統合により、テキスト品質評価とスタイル分析における潜在的なアプリケーションを探求することができます。

要約(オリジナル)

While utilizing syntactic tools such as parts-of-speech (POS) tagging has helped us understand sentence structures and their distribution across diverse corpora, it is quite complex and poses a challenge in natural language processing (NLP). This study focuses on understanding sentence structure balance – usages of nouns, verbs, determiners, etc – harmoniously without relying on such tools. It proposes a novel statistical method that uses American Standard Code for Information Interchange (ASCII) codes to represent text of 11 text corpora from various sources and their lexical category alignment after using their compressed versions through PCA, and analyzes the results through histograms and normality tests such as Shapiro-Wilk and Anderson-Darling Tests. By focusing on ASCII codes, this approach simplifies text processing, although not replacing any syntactic tools but complementing them by offering it as a resource-efficient tool for assessing text balance. The story generated by Grok shows near normality indicating balanced sentence structures in LLM outputs, whereas 4 out of the remaining 10 pass the normality tests. Further research could explore potential applications in text quality evaluation and style analysis with syntactic integration for more broader tasks.

arxiv情報

著者 Abhijeet Sahdev
発行日 2025-03-13 15:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク