A study of Vietnamese readability assessing through semantic and statistical features

要約

テキストの難易度を決定するには、読者のテキスト理解に影響を与える可能性のあるさまざまなテキストの特徴を評価する必要がありますが、ベトナム語での現在の研究は統計的特徴のみに焦点を当てています。
このペーパーでは、テキストの読みやすさを評価するための統計的アプローチと意味論的アプローチを統合する新しいアプローチを紹介します。
私たちの調査では、ベトナム語テキスト可読性データセット (ViRead)、OneStopEnglish、および RACE の 3 つの異なるデータセットを利用し、後者の 2 つはベトナム語に翻訳されました。
セマンティック面では、PhoBERT、ViDeBERTa、ViBERT などの最先端の言語モデルを使用した高度なセマンティック分析手法が採用されました。
さらに、テキストの構文的および語彙的特徴を抽出するために統計的手法が組み込まれました。
サポート ベクター マシン (SVM)、ランダム フォレスト、エクストラ ツリーなどのさまざまな機械学習モデルを使用して実験を実施し、精度と F1 スコア メトリクスを使用してパフォーマンスを評価しました。
私たちの結果は、意味論的特徴と統計的特徴を組み合わせた共同アプローチにより、各方法を単独で使用する場合と比較して可読性分類の精度が大幅に向上することを示しています。
現在の研究では、ベトナム語の文章の難易度をより正確に評価するには、統計的側面と意味論的側面の両方を考慮することが重要であると強調しています。
この分野への貢献により、ベトナム語のテキストの可読性に関する高度な言語モデルの適応性についての洞察が得られます。
これは、この分野における将来の研究の基礎を築きます。

要約(オリジナル)

Determining the difficulty of a text involves assessing various textual features that may impact the reader’s text comprehension, yet current research in Vietnamese has only focused on statistical features. This paper introduces a new approach that integrates statistical and semantic approaches to assessing text readability. Our research utilized three distinct datasets: the Vietnamese Text Readability Dataset (ViRead), OneStopEnglish, and RACE, with the latter two translated into Vietnamese. Advanced semantic analysis methods were employed for the semantic aspect using state-of-the-art language models such as PhoBERT, ViDeBERTa, and ViBERT. In addition, statistical methods were incorporated to extract syntactic and lexical features of the text. We conducted experiments using various machine learning models, including Support Vector Machine (SVM), Random Forest, and Extra Trees and evaluated their performance using accuracy and F1 score metrics. Our results indicate that a joint approach that combines semantic and statistical features significantly enhances the accuracy of readability classification compared to using each method in isolation. The current study emphasizes the importance of considering both statistical and semantic aspects for a more accurate assessment of text difficulty in Vietnamese. This contribution to the field provides insights into the adaptability of advanced language models in the context of Vietnamese text readability. It lays the groundwork for future research in this area.

arxiv情報

著者 Hung Tuan Le,Long Truong To,Manh Trong Nguyen,Quyen Nguyen,Trong-Hop Do
発行日 2024-11-07 14:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク