要約
テキストの読みやすさの評価は、さまざまな分野の研究者から大きな注目を集めています。
しかし、異なる研究グループが異なるコーパスを利用するため、コーパスの互換性についての調査が不足していることが課題となっています。
この研究では、この問題に対処するために、新しい評価フレームワークであるクロスコーパステキスト可読性互換性評価 (CRCA) を提案します。
このフレームワークには 3 つの主要なコンポーネントが含まれています: (1) コーパス: CEFR、CLEC、CLOTH、NES、OSP、および RACE。
言語特徴、GloVe 単語ベクトル表現、およびそれらの融合特徴が抽出されました。
(2) 分類モデル:機械学習手法(XGBoost、SVM)と深層学習手法(BiLSTM、Attention-BiLSTM)を採用しました。
(3) 互換性メトリック: RJSD、RRNSS、および NDCG メトリック。
私たちの調査結果では次のことが明らかになりました: (1) 検証されたコーパス互換性。OSP は他のデータセットと大きく異なることが際立っています。
(2) コーパス、特徴表現、分類方法間の適応効果。
(3) 3 つの指標全体で一貫した結果が得られ、互換性評価フレームワークの堅牢性が検証されます。
この研究の結果は、コーパスの選択、特徴表現、分類方法に関する貴重な洞察を提供し、コーパス間転移学習の初期の取り組みとしても役立ちます。
要約(オリジナル)
Text readability assessment has gained significant attention from researchers in various domains. However, the lack of exploration into corpus compatibility poses a challenge as different research groups utilize different corpora. In this study, we propose a novel evaluation framework, Cross-corpus text Readability Compatibility Assessment (CRCA), to address this issue. The framework encompasses three key components: (1) Corpus: CEFR, CLEC, CLOTH, NES, OSP, and RACE. Linguistic features, GloVe word vector representations, and their fusion features were extracted. (2) Classification models: Machine learning methods (XGBoost, SVM) and deep learning methods (BiLSTM, Attention-BiLSTM) were employed. (3) Compatibility metrics: RJSD, RRNSS, and NDCG metrics. Our findings revealed: (1) Validated corpus compatibility, with OSP standing out as significantly different from other datasets. (2) An adaptation effect among corpora, feature representations, and classification methods. (3) Consistent outcomes across the three metrics, validating the robustness of the compatibility assessment framework. The outcomes of this study offer valuable insights into corpus selection, feature representation, and classification methods, and it can also serve as a beginning effort for cross-corpus transfer learning.
arxiv情報
著者 | Zhenzhen Li,Han Ding,Shaohong Zhang |
発行日 | 2023-06-16 09:15:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google