要約
本稿では、テキストマイニングに基づく単語クラス分類法とLSTMに基づく語彙パターン予測法を紹介する。まず、単純なテキスト出現頻度分析に基づく前処理方法について述べる。この方法は、データ選別ツールとして開発されたが、先行研究よりも4.35~6.21倍高い値を示した。また、語彙出現パターン予測法としてLSTM深層学習法を提案する。AIは過去の試験の様々なサイズのデータウィンドウを用いて回帰を行い、次の試験における単語の出現確率を予測する。様々なデータウィンドウにわたるAIの予測値は、重み付けされた合計として単一のスコアに処理され、これを「AIスコア」と呼び、来年の試験における単語出現確率を表す。提案した方法は、100点満点の範囲では100%の精度を示し、60点以上の部分ではわずか1.7%の予測誤差しか示さなかった。すべてのソースコードは著者のGit Hubリポジトリで自由に利用できる。(https://github.com/needleworm/bigdata_voca)
要約(オリジナル)
A text-mining-based word class categorization method and LSTM-based vocabulary pattern prediction method are introduced in this paper. A preprocessing method based on simple text appearance frequency analysis is first described. This method was developed as a data screening tool but showed 4.35 ~ 6.21 times higher than previous works. An LSTM deep learning method is also suggested for vocabulary appearance pattern prediction method. AI performs a regression with various size of data window of previous exams to predict the probabilities of word appearance in the next exam. Predicted values of AI over various data windows are processed into a single score as a weighted sum, which we call an ‘AI-Score’, which represents the probability of word appearance in next year’s exam. Suggested method showed 100% accuracy at the range 100-score area and showed only 1.7% error of prediction in the section where the scores were over 60 points. All source codes are freely available at the authors’ Git Hub repository. (https://github.com/needleworm/bigdata_voca)
arxiv情報
著者 | Byunghyun Ban,Jejong Lee,Hyeonmok Hwang |
発行日 | 2023-08-03 00:40:58+00:00 |
arxivサイト | arxiv_id(pdf) |