Analysis of child development facts and myths using text mining techniques and classification models

要約

インターネット上での誤った情報の急速な拡散により、信頼できる情報を求める個人、特に子供の発達に関するトピックを研究している親にとっての意思決定プロセスが複雑になっています。
この誤った情報は、神話に基づいて子供たちが不適切に扱われるなど、悪影響をもたらす可能性があります。
これまでの研究では、テキストマイニング技術を利用して児童虐待事件を予測していましたが、児童発達に関する通説と事実の分析にはギャップがありました。
この研究では、一般公開されている Web サイトから新たに収集したデータを活用し、テキスト マイニング技術と分類モデルを適用して児童の発達に関する神話と事実を区別することで、このギャップに対処しています。
研究方法にはいくつかの段階が含まれていました。
まず、テキスト マイニング技術を使用してデータを前処理し、精度を高めました。
続いて、6 つの堅牢な機械学習 (ML) 分類器と 1 つの深層学習 (DL) モデルを使用して構造化データを分析し、2 つの特徴抽出手法を適用して 3 つの異なるトレーニングとテストの分割にわたるパフォーマンスを評価しました。
結果の信頼性を確保するために、k 分割法と Leave-one-out 法の両方を使用して相互検証を実行しました。
テストされた分類モデルの中で、ロジスティック回帰 (LR) が最も高い精度を示し、バッグ オブ ワード (BoW) 特徴抽出技術で 90% の精度を達成しました。
LR は、その並外れた速度と効率性で際立っており、ステートメントあたりのテスト時間を短く (0.97 マイクロ秒) 維持します。
これらの発見は、LR が BoW と組み合わせると、子どもの発達情報を正確に分類するのに効果的であるため、誤った情報と闘い、親が情報に基づいた決定を下すのを支援する貴重なツールとなることを示唆しています。

要約(オリジナル)

The rapid dissemination of misinformation on the internet complicates the decision-making process for individuals seeking reliable information, particularly parents researching child development topics. This misinformation can lead to adverse consequences, such as inappropriate treatment of children based on myths. While previous research has utilized text-mining techniques to predict child abuse cases, there has been a gap in the analysis of child development myths and facts. This study addresses this gap by applying text mining techniques and classification models to distinguish between myths and facts about child development, leveraging newly gathered data from publicly available websites. The research methodology involved several stages. First, text mining techniques were employed to pre-process the data, ensuring enhanced accuracy. Subsequently, the structured data was analysed using six robust Machine Learning (ML) classifiers and one Deep Learning (DL) model, with two feature extraction techniques applied to assess their performance across three different training-testing splits. To ensure the reliability of the results, cross-validation was performed using both k-fold and leave-one-out methods. Among the classification models tested, Logistic Regression (LR) demonstrated the highest accuracy, achieving a 90% accuracy with the Bag-of-Words (BoW) feature extraction technique. LR stands out for its exceptional speed and efficiency, maintaining low testing time per statement (0.97 microseconds). These findings suggest that LR, when combined with BoW, is effective in accurately classifying child development information, thus providing a valuable tool for combating misinformation and assisting parents in making informed decisions.

arxiv情報

著者 Mehedi Tajrian,Azizur Rahman,Muhammad Ashad Kabir,Md Rafiqul Islam
発行日 2024-08-23 14:16:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク