QiBERT — Classifying Online Conversations Messages with BERT as a Feature

要約

最近のオンライン コミュニケーションの発展と日常生活でのその使用により、新しいジャンルのテキスト データであるショート テキストの量が爆発的に増加しました。
したがって、このタイプのテキストをその内容に基づいて分類する必要性は、多くの分野で重要な意味を持ちます。
ユーザーの意見、立場、好みに関する情報へのアクセスを提供するオンライン ディベートも例外ではありません。
この論文は、ポルトガルの学校でのオンライン社会的会話から得られたデータ (短いテキスト) を使用して、行動傾向を観察し、生徒が刺激を受けたときに議論に参加し続けるかどうかを確認することを目的としています。
このプロジェクトでは、最先端 (SoA) 機械学習 (ML) アルゴリズムと手法を使用し、BERT ベースのモデルを通じて、発話が議論の主題内にあるかどうかを分類しました。
SBERT 埋め込みを機能として使用し、教師あり学習により、提案されたモデルはオンライン メッセージの分類において平均精度 0.95 を超える結果を達成しました。
このような改善は、社会科学者が人間のコミュニケーション、行動、議論、説得をより深く理解するのに役立ちます。

要約(オリジナル)

Recent developments in online communication and their usage in everyday life have caused an explosion in the amount of a new genre of text data, short text. Thus, the need to classify this type of text based on its content has a significant implication in many areas. Online debates are no exception, once these provide access to information about opinions, positions and preferences of its users. This paper aims to use data obtained from online social conversations in Portuguese schools (short text) to observe behavioural trends and to see if students remain engaged in the discussion when stimulated. This project used the state of the art (SoA) Machine Learning (ML) algorithms and methods, through BERT based models to classify if utterances are in or out of the debate subject. Using SBERT embeddings as a feature, with supervised learning, the proposed model achieved results above 0.95 average accuracy for classifying online messages. Such improvements can help social scientists better understand human communication, behaviour, discussion and persuasion.

arxiv情報

著者 Bruno D. Ferreira-Saraiva,Zuil Pirola,João P. Matos-Carvalho,Manuel Marques-Pita
発行日 2024-09-09 11:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク