Detecting value-expressive text posts in Russian social media

要約

基本的価値観は、望ましい最終状態に関連し、特定の状況を超越する概念または信念です。
ソーシャルメディアにおける個人の価値観を研究することは、特に調査などの刺激に基づく方法が非効率的である場合、たとえば接触が困難な集団において、社会的価値観がどのように、そしてなぜ進化するのかを明らかにすることができます。
一方、ユーザー作成コンテンツは、個人の価値観を真に表現するのではなく、文化的に定義されたステレオタイプの音声構造を大量に使用することによって推進されます。
私たちは、ロシアのソーシャル メディア VKontakte で価値を表現する投稿を正確に検出できるモデルを見つけることを目指しました。
5,035 件の投稿からなるトレーニング データセットには、3 人の専門家、304 人のクラウド ワーカー、および ChatGPT によって注釈が付けられました。
クラウドワーカーと専門家は、投稿の分類に関して中程度の同意しか示さなかった。
ChatGPT はより一貫性がありましたが、スパム検出に苦労しました。
私たちは、アクティブ ラーニング アプローチを含む人間および AI 支援のアノテーションのアンサンブルを適用し、その後、いくつかの LLM をトレーニングし、事前にトレーニングされ、微調整されたrubert-tiny2 からの埋め込みに基づいてモデルを選択し、F1 = で高品質の値検出を達成しました。
0.75 (F1 マクロ = 0.80)。
このモデルは、ロシアのソーシャル メディア ユーザー内およびユーザー間の価値観を研究するための重要なステップとなります。

要約(オリジナル)

Basic values are concepts or beliefs which pertain to desirable end-states and transcend specific situations. Studying personal values in social media can illuminate how and why societal values evolve especially when the stimuli-based methods, such as surveys, are inefficient, for instance, in hard-to-reach populations. On the other hand, user-generated content is driven by the massive use of stereotyped, culturally defined speech constructions rather than authentic expressions of personal values. We aimed to find a model that can accurately detect value-expressive posts in Russian social media VKontakte. A training dataset of 5,035 posts was annotated by three experts, 304 crowd-workers and ChatGPT. Crowd-workers and experts showed only moderate agreement in categorizing posts. ChatGPT was more consistent but struggled with spam detection. We applied an ensemble of human- and AI-assisted annotation involving active learning approach, subsequently trained several LLMs and selected a model based on embeddings from pre-trained fine-tuned rubert-tiny2, and reached a high quality of value detection with F1 = 0.75 (F1-macro = 0.80). This model provides a crucial step to a study of values within and between Russian social media users.

arxiv情報

著者 Maria Milkova,Maksim Rudnev,Lidia Okolskaya
発行日 2023-12-14 14:18:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク