MoralBERT: Detecting Moral Values in Social Discourse

要約

道徳は、私たちが情報をどのように認識するかにおいて基本的な役割を果たし、私たちの決定や判断に大きな影響を与えます。
ワクチン接種、中絶、人種差別、セクシャリティなどの物議を醸すトピックは、証拠のみに基づいているのではなく、むしろ道徳的世界観を反映した意見や態度を引き出すことがよくあります。
自然言語処理の最近の進歩により、人間が生成したテキスト コンテンツで道徳的価値を測定できることが実証されました。
ここでは、テキスト内の道徳的なニュアンスを正確に捉えるために微調整された、MoralBERT と呼ばれる一連の言語表現モデルを設計します。
私たちは、さまざまな社会関連トピックをカバーする Twitter、Reddit、Facebook のユーザー生成コンテンツという 3 つの異なるソースからの注釈付き道徳データを活用しています。
このアプローチにより、言語の多様性が広がり、さまざまな状況における道徳を理解するモデルの能力が向上する可能性があります。
また、ドメイン適応技術を調査し、道徳予測のための 2 つの異なるフレームワーク (単一ラベルとマルチラベル) を使用して、それを標準の微調整された BERT モデルと比較します。
ドメイン内のアプローチを、辞書ベースの手法や Word2Vec 表現を使用した機械学習分類器に依存する従来のモデルと比較します。
私たちの結果は、ドメイン内予測モデルが従来のモデルよりも大幅に優れていることを示しました。
単一ラベル設定は、BERT 事前トレーニング済みモデルを使用する場合、タスクで以前に達成されていたよりも高い精度に達します。
その代わりに、ドメイン外設定での実験は、既存のドメイン適応技術を異なるソーシャル メディア プラットフォーム間で一般化するには、特にマルチラベル タスクについてはさらなる作業が必要であることを示唆しています。
この研究の調査と結果はさらなる探究への道を切り開き、物議を醸している社会問題についての道徳的物語をより深く理解することを可能にします。

要約(オリジナル)

Morality plays a fundamental role in how we perceive information while greatly influencing our decisions and judgements. Controversial topics, including vaccination, abortion, racism, and sexuality, often elicit opinions and attitudes that are not solely based on evidence but rather reflect moral worldviews. Recent advances in natural language processing have demonstrated that moral values can be gauged in human-generated textual content. Here, we design a range of language representation models fine-tuned to capture exactly the moral nuances in text, called MoralBERT. We leverage annotated moral data from three distinct sources: Twitter, Reddit, and Facebook user-generated content covering various socially relevant topics. This approach broadens linguistic diversity and potentially enhances the models’ ability to comprehend morality in various contexts. We also explore a domain adaptation technique and compare it to the standard fine-tuned BERT model, using two different frameworks for moral prediction: single-label and multi-label. We compare in-domain approaches with conventional models relying on lexicon-based techniques, as well as a Machine Learning classifier with Word2Vec representation. Our results showed that in-domain prediction models significantly outperformed traditional models. While the single-label setting reaches a higher accuracy than previously achieved for the task when using BERT pretrained models. Experiments in an out-of-domain setting, instead, suggest that further work is needed for existing domain adaptation techniques to generalise between different social media platforms, especially for the multi-label task. The investigations and outcomes from this study pave the way for further exploration, enabling a more profound comprehension of moral narratives about controversial social issues.

arxiv情報

著者 Vjosa Preniqi,Iacopo Ghinassi,Kyriaki Kalimeri,Charalampos Saitis
発行日 2024-03-12 14:12:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク