The Moral Foundations Weibo Corpus

要約

自然言語で表現される道徳的感情は、オンライン環境とオフライン環境の両方に大きな影響を与え、ソーシャルメディアでの自己表現、ネットいじめ、社会規範の遵守、倫理的意思決定などの行動スタイルや交流パターンを形成します。
自然言語処理テキストの道徳的感情を効果的に測定するには、正確な分析とモデルトレーニングのための微妙な理解を提供する、注釈付きの大規模なデータセットを利用することが重要です。
ただし、既存のコーパスは貴重ではありますが、言語的な制限に直面することがよくあります。
中国語領域におけるこのギャップに対処するために、私たちは道徳財団 Weibo コーパスを導入します。
このコーパスは、Weibo 上の 25,671 件の中国人のコメントで構成されており、6 つの多様なトピック分野が含まれています。
各コメントは、道徳の根拠に基づいた理論から導き出された 10 の道徳カテゴリーに基づいて、体系的に訓練された少なくとも 3 人のアノテーターによって手動で注釈が付けられます。
アノテーターの信頼性を評価するために、一貫性を測定するためのゴールドスタンダードであるカッパテストの結果を提示します。
さらに、手動の注釈を補足するためにいくつかの最新の大規模言語モデルを適用し、そのパフォーマンスを比較する分析実験を実施し、道徳感情分類のベースライン結果を報告します。

要約(オリジナル)

Moral sentiments expressed in natural language significantly influence both online and offline environments, shaping behavioral styles and interaction patterns, including social media selfpresentation, cyberbullying, adherence to social norms, and ethical decision-making. To effectively measure moral sentiments in natural language processing texts, it is crucial to utilize large, annotated datasets that provide nuanced understanding for accurate analysis and modeltraining. However, existing corpora, while valuable, often face linguistic limitations. To address this gap in the Chinese language domain,we introduce the Moral Foundation Weibo Corpus. This corpus consists of 25,671 Chinese comments on Weibo, encompassing six diverse topic areas. Each comment is manually annotated by at least three systematically trained annotators based on ten moral categories derived from a grounded theory of morality. To assess annotator reliability, we present the kappa testresults, a gold standard for measuring consistency. Additionally, we apply several the latest large language models to supplement the manual annotations, conducting analytical experiments to compare their performance and report baseline results for moral sentiment classification.

arxiv情報

著者 Renjie Cao,Miaoyan Hu,Jiahan Wei,Baha Ihnaini
発行日 2024-11-14 17:32:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク