Do Language Models Understand Morality? Towards a Robust Detection of Moral Content

要約

テキスト内の道徳的価値を検出するタスクは、自然言語処理、社会科学、倫理的意思決定など、さまざまな分野で重要な意味を持ちます。
以前に提案された教師ありモデルは過学習に悩まされることが多く、その結果、さまざまなドメインのデータに対して適切なパフォーマンスを発揮するのに苦労する、超特殊化された道徳分類器が生成されてしまいます。
この問題に対処するために、複数のデータ ソースでのトレーニングの前の段階で大規模言語モデルと自然言語推論モデルから取得した抽象的な概念と常識的な知識を活用する新しいシステムを導入します。
そうすることで、現実世界のシナリオで道徳的価値を検出するための多用途かつ堅牢な方法を開発することを目指しています。
私たちのアプローチでは、道徳的価値観を検出するためのゼロショット既製の教師なしマルチラベル分類器として GPT 3.5 モデルを使用し、ラベル付きデータに対する明示的なトレーニングの必要性を排除します。
これを、より小型の NLI ベースのゼロショット モデルと比較します。
結果は、NLI アプローチが Davinci モデルと比較して優れた結果を達成していることを示しています。
さらに、クロスドメインのマルチラベル道徳的価値検出のコンテキストで、教師ありシステムのパフォーマンスの詳細な調査を実施します。
これには、さまざまなドメインで教師ありモデルをトレーニングして、さまざまなソースからのデータを処理する際の有効性を調査し、そのパフォーマンスを教師なし手法と比較することが含まれます。
私たちの貢献には、クロスドメイン値検出のための教師ありおよび教師なしの両方の方法論の徹底的な分析が含まれます。
Davinci モデルを最先端のゼロショット教師なし道徳的価値分類器として導入し、ラベル付きデータでの明示的なトレーニングを必要とせずに道徳的価値の検出の限界を押し広げます。
さらに、教師ありモデルとのアプローチの比較評価を実行し、それぞれの長所と短所を明らかにします。

要約(オリジナル)

The task of detecting moral values in text has significant implications in various fields, including natural language processing, social sciences, and ethical decision-making. Previously proposed supervised models often suffer from overfitting, leading to hyper-specialized moral classifiers that struggle to perform well on data from different domains. To address this issue, we introduce novel systems that leverage abstract concepts and common-sense knowledge acquired from Large Language Models and Natural Language Inference models during previous stages of training on multiple data sources. By doing so, we aim to develop versatile and robust methods for detecting moral values in real-world scenarios. Our approach uses the GPT 3.5 model as a zero-shot ready-made unsupervised multi-label classifier for moral values detection, eliminating the need for explicit training on labeled data. We compare it with a smaller NLI-based zero-shot model. The results show that the NLI approach achieves competitive results compared to the Davinci model. Furthermore, we conduct an in-depth investigation of the performance of supervised systems in the context of cross-domain multi-label moral value detection. This involves training supervised models on different domains to explore their effectiveness in handling data from different sources and comparing their performance with the unsupervised methods. Our contributions encompass a thorough analysis of both supervised and unsupervised methodologies for cross-domain value detection. We introduce the Davinci model as a state-of-the-art zero-shot unsupervised moral values classifier, pushing the boundaries of moral value detection without the need for explicit training on labeled data. Additionally, we perform a comparative evaluation of our approach with the supervised models, shedding light on their respective strengths and weaknesses.

arxiv情報

著者 Luana Bulla,Aldo Gangemi,Misael Mongiovì
発行日 2024-06-06 15:08:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク