A Data Fusion Framework for Multi-Domain Morality Learning

要約

タイトル:多ドメインの道徳学習のためのデータフュージョンフレームワーク
要約:
– 言語モデルをトレーニングすることで、テキストの道徳感情を認識することができます。これにより、人間の生活における道徳の役割を研究する新しい機会が生まれます。
– 言語と道徳に対する関心が高まるにつれ、複数のグラウンドトゥルーデータセットが道徳的注釈とともに公開されています。ただし、これらのデータセットは、データ収集方法、ドメイン、トピック、注釈者の指示などが異なります。単にこのような異種混合データセットをトレーニング中に集計するだけでは、汎化性能が悪いモデルが生成される可能性があります。
– 我々は、複数の異種混合データセットに対してトレーニングするためのデータフュージョンフレームワークを説明します。このモデルは、ドメインの敵対的なトレーニングを使用してデータセットを特長空間で整列させ、重み付けの損失関数を使用してラベルシフトに対処します。提案されたフレームワークは、従来の道徳推論に比べ、さまざまなデータセットにおいて最先端の性能を発揮することを示しています。

要約(オリジナル)

Language models can be trained to recognize the moral sentiment of text, creating new opportunities to study the role of morality in human life. As interest in language and morality has grown, several ground truth datasets with moral annotations have been released. However, these datasets vary in the method of data collection, domain, topics, instructions for annotators, etc. Simply aggregating such heterogeneous datasets during training can yield models that fail to generalize well. We describe a data fusion framework for training on multiple heterogeneous datasets that improve performance and generalizability. The model uses domain adversarial training to align the datasets in feature space and a weighted loss function to deal with label shift. We show that the proposed framework achieves state-of-the-art performance in different datasets compared to prior works in morality inference.

arxiv情報

著者 Siyi Guo,Negar Mokhberian,Kristina Lerman
発行日 2023-04-04 22:05:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク