要約
言語モデルを人間の価値観で調整することは、特に日常生活により統合されるようになるため、重要です。
モデルはユーザーの好みに適合していることがよくありますが、現実世界の社会的状況での道徳的規範と行動に合わせて確実に整合することも同様に重要です。
英語や中国語などの言語の大幅な進歩にもかかわらず、フランス語はこの分野でほとんど注目されておらず、LLMがこの言語の道徳的推論をどのように処理するかを理解する際にギャップを残しています。
このギャップに対処するために、道徳的な物語から派生したフランスのデータセットであるHistoires Moralesを紹介し、翻訳を通じて作成され、その後、ネイティブスピーカーの助けを借りて洗練され、フランスの文化的文脈への文法の正確性と適応を保証します。
また、データセット内の道徳的価値の注釈にも依存して、フランスの規範との整合性を確保しています。
Histoires Moralesは、転換慣行の違い、関係の誠実さの表現、動物に対する責任など、幅広い社会的状況をカバーしています。
将来の研究を促進するために、フランスと英語のデータに関する多言語モデルのアラインメントとアラインメントの堅牢性についての予備的な実験も実施します。
LLMは一般にデフォルトでは人間の道徳的規範と整合していますが、道徳データと不道徳なデータの両方のユーザープレーファレンス最適化で簡単に影響を受ける可能性があることがわかります。
要約(オリジナル)
Aligning language models with human values is crucial, especially as they become more integrated into everyday life. While models are often adapted to user preferences, it is equally important to ensure they align with moral norms and behaviours in real-world social situations. Despite significant progress in languages like English and Chinese, French has seen little attention in this area, leaving a gap in understanding how LLMs handle moral reasoning in this language. To address this gap, we introduce Histoires Morales, a French dataset derived from Moral Stories, created through translation and subsequently refined with the assistance of native speakers to guarantee grammatical accuracy and adaptation to the French cultural context. We also rely on annotations of the moral values within the dataset to ensure their alignment with French norms. Histoires Morales covers a wide range of social situations, including differences in tipping practices, expressions of honesty in relationships, and responsibilities toward animals. To foster future research, we also conduct preliminary experiments on the alignment of multilingual models on French and English data and the robustness of the alignment. We find that while LLMs are generally aligned with human moral norms by default, they can be easily influenced with user-preference optimization for both moral and immoral data.
arxiv情報
著者 | Thibaud Leteno,Irina Proskurina,Antoine Gourru,Julien Velcin,Charlotte Laclau,Guillaume Metzler,Christophe Gravier |
発行日 | 2025-01-28 18:07:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google