要約
言語間でスタイルがどのように異なるかを理解することは、人間とコンピューターの両方をトレーニングして、文化的に適切なテキストを生成するのに有利です。
多言語のLMSからスタイルの違いを抽出し、言語間でスタイルを比較するための説明フレームワークを紹介します。
私たちのフレームワーク(1)は、あらゆる言語で包括的なスタイルのLexicaを生成し、(2)LMSからの特徴の重要性を、同等の語彙カテゴリに統合します。
このフレームワークを適用して、礼儀正しさを比較し、最初の全体的な多言語の礼儀正しさのデータセットを作成し、4つの言語によって礼儀正しさがどのように変化するかを調査します。
私たちのアプローチにより、明確な言語カテゴリが文体的なバリエーションにどのように貢献するかを効果的に評価し、世界中で人々がどのように異なってコミュニケーションするかについて解釈可能な洞察を提供します。
要約(オリジナル)
Understanding how styles differ across languages is advantageous for training both humans and computers to generate culturally appropriate text. We introduce an explanation framework to extract stylistic differences from multilingual LMs and compare styles across languages. Our framework (1) generates comprehensive style lexica in any language and (2) consolidates feature importances from LMs into comparable lexical categories. We apply this framework to compare politeness, creating the first holistic multilingual politeness dataset and exploring how politeness varies across four languages. Our approach enables an effective evaluation of how distinct linguistic categories contribute to stylistic variations and provides interpretable insights into how people communicate differently around the world.
arxiv情報
著者 | Shreya Havaldar,Matthew Pressimone,Eric Wong,Lyle Ungar |
発行日 | 2025-03-26 16:04:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google