Comparing Styles across Languages

要約

言語間でスタイルがどのように異なるかを理解することは、文化的に適切なテキストを生成するように人間とコンピューターの両方を訓練するのに有利です。
多言語 LM からスタイルの違いを抽出し、言語間でスタイルを比較するための説明フレームワークを導入します。
私たちのフレームワークは、(1) あらゆる言語で包括的なスタイル語彙を生成し、(2) LM からの特徴の重要性を同等の語彙カテゴリに統合します。
私たちはこのフレームワークを適用して礼儀正しさを比較し、最初の総合的な多言語礼儀正しさデータセットを作成し、4 つの言語間で礼儀正しさがどのように異なるかを調査します。
私たちのアプローチは、異なる言語カテゴリーが文体のバリエーションにどのように寄与するかを効果的に評価することを可能にし、世界中で人々がどのように異なるコミュニケーションを行っているかについて解釈可能な洞察を提供します。

要約(オリジナル)

Understanding how styles differ across languages is advantageous for training both humans and computers to generate culturally appropriate text. We introduce an explanation framework to extract stylistic differences from multilingual LMs and compare styles across languages. Our framework (1) generates comprehensive style lexica in any language and (2) consolidates feature importances from LMs into comparable lexical categories. We apply this framework to compare politeness, creating the first holistic multilingual politeness dataset and exploring how politeness varies across four languages. Our approach enables an effective evaluation of how distinct linguistic categories contribute to stylistic variations and provides interpretable insights into how people communicate differently around the world.

arxiv情報

著者 Shreya Havaldar,Matthew Pressimone,Eric Wong,Lyle Ungar
発行日 2023-12-05 02:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク