要約
コードの混合とスクリプトの混合は、オンライン ソーシャル ネットワークや多言語社会全体で蔓延しています。
ただし、コード混合に対するユーザーの好みは、社会経済的地位、ユーザーの人口統計、およびローカル コンテキストによって異なり、既存の生成モデルはコード混合テキストを生成する際にほとんど無視されます。
この研究では、個人の実際のコードが混在したテキストに似たテキストを生成する、ペルソナを意識した生成モデルを開発するという先駆的な試みを行います。
我々は、コード混合生成のためのペルソナ認識生成モデル、PARADOX を提案します。これは、ユーザーのペルソナに条件付けされた発話をエンコードし、単一言語の参照データなしでコード混合テキストを生成する、Transformer ベースの新しいエンコーダ/デコーダ モデルです。
生成されたシーケンスを現実のコードが混在したテキストに似せるように再調整するアライメント モジュールを提案します。
PARADOX は、意味的により意味があり、言語的により有効なコード混合テキストを生成します。
PARADOX の擬人化機能を評価するために、CM BLEU、CM Rouge-1、CM Rouge-L、CM KS という 4 つの新しい指標を提案します。
平均して、PARADOX は、非ペルソナベースの対応物よりも 1.6 ポイント優れた CM BLEU、47% 優れた複雑性、および 32% 優れたセマンティック一貫性を達成します。
要約(オリジナル)
Code-mixing and script-mixing are prevalent across online social networks and multilingual societies. However, a user’s preference toward code-mixing depends on the socioeconomic status, demographics of the user, and the local context, which existing generative models mostly ignore while generating code-mixed texts. In this work, we make a pioneering attempt to develop a persona-aware generative model to generate texts resembling real-life code-mixed texts of individuals. We propose a Persona-aware Generative Model for Code-mixed Generation, PARADOX, a novel Transformer-based encoder-decoder model that encodes an utterance conditioned on a user’s persona and generates code-mixed texts without monolingual reference data. We propose an alignment module that re-calibrates the generated sequence to resemble real-life code-mixed texts. PARADOX generates code-mixed texts that are semantically more meaningful and linguistically more valid. To evaluate the personification capabilities of PARADOX, we propose four new metrics — CM BLEU, CM Rouge-1, CM Rouge-L and CM KS. On average, PARADOX achieves 1.6 points better CM BLEU, 47% better perplexity and 32% better semantic coherence than the non-persona-based counterparts.
arxiv情報
著者 | Ayan Sengupta,Md Shad Akhtar,Tanmoy Chakraborty |
発行日 | 2023-09-06 11:20:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google