Multilingual Text Style Transfer: Datasets & Models for Indian Languages

要約

テキスト スタイル転送 (TST) には、テキストの中心的な内容を維持しながら、テキストの言語スタイルを変更することが含まれます。
この論文は、英語に関する以前の研究を拡張し、ヒンディー語、マガヒ語、マラヤラム語、マラーティー語、パンジャブ語、オーディア語、テルグ語、ウルドゥー語といったインドの言語の範囲にわたる、TST の重要なサブタスクである感情伝達に焦点を当てています (Mukherjee et al., 2022a)。
– バングラ人の感情移入 (Mukherjee et al., 2023)。
これら 8 つの言語ごとに、1,000 の肯定的なスタイルと 1,000 の否定的なスタイルの並列文の専用データセットを導入します。
次に、Llama2 および GPT-3.5 の大規模言語モデル (LLM) を含む、並列、非並列、クロスリンガル、および共有学習アプローチに分類されたさまざまなベンチマーク モデルのパフォーマンスを評価します。
私たちの実験は、TST における並列データの重要性を強調し、非並列技術におけるマスク スタイル フィリング (MSF) アプローチ (Mukherjee et al., 2023) の有効性を実証しています。
さらに、言語間および多言語共同学習方法は有望であり、特定の言語とタスクの要件に合わせた最適なモデルを選択するための洞察を提供します。
私たちの知る限り、この研究は、多様な言語セットにわたる感情伝達としての TST タスクの最初の包括的な調査を表しています。

要約(オリジナル)

Text style transfer (TST) involves altering the linguistic style of a text while preserving its core content. This paper focuses on sentiment transfer, a vital TST subtask (Mukherjee et al., 2022a), across a spectrum of Indian languages: Hindi, Magahi, Malayalam, Marathi, Punjabi, Odia, Telugu, and Urdu, expanding upon previous work on English-Bangla sentiment transfer (Mukherjee et al., 2023). We introduce dedicated datasets of 1,000 positive and 1,000 negative style-parallel sentences for each of these eight languages. We then evaluate the performance of various benchmark models categorized into parallel, non-parallel, cross-lingual, and shared learning approaches, including the Llama2 and GPT-3.5 large language models (LLMs). Our experiments highlight the significance of parallel data in TST and demonstrate the effectiveness of the Masked Style Filling (MSF) approach (Mukherjee et al., 2023) in non-parallel techniques. Moreover, cross-lingual and joint multilingual learning methods show promise, offering insights into selecting optimal models tailored to the specific language and task requirements. To the best of our knowledge, this work represents the first comprehensive exploration of the TST task as sentiment transfer across a diverse set of languages.

arxiv情報

著者 Sourabrata Mukherjee,Atul Kr. Ojha,Akanksha Bansal,Deepak Alok,John P. McCrae,Ondřej Dušek
発行日 2024-05-31 14:05:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク