要約
パラフレーズは、異なる単語や文構造を使用しながら同じ意味を伝えるテキストです。
これは、特にデータ不足が重大な問題となる低リソース言語を扱う場合に、多くの自然言語処理タスクの自動データ拡張ツールとして使用できます。
多言語環境で言い換えを生成するために、これまでの研究では機械翻訳分野の知識が活用されてきました。つまり、同じ言語でのゼロショット機械翻訳によって言い換えが形成されていました。
人間による評価では優れたパフォーマンスを示しますが、これらの方法は依然として対訳データセットを必要とするため、対訳コーパスを持たない言語には適用できません。
この問題を軽減するために、私たちは最初の教師なし多言語言い換えモデル LAMPAT ($\textbf{L}$ow-rank $\textbf{A}$daptation for $\textbf{M}$ultilingual $\textbf{P}$) を提案しました。
$\textbf{A}$dversarial $\textbf{T}$raining を使用した言い換え)。これにより、人間らしく多様な文を生成するには単一言語データセットで十分です。
実験を通じて、私たちの方法は英語にうまく機能するだけでなく、未知の言語にも一般化できることがわかりました。
データとコードは https://github.com/phkhanhtrinh23/LAMPAT で入手できます。
要約(オリジナル)
Paraphrases are texts that convey the same meaning while using different words or sentence structures. It can be used as an automatic data augmentation tool for many Natural Language Processing tasks, especially when dealing with low-resource languages, where data shortage is a significant problem. To generate a paraphrase in multilingual settings, previous studies have leveraged the knowledge from the machine translation field, i.e., forming a paraphrase through zero-shot machine translation in the same language. Despite good performance on human evaluation, those methods still require parallel translation datasets, thus making them inapplicable to languages that do not have parallel corpora. To mitigate that problem, we proposed the first unsupervised multilingual paraphrasing model, LAMPAT ($\textbf{L}$ow-rank $\textbf{A}$daptation for $\textbf{M}$ultilingual $\textbf{P}$araphrasing using $\textbf{A}$dversarial $\textbf{T}$raining), by which monolingual dataset is sufficient enough to generate a human-like and diverse sentence. Throughout the experiments, we found out that our method not only works well for English but can generalize on unseen languages as well. Data and code are available at https://github.com/phkhanhtrinh23/LAMPAT.
arxiv情報
著者 | Khoi M. Le,Trinh Pham,Tho Quan,Anh Tuan Luu |
発行日 | 2024-01-09 04:19:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google