Principled Paraphrase Generation with Parallel Corpora

要約

往復機械翻訳 (MT) は言い換え生成によく使用されており、すぐに利用できる並列コーパスを監視に活用します。
この論文では、このアプローチによって誘発される暗黙の類似性関数を形式化し、単一のあいまいな翻訳を共有する非言い換えペアの影響を受けやすいことを示します。
これらの洞察に基づいて、翻訳分布全体が一致することを要求することでこの問題を軽減する代替の類似性メトリクスを設計し、情報ボトルネック法による緩和を実装します。
私たちのアプローチでは、入力に関する情報をできるだけ少なくしながら、参照翻訳に関するできるだけ多くの情報をエンコードする表現を学習するために、敵対的な用語を MT トレーニングに組み込みます。
言い換えは、ピボット翻訳を生成することなく、この表現からソースにデコードして戻すことによって生成できます。
ラウンドトリップ MT よりも原理的で効率的であることに加えて、私たちのアプローチは、忠実度と多様性のトレードオフを制御するための調整可能なパラメーターを提供し、実験でより良い結果が得られます。

要約(オリジナル)

Round-trip Machine Translation (MT) is a popular choice for paraphrase generation, which leverages readily available parallel corpora for supervision. In this paper, we formalize the implicit similarity function induced by this approach, and show that it is susceptible to non-paraphrase pairs sharing a single ambiguous translation. Based on these insights, we design an alternative similarity metric that mitigates this issue by requiring the entire translation distribution to match, and implement a relaxation of it through the Information Bottleneck method. Our approach incorporates an adversarial term into MT training in order to learn representations that encode as much information about the reference translation as possible, while keeping as little information about the input as possible. Paraphrases can be generated by decoding back to the source from this representation, without having to generate pivot translations. In addition to being more principled and efficient than round-trip MT, our approach offers an adjustable parameter to control the fidelity-diversity trade-off, and obtains better results in our experiments.

arxiv情報

著者 Aitor Ormazabal,Mikel Artetxe,Aitor Soroa,Gorka Labaka,Eneko Agirre
発行日 2023-05-23 06:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク