Translationese Reduction using Abstract Meaning Representation

要約

【タイトル】抽象意味表現を用いた翻訳英語の削減

【要約】
– 翻訳文には、言語由来のテキストとは異なる特徴があり、これを「翻訳英語」と呼ぶ
– 翻訳英語が学習用またはテスト用データセットに存在する場合、モデルの性能に影響を与えるため、翻訳英語の影響を軽減するための研究が必要
– 抽象意味表現(AMR)という意味表現は、表面フォームから抽象化するため、翻訳英語の量を減らすための国際語として使用できると仮説を立てた
– 英語翻訳文をAMRグラフに解析し、そのAMRからテキストを生成することにより、マクロレベルの計測により、従来の翻訳英語に比べてより非翻訳英語に近いテキストを得ることができることを示した
– AMRを介言として使用することにより、4つの尺度にわたり、量的におよび質的に翻訳英語を削減することが可能であることを示し、また、往復機械翻訳と構文制御生成に基づく別のアプローチと比較した。

要約(オリジナル)

Translated texts or utterances bear several hallmarks distinct from texts originating in the language. This phenomenon, known as translationese, is well-documented, and when found in training or test sets can affect model performance. Still, work to mitigate the effect of translationese in human translated text is understudied. We hypothesize that Abstract Meaning Representation (AMR), a semantic representation which abstracts away from the surface form, can be used as an interlingua to reduce the amount of translationese in translated texts. By parsing English translations into an AMR graph and then generating text from that AMR, we obtain texts that more closely resemble non-translationese by macro-level measures. We show that across four metrics, and qualitatively, using AMR as an interlingua enables the reduction of translationese and we compare our results to two additional approaches: one based on round-trip machine translation and one based on syntactically controlled generation.

arxiv情報

著者 Shira Wein,Nathan Schneider
発行日 2023-04-23 00:04:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク