A Survey on Zero Pronoun Translation

要約

ゼロ代名詞 (ZP) は、ドロップ支持言語 (中国語、ハンガリー語、ヒンディー語など) では省略されることがよくありますが、ドロップ支持でない言語 (英語など) では思い出す必要があります。
この現象は、代名詞の正しい先行詞を決定することが難しいため、機械翻訳 (MT) システムにとって重大な課題となるため、機械翻訳 (MT) で広く研究されてきました。
この調査報告書は、研究者がこの分野の現状と将来の方向性を認識できるように、神経革命後にゼロ代名詞翻訳 (ZPT) で行われた主な研究に焦点を当てています。
私たちは進化、データセット、方法、評価に基づいた文献の体系化を提供します。
さらに、競合モデルとさまざまなベンチマークの評価指標を比較および分析します。
私たちは次のような多くの洞察力に富んだ発見を明らかにしました。 1) ZPT は大規模言語モデルの開発傾向と一致しています。
2) データの制限により、言語とドメインの学習バイアスが引き起こされます。
3) パフォーマンスの向上は単一のベンチマークで報告されることがよくありますが、高度な手法はまだ実際の使用には程遠いです。
4) 汎用指標は ZPT の微妙な違いや複雑さに関して信頼性が低く、対象を絞った指標の必要性を強調する。
5) よく引用される誤りとは別に、ZP はジェンダーバイアスのリスクを引き起こす可能性があります。

要約(オリジナル)

Zero pronouns (ZPs) are frequently omitted in pro-drop languages (e.g. Chinese, Hungarian, and Hindi), but should be recalled in non-pro-drop languages (e.g. English). This phenomenon has been studied extensively in machine translation (MT), as it poses a significant challenge for MT systems due to the difficulty in determining the correct antecedent for the pronoun. This survey paper highlights the major works that have been undertaken in zero pronoun translation (ZPT) after the neural revolution, so that researchers can recognise the current state and future directions of this field. We provide an organisation of the literature based on evolution, dataset, method and evaluation. In addition, we compare and analyze competing models and evaluation metrics on different benchmarks. We uncover a number of insightful findings such as: 1) ZPT is in line with the development trend of large language model; 2) data limitation causes learning bias in languages and domains; 3) performance improvements are often reported on single benchmarks, but advanced methods are still far from real-world use; 4) general-purpose metrics are not reliable on nuances and complexities of ZPT, emphasizing the necessity of targeted metrics; 5) apart from commonly-cited errors, ZPs will cause risks of gender bias.

arxiv情報

著者 Longyue Wang,Siyou Liu,Mingzhou Xu,Linfeng Song,Shuming Shi,Zhaopeng Tu
発行日 2023-05-17 13:19:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク