Ask Language Model to Clean Your Noisy Translation Data

要約

Transformer モデルは、ニューラル機械翻訳 (NMT) において顕著なパフォーマンスを実証しました。
ただし、ノイズの多い入力に対する脆弱性は、ノイズの多い入力からクリーンな出力を生成することが重要である実際の実装において重大な課題を引き起こします。
MTNT データセット \cite{MTNT} は、ノイズの多い入力に対する NMT モデルの堅牢性を評価するためのベンチマークとして広く使用されています。
それにもかかわらず、ソース文とターゲット文の両方にノイズが存在するため、その有用性は限られています。
この制限に対処するために、MTNT のターゲット センテンスからノイズを除去し、ノイズ評価のベンチマークとしてより適したものにすることに重点を置いています。
大規模言語モデル (LLM) の機能を活用して、ノイズ除去における LLM の優れた能力を観察しました。
たとえば、意味論的な意味を考慮しながら絵文字を削除できます。
さらに、LLM が俗語、専門用語、冒涜的な表現を効果的に言い換えることができることを示します。
C-MTNT と呼ばれる結果として得られるデータセットは、元の文の意味上の完全性を維持しながら、ターゲット文のノイズが大幅に減少しています。
人間による評価と GPT-4 による評価でも、LLM がこのタスクでうまく機能するという一貫した結論が得られました。
最後に、C-MTNT に関する実験では、NMT モデルの堅牢性の評価における C-MTNT の有効性が実証され、データ クリーニングのための高度な言語モデルの可能性が強調され、C-MTNT が貴重なリソースであることが強調されました。

要約(オリジナル)

Transformer models have demonstrated remarkable performance in neural machine translation (NMT). However, their vulnerability to noisy input poses a significant challenge in practical implementation, where generating clean output from noisy input is crucial. The MTNT dataset \cite{MTNT} is widely used as a benchmark for evaluating the robustness of NMT models against noisy input. Nevertheless, its utility is limited due to the presence of noise in both the source and target sentences. To address this limitation, we focus on cleaning the noise from the target sentences in MTNT, making it more suitable as a benchmark for noise evaluation. Leveraging the capabilities of large language models (LLMs), we observe their impressive abilities in noise removal. For example, they can remove emojis while considering their semantic meaning. Additionally, we show that LLM can effectively rephrase slang, jargon, and profanities. The resulting datasets, called C-MTNT, exhibit significantly less noise in the target sentences while preserving the semantic integrity of the original sentences. Our human and GPT-4 evaluations also lead to a consistent conclusion that LLM performs well on this task. Lastly, experiments on C-MTNT showcased its effectiveness in evaluating the robustness of NMT models, highlighting the potential of advanced language models for data cleaning and emphasizing C-MTNT as a valuable resource.

arxiv情報

著者 Quinten Bolding,Baohao Liao,Brandon James Denis,Jun Luo,Christof Monz
発行日 2023-10-20 13:05:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク