A Semi-supervised Approach for a Better Translation of Sentiment in Dialectical Arabic UGT

要約

オンラインの世界では、機械翻訳 (MT) システムがレビュー、ツイート、ソーシャル メディア投稿などのユーザー作成テキスト (UGT) の翻訳に広く使用されています。主なメッセージは、多くの場合、そのトピックに対する著者の肯定的または否定的な態度です。
テキスト。
ただし、MT システムは一部の低リソース言語では依然として精度が低く、ターゲットとなる単語やフレーズの感情の極性を完全に反転させる重大な翻訳エラーが発生し、誤った感情メッセージが配信されることがあります。
これは、オンライン プラットフォームで使用される弁証法アラビア語 (DA) など、一般的な辞書文法標準に従っていないテキストで特に顕著です。
この研究では、アラビア語の弁証法版で書かれたUGTの感情の英語への翻訳を改善することを目的としています。
UGT ドメインでは DA-EN のゴールドスタンダード並列データが不足していることを考慮して、教師ありおよび教師なしでトレーニングされたクロスリンガル言語モデルによって初期化された NMT システムをトレーニングするために単言語データと並列データの両方を活用する半教師ありアプローチを導入します。
モデリングの目標。
私たちは、人間の評価だけでなく数値的な「感情の近さ」の尺度を通じて、提案したシステムによる感情の翻訳の精度を評価します。
私たちの半教師ありMTシステムが、弁証法的なアラビア語UGTのオンライン翻訳で検出されたセンチメントエラーの修正に大きく役立つことを示します。

要約(オリジナル)

In the online world, Machine Translation (MT) systems are extensively used to translate User-Generated Text (UGT) such as reviews, tweets, and social media posts, where the main message is often the author’s positive or negative attitude towards the topic of the text. However, MT systems still lack accuracy in some low-resource languages and sometimes make critical translation errors that completely flip the sentiment polarity of the target word or phrase and hence delivers a wrong affect message. This is particularly noticeable in texts that do not follow common lexico-grammatical standards such as the dialectical Arabic (DA) used on online platforms. In this research, we aim to improve the translation of sentiment in UGT written in the dialectical versions of the Arabic language to English. Given the scarcity of gold-standard parallel data for DA-EN in the UGT domain, we introduce a semi-supervised approach that exploits both monolingual and parallel data for training an NMT system initialised by a cross-lingual language model trained with supervised and unsupervised modeling objectives. We assess the accuracy of sentiment translation by our proposed system through a numerical ‘sentiment-closeness’ measure as well as human evaluation. We will show that our semi-supervised MT system can significantly help with correcting sentiment errors detected in the online translation of dialectical Arabic UGT.

arxiv情報

著者 Hadeel Saadany,Constantin Orasan,Emad Mohamed,Ashraf Tantawy
発行日 2023-06-08 12:06:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク