A Semi-supervised Approach for a Better Translation of Sentiment in Dialectical Arabic UGT


オンラインの世界では、機械翻訳 (MT) システムがレビュー、ツイート、ソーシャル メディア投稿などのユーザー作成テキスト (UGT) の翻訳に広く使用されています。主なメッセージは、多くの場合、そのトピックに対する著者の肯定的または否定的な態度です。
ただし、MT システムは一部の低リソース言語では依然として精度が低く、ターゲットとなる単語やフレーズの感情の極性を完全に反転させる重大な翻訳エラーが発生し、誤った感情メッセージが配信されることがあります。
これは、オンライン プラットフォームで使用される弁証法アラビア語 (DA) など、一般的な辞書文法標準に従っていないテキストで特に顕著です。
UGT ドメインでは DA-EN のゴールドスタンダード並列データが不足していることを考慮して、教師ありおよび教師なしでトレーニングされたクロスリンガル言語モデルによって初期化された NMT システムをトレーニングするために単言語データと並列データの両方を活用する半教師ありアプローチを導入します。


In the online world, Machine Translation (MT) systems are extensively used to translate User-Generated Text (UGT) such as reviews, tweets, and social media posts, where the main message is often the author’s positive or negative attitude towards the topic of the text. However, MT systems still lack accuracy in some low-resource languages and sometimes make critical translation errors that completely flip the sentiment polarity of the target word or phrase and hence delivers a wrong affect message. This is particularly noticeable in texts that do not follow common lexico-grammatical standards such as the dialectical Arabic (DA) used on online platforms. In this research, we aim to improve the translation of sentiment in UGT written in the dialectical versions of the Arabic language to English. Given the scarcity of gold-standard parallel data for DA-EN in the UGT domain, we introduce a semi-supervised approach that exploits both monolingual and parallel data for training an NMT system initialised by a cross-lingual language model trained with supervised and unsupervised modeling objectives. We assess the accuracy of sentiment translation by our proposed system through a numerical ‘sentiment-closeness’ measure as well as human evaluation. We will show that our semi-supervised MT system can significantly help with correcting sentiment errors detected in the online translation of dialectical Arabic UGT.


