OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal Conversations on Online Social Media


英語のリソースはソーシャル メディアのコンテンツを理解するのに十分ですが、アラビア語の同様のリソースはまだ未熟です。
アラビア語のリソースが不足している主な理由は、アラビア語には標準語 (MSA) 以外に多くの方言があることです。
アラブ人は日常のコミュニケーションで MSA を使用しません。
残念なことに、ソーシャル ユーザーはこの現象をソーシャル メディア プラットフォームの使用に移しており、その結果、言語依存アプリケーションに適した AI モデルを構築する緊急の必要性が生じています。
MSA 用に設計された既存の機械翻訳 (MT) システムは、アラビア語の方言ではうまく機能しません。
これを考慮すると、アラビア語のさまざまな方言を効果的に処理できる MT システムを開発することで、ソーシャル ネットワーク上のコミュニケーションの非公式な性質に適応する必要があります。
MT システムにおいて高度な進歩を示す MSA とは異なり、MT システムにアラビア語の方言を利用する取り組みはほとんど行われていません。
方言アラビア語の翻訳データセットを構築する試みはほとんど行われていませんが、それらはドメインに依存しており、OSN の文化言語に適していません。
この研究では、英語のツイートを文脈に応じて湾岸、イエメン、イラク、レバントの 4 つのアラビア語方言に翻訳することによって作成される、オンライン ソーシャル ネットワーク ベースの多方言アラビア語データセットを提案することで、これらの制限を軽減しようと試みています。
翻訳を実行するために、私たちは、外国語と地元の方言の間の翻訳に普遍的に適用できるコンテンツ翻訳用の提案されたガイドライン フレームワークに従いました。
私たちは、4 つのアラビア語方言のニューラル MT モデルを開発することにより、提案したデータセットの信頼性を検証しました。
私たちの結果は、データセットを使用してトレーニングされた NMT モデルの優れたパフォーマンスを示しています。
私たちは、私たちのデータセットが非公式 MT タスク用のアラビア語多方言翻訳データセットとして確実に機能できると信じています。


While resources for English language are fairly sufficient to understand content on social media, similar resources in Arabic are still immature. The main reason that the resources in Arabic are insufficient is that Arabic has many dialects in addition to the standard version (MSA). Arabs do not use MSA in their daily communications; rather, they use dialectal versions. Unfortunately, social users transfer this phenomenon into their use of social media platforms, which in turn has raised an urgent need for building suitable AI models for language-dependent applications. Existing machine translation (MT) systems designed for MSA fail to work well with Arabic dialects. In light of this, it is necessary to adapt to the informal nature of communication on social networks by developing MT systems that can effectively handle the various dialects of Arabic. Unlike for MSA that shows advanced progress in MT systems, little effort has been exerted to utilize Arabic dialects for MT systems. While few attempts have been made to build translation datasets for dialectal Arabic, they are domain dependent and are not OSN cultural-language friendly. In this work, we attempt to alleviate these limitations by proposing an online social network-based multidialect Arabic dataset that is crafted by contextually translating English tweets into four Arabic dialects: Gulf, Yemeni, Iraqi, and Levantine. To perform the translation, we followed our proposed guideline framework for content translation, which could be universally applicable for translation between foreign languages and local dialects. We validated the authenticity of our proposed dataset by developing neural MT models for four Arabic dialects. Our results have shown a superior performance of our NMT models trained using our dataset. We believe that our dataset can reliably serve as an Arabic multidialectal translation dataset for informal MT tasks.


著者 Fatimah Alzamzami,Abdulmotaleb El Saddik
発行日 2023-09-21 14:58:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク