要約
急速な技術の進歩のこの時代に、新しい言語現象が出現するにつれてコミュニケーションが進化し続けています。
これらの中には、アラブのコミュニティの話された方言を表すためにラテン語と数字を取り入れたアラビア語のハイブリッド形式のアラビツィがいます。
Arabiziはソーシャルメディアで広く使用されており、人々が非公式でダイナミックな方法でコミュニケーションをとることができますが、正式な構造の欠如と深く組み込まれた文化的ニュアンスのために、機械翻訳に大きな課題をもたらします。
このケーススタディは、概要の目的でアラビツィを翻訳する必要性の高まりから生じます。
これは、これまでめったに研究されていない複数のアラビア語の方言に焦点を当てて、アラビツィをデコードして翻訳するさまざまなLLMの能力を評価します。
この研究プロジェクトは、人間の評価者と自動メトリックの組み合わせを使用して、アラビツィを現代の標準的なアラビア語と英語の両方に変換する際のモデルのパフォーマンスを調査します。
調査された重要な質問には、どの方言が最も効果的に翻訳されているか、そして英語への翻訳がそれらをアラビア語に超えるかどうかが含まれます。
要約(オリジナル)
In this era of rapid technological advancements, communication continues to evolve as new linguistic phenomena emerge. Among these is Arabizi, a hybrid form of Arabic that incorporates Latin characters and numbers to represent the spoken dialects of Arab communities. Arabizi is widely used on social media and allows people to communicate in an informal and dynamic way, but it poses significant challenges for machine translation due to its lack of formal structure and deeply embedded cultural nuances. This case study arises from a growing need to translate Arabizi for gisting purposes. It evaluates the capacity of different LLMs to decode and translate Arabizi, focusing on multiple Arabic dialects that have rarely been studied up until now. Using a combination of human evaluators and automatic metrics, this research project investigates the model’s performance in translating Arabizi into both Modern Standard Arabic and English. Key questions explored include which dialects are translated most effectively and whether translations into English surpass those into Arabic.
arxiv情報
著者 | Perla Al Almaoui,Pierrette Bouillon,Simon Hengchen |
発行日 | 2025-04-17 16:07:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google