ERUPD — English to Roman Urdu Parallel Dataset

要約

言語的なギャップを埋めることで、世界的な成長と文化交流が促進されます。
この研究は、75,146 文のペアで構成される新しい並列データセットを作成することにより、ローマ字ウルドゥー語 (デジタル通信で広く使用されているウルドゥー語をラテン文字に適応したもの) の課題に対処します。
ローマン ウルドゥー語には標準化の欠如、音声のばらつき、および英語とのコード交換が言語処理を複雑にしています。
私たちは、高度なプロンプト エンジニアリングによって生成された合成データと、パーソナル メッセージング グループからの実世界の会話データを組み合わせたハイブリッド アプローチを採用することで、この問題に取り組みました。
人間による評価フェーズを通じてデータセットをさらに改良し、言語的な矛盾に対処し、コード切り替え、音声表現、同義語の変動性の精度を確保しました。
結果として得られるデータセットはローマ字ウルドゥー語の多様な言語的特徴を捉えており、機械翻訳、感情分析、多言語教育のための重要なリソースとして機能します。

要約(オリジナル)

Bridging linguistic gaps fosters global growth and cultural exchange. This study addresses the challenges of Roman Urdu — a Latin-script adaptation of Urdu widely used in digital communication — by creating a novel parallel dataset comprising 75,146 sentence pairs. Roman Urdu’s lack of standardization, phonetic variability, and code-switching with English complicates language processing. We tackled this by employing a hybrid approach that combines synthetic data generated via advanced prompt engineering with real-world conversational data from personal messaging groups. We further refined the dataset through a human evaluation phase, addressing linguistic inconsistencies and ensuring accuracy in code-switching, phonetic representations, and synonym variability. The resulting dataset captures Roman Urdu’s diverse linguistic features and serves as a critical resource for machine translation, sentiment analysis, and multilingual education.

arxiv情報

著者 Mohammed Furqan,Raahid Bin Khaja,Rayyan Habeeb
発行日 2024-12-23 13:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク