要約
クルド語の医学パンフレットへのアクセスは制限されており、クルド語を話すコミュニティから重要な健康情報が奪われています。
この問題に対処するために、イラクのクルディスタン地域(KRI)の製薬会社 2 社から提供された 319 冊のパンフレットからの 22,940 の整列された文ペアの並列コーパスを使用して、英語の医学パンフレットをソラニ クルド語に翻訳するための特殊な機械翻訳 (MT) モデルを開発しました。
。
Moses ツールキットを使用して統計的機械翻訳 (SMT) モデルをトレーニングし、22.65 ~ 48.93 の範囲の BLEU スコアをもたらした 7 つの実験を実施しました。
評価プロセスを改善するために 3 つの新しいパンフレットを翻訳しましたが、未知の単語に遭遇しました。
医学辞書による後処理を通じて未知の単語に対処した結果、BLEU スコアは 56.87、31.05、40.01 となりました。
クルド語を母語とする薬剤師、医師、医薬品使用者による人間による評価では、専門家の 50% が翻訳が一貫していると感じ、83.3% が翻訳が正確であると評価しました。
ユーザーのうち、66.7% が翻訳が明確であり、薬を安心して使用できると考えています。
要約(オリジナル)
Access to Kurdish medicine brochures is limited, depriving Kurdish-speaking communities of critical health information. To address this problem, we developed a specialized Machine Translation (MT) model to translate English medicine brochures into Sorani Kurdish using a parallel corpus of 22,940 aligned sentence pairs from 319 brochures, sourced from two pharmaceutical companies in the Kurdistan Region of Iraq (KRI). We trained a Statistical Machine Translation (SMT) model using the Moses toolkit, conducting seven experiments that resulted in BLEU scores ranging from 22.65 to 48.93. We translated three new brochures to improve the evaluation process and encountered unknown words. We addressed unknown words through post-processing with a medical dictionary, resulting in BLEU scores of 56.87, 31.05, and 40.01. Human evaluation by native Kurdish-speaking pharmacists, physicians, and medicine users showed that 50% of professionals found the translations consistent, while 83.3% rated them accurate. Among users, 66.7% considered the translations clear and felt confident using the medications.
arxiv情報
著者 | Mariam Shamal,Hossein Hassani |
発行日 | 2025-01-23 12:28:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google