On Creating an English-Thai Code-switched Machine Translation in Medical Domain

要約

医療分野における機械翻訳 (MT) は、医療の質を向上させ、医療知識を広める上で極めて重要な役割を果たしています。
英語とタイ語の MT テクノロジーの進歩にも関わらず、一般的な MT アプローチは、医療用語を正確に翻訳できないため、医療分野ではパフォーマンスが低下することがよくあります。
私たちの研究では、翻訳の精度を向上させるだけでなく、コードスイッチ (CS) 翻訳を通じて翻訳テキスト内の医学用語を英語で維持することも優先しています。
私たちは、CS 医療翻訳データを生成する方法を開発し、このデータを使用して CS 翻訳モデルを微調整し、Google ニューラル機械翻訳 (NMT) や GPT-3.5/GPT-4 などの強力なベースラインに対してそのパフォーマンスを評価しました。
私たちのモデルは自動メトリクスで競争力のあるパフォーマンスを実証し、人間の好みの評価でも非常に好評でした。
私たちの評価結果では、たとえ流暢さが多少損なわれても、重要な英語用語を正確に維持する CS 翻訳が医療専門家に非常に好まれていることも示されています。
私たちのコードとテストセットは https://github.com/pceptai-org/NLLB_CS_EM_NLP2024 で公開されています。

要約(オリジナル)

Machine translation (MT) in the medical domain plays a pivotal role in enhancing healthcare quality and disseminating medical knowledge. Despite advancements in English-Thai MT technology, common MT approaches often underperform in the medical field due to their inability to precisely translate medical terminologies. Our research prioritizes not merely improving translation accuracy but also maintaining medical terminology in English within the translated text through code-switched (CS) translation. We developed a method to produce CS medical translation data, fine-tuned a CS translation model with this data, and evaluated its performance against strong baselines, such as Google Neural Machine Translation (NMT) and GPT-3.5/GPT-4. Our model demonstrated competitive performance in automatic metrics and was highly favored in human preference evaluations. Our evaluation result also shows that medical professionals significantly prefer CS translations that maintain critical English terms accurately, even if it slightly compromises fluency. Our code and test set are publicly available https://github.com/preceptorai-org/NLLB_CS_EM_NLP2024.

arxiv情報

著者 Parinthapat Pengpun,Krittamate Tiankanon,Amrest Chinkamol,Jiramet Kinchagawat,Pitchaya Chairuengjitjaras,Pasit Supholkhan,Pubordee Aussavavirojekul,Chiraphat Boonnag,Kanyakorn Veerakanjana,Hirunkul Phimsiri,Boonthicha Sae-jia,Nattawach Sataudom,Piyalitt Ittichaiwong,Peerat Limkonchotiwat
発行日 2024-10-21 17:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク