Comparing Large Language Models and Traditional Machine Translation Tools for Translating Medical Consultation Summaries: A Pilot Study

要約

この研究では、大規模な言語モデル(LLMS)と従来の機械翻訳(MT)ツールが、英語からアラビア語、中国語、ベトナム語に医療相談の要約をどの程度変換するかを評価します。
標準の自動化されたメトリックを使用して、患者、友好的、臨床医、集中したテキストの両方を評価します。
結果は、特に複雑なテキストでは、従来のMTツールが一般的にパフォーマンスを発揮し、LLMはより簡単な要約を翻訳する際に、特にベトナムと中国語で約束を示したことを示しました。
アラビア語の翻訳は、言語の形態により複雑に改善されました。
全体として、LLMはコンテキストの柔軟性を提供しますが、それらは一貫性のないままであり、現在の評価メトリックは臨床的関連性をキャプチャできません。
この研究では、ドメイン固有のトレーニング、評価方法の改善、および医療翻訳における人間の監視の必要性を強調しています。

要約(オリジナル)

This study evaluates how well large language models (LLMs) and traditional machine translation (MT) tools translate medical consultation summaries from English into Arabic, Chinese, and Vietnamese. It assesses both patient, friendly and clinician, focused texts using standard automated metrics. Results showed that traditional MT tools generally performed better, especially for complex texts, while LLMs showed promise, particularly in Vietnamese and Chinese, when translating simpler summaries. Arabic translations improved with complexity due to the language’s morphology. Overall, while LLMs offer contextual flexibility, they remain inconsistent, and current evaluation metrics fail to capture clinical relevance. The study highlights the need for domain-specific training, improved evaluation methods, and human oversight in medical translation.

arxiv情報

著者 Andy Li,Wei Zhou,Rashina Hoda,Chris Bain,Peter Poon
発行日 2025-04-23 10:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク