LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation

要約

機械翻訳は、言語を超えて医療知識を世界に広めるために、医療現場で不可欠です。
ただし、複雑な医療用語は、適切な翻訳の品質と精度を達成する上で特有の課題を引き起こします。
この研究では、医療文書に特化して最適化された教師ありニューラル機械翻訳モデルを開発するための新しい「LLMs-in-the-loop」アプローチを導入しています。
大規模言語モデル (LLM) は強力な機能を実証していますが、この調査では、高品質のドメイン内 (ほとんどが合成) データでトレーニングされた小規模で特殊なモデルが、非常に大規模な LLM よりも優れたパフォーマンスを発揮できることが示されています。
6 か国語のカスタム対訳コーパスは、科学論文、合成的に生成された臨床文書、医学書から編集されました。
当社の LLMs-in-the-loop 手法では、合成データの生成、厳密な評価、エージェント オーケストレーションを採用してパフォーマンスを向上させます。
私たちは、MarianMT ベース モデルを使用して小規模な医療翻訳モデルを開発しました。
この分野の評価を標準化するために、新しい医療翻訳テスト データセットを導入します。
このテスト セットで BLEU、METEOR、ROUGE、BERT スコアを使用して評価したところ、MarianMT ベースのモデルは Google 翻訳、DeepL、GPT-4-Turbo よりも優れたパフォーマンスを示しました。
結果は、当社の LLMs-in-the-loop アプローチと高品質のドメイン固有データの微調整を組み合わせることで、特殊なモデルが汎用システムや一部の大規模システムよりも優れたパフォーマンスを発揮できることを示しています。
この研究は、エキスパートの小型モデルに関する広範なシリーズの一部であり、匿名化や生物医学的実体抽出モデルなど、将来の医療関連の AI 開発への道を切り開きます。
私たちの研究は、データ生成、評価、エージェント、およびモデリング技術の改善を通じてこの分野を前進させる、カスタマイズされたニューラル翻訳モデルと LLM インザループ手法の可能性を強調しています。

要約(オリジナル)

Machine translation is indispensable in healthcare for enabling the global dissemination of medical knowledge across languages. However, complex medical terminology poses unique challenges to achieving adequate translation quality and accuracy. This study introduces a novel ‘LLMs-in-the-loop’ approach to develop supervised neural machine translation models optimized specifically for medical texts. While large language models (LLMs) have demonstrated powerful capabilities, this research shows that small, specialized models trained on high-quality in-domain (mostly synthetic) data can outperform even vastly larger LLMs. Custom parallel corpora in six languages were compiled from scientific articles, synthetically generated clinical documents, and medical texts. Our LLMs-in-the-loop methodology employs synthetic data generation, rigorous evaluation, and agent orchestration to enhance performance. We developed small medical translation models using the MarianMT base model. We introduce a new medical translation test dataset to standardize evaluation in this domain. Assessed using BLEU, METEOR, ROUGE, and BERT scores on this test set, our MarianMT-based models outperform Google Translate, DeepL, and GPT-4-Turbo. Results demonstrate that our LLMs-in-the-loop approach, combined with fine-tuning high-quality, domain-specific data, enables specialized models to outperform general-purpose and some larger systems. This research, part of a broader series on expert small models, paves the way for future healthcare-related AI developments, including deidentification and bio-medical entity extraction models. Our study underscores the potential of tailored neural translation models and the LLMs-in-the-loop methodology to advance the field through improved data generation, evaluation, agent, and modeling techniques.

arxiv情報

著者 Bunyamin Keles,Murat Gunay,Serdar I. Caglar
発行日 2024-07-26 12:37:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T35, cs.AI, cs.CL パーマリンク