Creating Domain-Specific Translation Memories for Machine Translation Fine-tuning: The TRENCARD Bilingual Cardiology Corpus

要約

この記事では、翻訳者や他の言語専門家がドメイン固有の並列コーパスをコンパイルするために翻訳メモリ (TM) を作成する方法を調査します。これは、機械翻訳のトレーニングや微調整、TM の活用、翻訳などのさまざまなシナリオで使用できます。
および/または大規模な言語モデルの微調整。
この記事では、翻訳者によるデータ品質と制御を優先して、主に翻訳者が使用する翻訳ツールを活用した半自動 TM 作成方法を紹介します。
次に、この半自動手法を使用して、トルコの心臓病雑誌のバイリンガル要約から心臓病学ベースのトルコ語→英語コーパスを構築します。
結果として得られた TRENCARD コーパスと呼ばれるコーパスには、約 800,000 の原語と 50,000 の文が含まれています。
この方法を使用すると、翻訳者は適切な時間内にカスタム TM を構築し、タスクを必要とするバイリンガル データで使用できます。

要約(オリジナル)

This article investigates how translation memories (TM) can be created by translators or other language professionals in order to compile domain-specific parallel corpora , which can then be used in different scenarios, such as machine translation training and fine-tuning, TM leveraging, and/or large language model fine-tuning. The article introduces a semi-automatic TM preparation methodology leveraging primarily translation tools used by translators in favor of data quality and control by the translators. This semi-automatic methodology is then used to build a cardiology-based Turkish -> English corpus from bilingual abstracts of Turkish cardiology journals. The resulting corpus called TRENCARD Corpus has approximately 800,000 source words and 50,000 sentences. Using this methodology, translators can build their custom TMs in a reasonable time and use them in their bilingual data requiring tasks.

arxiv情報

著者 Gokhan Dogru
発行日 2024-09-04 12:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク