要約
ブラジル系ポルトガル語とヨーロッパ系ポルトガル語は同じ言語の 2 つの変種であり、よく似ていますが、いくつかの違いがあります。
ただし、2 つの亜種の間では利用可能なリソースに大きな不均衡があり、ブラジル系ポルトガル語の方がより豊富なリソースを持っています。
この不公平は、ヨーロッパのポルトガル語話者が利用できる翻訳サービスの品質に影響を与える可能性があります。
この問題に対処するために、ニューラル アーキテクチャとモデルの最近の進歩を活用して、ブラジル ポルトガル語からヨーロッパ ポルトガル語への翻訳システムの開発を提案します。
このようなシステムのパフォーマンスを評価するために、5 つの異なるトピックにわたる 500 文からなるゴールド テスト セットを手動で厳選しました。
ゴールド テスト セットの各文には 2 つの異なる参照があり、将来の翻訳モデルの直接的な評価が容易になります。
私たちは、映画の字幕と TED Talks のブラジル語とヨーロッパのポルトガル語両方のトランスクリプトから抽出した並列データを使用して、既存の大規模言語モデルを微調整することにより、さまざまなモデルを実験しました。
私たちの評価には、人間による評価だけでなく、従来の自動評価基準の使用も含まれていました。
さらに、すべてのモデルが ChatGPT 3.5 Turbo と比較され、現在最良の結果が得られています。
要約(オリジナル)
Brazilian Portuguese and European Portuguese are two varieties of the same language and, despite their close similarities, they exhibit several differences. However, there is a significant disproportion in the availability of resources between the two variants, with Brazilian Portuguese having more abundant resources. This inequity can impact the quality of translation services accessible to European Portuguese speakers. To address this issue, we propose the development of a Brazilian Portuguese to European Portuguese translation system, leveraging recent advancements in neural architectures and models. To evaluate the performance of such systems, we manually curated a gold test set comprising 500 sentences across five different topics. Each sentence in the gold test set has two distinct references, facilitating a straightforward evaluation of future translation models. We experimented with various models by fine-tuning existing Large Language Models using parallel data extracted from movie subtitles and TED Talks transcripts in both Brazilian and European Portuguese. Our evaluation involved the use of conventional automatic metrics as well as a human evaluation. In addition, all models were compared against ChatGPT 3.5 Turbo, which currently yields the best results.
arxiv情報
著者 | João Sanches,Rui Ribeiro,Luísa Coheur |
発行日 | 2024-08-14 10:58:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google