要約
このペーパーでは、チャット翻訳共有タスクの第 3 版からの調査結果を紹介します。
以前の版と同様に、このタスクにはバイリンガルのカスタマー サポートの会話の翻訳が含まれ、特に会話の文脈が翻訳の品質と評価に与える影響に焦点を当てていました。
また、以前のエディションの言語ペア (英語-ドイツ語、英語-フランス語、英語-ブラジルポルトガル語) に加えて、英語-韓国語、英語-オランダ語という 2 つの新しい言語ペアも含まれています。
8 つのチームから 22 件の主要な提出物と 32 件の対照的な提出物を受け取りました。各言語ペアには少なくとも 3 つのチームが参加していました。
私たちは、自動評価基準と直接評価フレームワークによる人間の判断の両方を使用して、システムを包括的に評価しました。
各言語ペアの公式ランキングは、エージェントと顧客の両方の翻訳方向でのパフォーマンスを考慮した人間の評価スコアに基づいて決定されました。
私たちの分析によると、システムは個々のターンの翻訳には優れているものの、全体的な会話レベルの翻訳品質には改善の余地があることがわかりました。
要約(オリジナル)
This paper presents the findings from the third edition of the Chat Translation Shared Task. As with previous editions, the task involved translating bilingual customer support conversations, specifically focusing on the impact of conversation context in translation quality and evaluation. We also include two new language pairs: English-Korean and English-Dutch, in addition to the set of language pairs from previous editions: English-German, English-French, and English-Brazilian Portuguese. We received 22 primary submissions and 32 contrastive submissions from eight teams, with each language pair having participation from at least three teams. We evaluated the systems comprehensively using both automatic metrics and human judgments via a direct assessment framework. The official rankings for each language pair were determined based on human evaluation scores, considering performance in both translation directions–agent and customer. Our analysis shows that while the systems excelled at translating individual turns, there is room for improvement in overall conversation-level translation quality.
arxiv情報
著者 | Wafaa Mohammed,Sweta Agrawal,M. Amin Farajian,Vera Cabarrão,Bryan Eikema,Ana C. Farinha,José G. C. de Souza |
発行日 | 2024-10-15 14:13:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google