Continuous Rating as Reliable Human Evaluation of Simultaneous Speech Translation

要約

同時音声翻訳 (SST) は、人間の評価者が字幕付きビデオを見て、ボタンを押して満足度を継続的に表現する模擬オンライン イベントで評価できます (いわゆる連続評価)。
継続的評価は簡単に収集できますが、その信頼性や、SST ユーザーによる外国語文書の理解との関係についてはほとんど知られていません。
この論文では、継続的評価と、さまざまなレベルの原文言語知識を持つ審査員に対する事実に基づくアンケートを対比します。
私たちの結果は、審査員がソース言語について少なくとも限られた知識を持っていれば、継続的評価が簡単で信頼できる SST 品質評価であることを示しています。
私たちの調査は、字幕のレイアウトと表示スタイルに対するユーザーの好みを示しており、最も重要なことに、高度なソース言語の知識を持つユーザーは、再翻訳の回数が少ないことよりも遅延が少ないことを好むという重要な証拠を提供しています。

要約(オリジナル)

Simultaneous speech translation (SST) can be evaluated on simulated online events where human evaluators watch subtitled videos and continuously express their satisfaction by pressing buttons (so called Continuous Rating). Continuous Rating is easy to collect, but little is known about its reliability, or relation to comprehension of foreign language document by SST users. In this paper, we contrast Continuous Rating with factual questionnaires on judges with different levels of source language knowledge. Our results show that Continuous Rating is easy and reliable SST quality assessment if the judges have at least limited knowledge of the source language. Our study indicates users’ preferences on subtitle layout and presentation style and, most importantly, provides a significant evidence that users with advanced source language knowledge prefer low latency over fewer re-translations.

arxiv情報

著者 Dávid Javorský,Dominik Macháček,Ondřej Bojar
発行日 2024-11-14 10:15:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク