SwissADT: An Audio Description Translation System for Swiss Languages

要約

音声説明 (AD) は、視覚障害者および視覚障害者に提供される重要なアクセシビリティ サービスであり、視覚情報を音響形式で伝えるように設計されています。
多言語機械翻訳研究における最近の進歩にもかかわらず、うまく作成され時間同期された AD データが不足しているため、スイスなどの多言語国家のニーズに対応する音声説明翻訳 (ADT) システムの開発が妨げられています。
さらに、ADT システムの大部分はテキストのみに依存しているため、対応するビデオ クリップから視覚情報を組み込むことで ADT 出力の品質を向上できるかどうかについては不確実性が存在します。
この研究では、スイスの主要 3 言語と英語に実装された初の ADT システムである SwissADT を紹介します。
ドイツ語、フランス語、イタリア語、英語のビデオ クリップを追加した巧妙に作成された AD データを収集し、大規模言語モデル (LLM) の力を活用することで、AD スクリプトを自動的に翻訳することで、スイスの多様な言語人口に対する情報アクセシビリティを強化することを目指しています。
希望のスイス語に変更します。
ADT 品質の自動評価と人間による評価の両方で構成される当社の広範な ADT 実験結果は、ADT タスクに対する SwissADT の有望な機能を実証しています。
私たちは、人間の専門知識と LLM の生成能力を組み合わせることで、ADT システムのパフォーマンスをさらに向上させ、最終的にはより多くの多言語を話すターゲット層に利益をもたらすことができると信じています。

要約(オリジナル)

Audio description (AD) is a crucial accessibility service provided to blind persons and persons with visual impairment, designed to convey visual information in acoustic form. Despite recent advancements in multilingual machine translation research, the lack of well-crafted and time-synchronized AD data impedes the development of audio description translation (ADT) systems that address the needs of multilingual countries such as Switzerland. Furthermore, since the majority of ADT systems rely solely on text, uncertainty exists as to whether incorporating visual information from the corresponding video clips can enhance the quality of ADT outputs. In this work, we present SwissADT, the first ADT system implemented for three main Swiss languages and English. By collecting well-crafted AD data augmented with video clips in German, French, Italian, and English, and leveraging the power of Large Language Models (LLMs), we aim to enhance information accessibility for diverse language populations in Switzerland by automatically translating AD scripts to the desired Swiss language. Our extensive experimental ADT results, composed of both automatic and human evaluations of ADT quality, demonstrate the promising capability of SwissADT for the ADT task. We believe that combining human expertise with the generation power of LLMs can further enhance the performance of ADT systems, ultimately benefiting a larger multilingual target population.

arxiv情報

著者 Lukas Fischer,Yingqiang Gao,Alexa Lintner,Sarah Ebling
発行日 2024-11-22 14:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC パーマリンク