FFSTC: Fongbe to French Speech Translation Corpus

要約

この論文では、Fongbe からフランス語への音声翻訳コーパス (FFSTC) を初めて紹介します。
このコーパスには、収集された約 31 時間のフォンベ言語コンテンツが含まれており、フランス語の転写と対応するフォンベ音声録音の両方が含まれています。
FFSTC は、さまざまな収集方法と献身的な個人の努力を通じて編集された包括的なデータセットを表します。
さらに、Fairseq のtransformer_s および配座異性体モデルを使用してベースライン実験を実施し、データの品質と有効性を評価します。
私たちの結果は、transformer_s モデルのスコアが 8.96、配座異性体モデルのスコアが 8.14 であることを示しており、FFSTC コーパスのベースラインを確立しています。

要約(オリジナル)

In this paper, we introduce the Fongbe to French Speech Translation Corpus (FFSTC) for the first time. This corpus encompasses approximately 31 hours of collected Fongbe language content, featuring both French transcriptions and corresponding Fongbe voice recordings. FFSTC represents a comprehensive dataset compiled through various collection methods and the efforts of dedicated individuals. Furthermore, we conduct baseline experiments using Fairseq’s transformer_s and conformer models to evaluate data quality and validity. Our results indicate a score of 8.96 for the transformer_s model and 8.14 for the conformer model, establishing a baseline for the FFSTC corpus.

arxiv情報

著者 D. Fortune Kponou,Frejus A. A. Laleye,Eugene C. Ezin
発行日 2024-03-08 17:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク