Speech Translation with Speech Foundation Models and Large Language Models: What is There and What is Missing?

要約

自然言語処理 (NLP) の分野は、最近、基礎モデル、特にテキストベースの NLP に革命をもたらした大規模言語モデル (LLM) の出現による変革的な変化を目の当たりにしました。
このパラダイムは、音声を含む他のモダリティにも拡張されており、研究者は、音声基盤モデル (SFM) と LLM を組み合わせて、マルチモーダルなタスクに対処できる単一の統合モデルを作成することを積極的に研究しています。
このようなタスクの中で、本稿では音声からテキストへの翻訳 (ST) に焦点を当てます。
このテーマに関する出版された論文を調査することにより、これまでに提示されたアーキテクチャ ソリューションとトレーニング戦略の統一されたビューを提案し、それらの間の類似点と相違点を強調します。
この調査に基づいて、私たちは学んだ教訓を整理するだけでなく、多様な設定や評価アプローチが、アーキテクチャの構成要素やトレーニングの選択ごとに最高のパフォーマンスを発揮するソリューションの特定をどのように妨げるかも示します。
最後に、ST 向け SFM+LLM ソリューションの長所と短所をより深く理解することを目的とした、このテーマに関する今後の作業に対する推奨事項を概説します。

要約(オリジナル)

The field of natural language processing (NLP) has recently witnessed a transformative shift with the emergence of foundation models, particularly Large Language Models (LLMs) that have revolutionized text-based NLP. This paradigm has extended to other modalities, including speech, where researchers are actively exploring the combination of Speech Foundation Models (SFMs) and LLMs into single, unified models capable of addressing multimodal tasks. Among such tasks, this paper focuses on speech-to-text translation (ST). By examining the published papers on the topic, we propose a unified view of the architectural solutions and training strategies presented so far, highlighting similarities and differences among them. Based on this examination, we not only organize the lessons learned but also show how diverse settings and evaluation approaches hinder the identification of the best-performing solution for each architectural building block and training choice. Lastly, we outline recommendations for future works on the topic aimed at better understanding the strengths and weaknesses of the SFM+LLM solutions for ST.

arxiv情報

著者 Marco Gaido,Sara Papi,Matteo Negri,Luisa Bentivogli
発行日 2024-05-17 14:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク