要約
大規模言語モデル (LLM) は、無数のドメインやタスクにわたって賞賛に値するパフォーマンスを実証してきましたが、既存の LLM は、マルチモーダル機能の処理、特に音声間の正確な調整と深い対話が必要な音声質問応答 (SQA) タスクの処理において、明らかな欠陥を依然として示しています。
そしてテキスト機能。
LLM に関する SQA の課題に対処するために、私たちは最初に Librispeech の自由形式で無制限の LibriSQA データセットを厳選しました。このデータセットは、自然な会話形式のパート I と、その後に続く回答と分析セグメントを含む複数選択の質問を含むパート II で構成されています。
両方のパートには、さまざまなトピックをカバーする 107,000 の SQA ペアが合計で含まれています。
既存の音声テキスト LLM が明らかに不足していることを考慮して、LibriSQA 上で SQA タスクを実行する軽量のエンドツーエンド フレームワークを提案し、重要な結果を確認しています。
ASR を SQA 形式に再構築することで、ASR タスクを処理するフレームワークの機能をさらに実証します。
私たちの経験的発見は、マルチモーダル情報を調整して理解するための LLM の適性を強化し、ユニバーサルマルチモーダル LLM の開発への道を開きます。
データセットとデモは https://github.com/ZihanZhaoSJTU/LibriSQA にあります。
要約(オリジナル)
While Large Language Models (LLMs) have demonstrated commendable performance across a myriad of domains and tasks, existing LLMs still exhibit a palpable deficit in handling multimodal functionalities, especially for the Spoken Question Answering (SQA) task which necessitates precise alignment and deep interaction between speech and text features. To address the SQA challenge on LLMs, we initially curated the free-form and open-ended LibriSQA dataset from Librispeech, comprising Part I with natural conversational formats and Part II encompassing multiple-choice questions followed by answers and analytical segments. Both parts collectively include 107k SQA pairs that cover various topics. Given the evident paucity of existing speech-text LLMs, we propose a lightweight, end-to-end framework to execute the SQA task on the LibriSQA, witnessing significant results. By reforming ASR into the SQA format, we further substantiate our framework’s capability in handling ASR tasks. Our empirical findings bolster the LLMs’ aptitude for aligning and comprehending multimodal information, paving the way for the development of universal multimodal LLMs. The dataset and demo can be found at https://github.com/ZihanZhaoSJTU/LibriSQA.
arxiv情報
著者 | Zihan Zhao,Yiyang Jiang,Heyang Liu,Yanfeng Wang,Yu Wang |
発行日 | 2023-08-22 10:52:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google