GSQA: An End-to-End Model for Generative Spoken Question Answering

要約

音声による質問応答 (QA) の最近の進歩により、エンドツーエンド モデルは大幅に進歩しました。
ただし、以前の研究は主に抽出スパンの選択に焦点を当てていました。
この抽出ベースのアプローチは、回答が入力内に直接存在する場合には効果的ですが、回答が直接抽出されず、与えられた情報から推測される抽象的な質問に対処するには不十分です。
このギャップを埋めるために、システムが抽象的な推論を行えるようにする、初のエンドツーエンドの生成的音声質問応答 (GSQA) モデルを導入します。
GSQA モデルをトレーニングする際の課題は、音声による抽象的な QA データセットが存在しないことにあります。
初期化にテキスト モデルを使用し、抽出 QA データセットを活用してテキスト生成モデルから音声生成モデルに知識を転送することを提案します。
実験結果は、抽出 QA データセットにおいて、私たちのモデルが以前の抽出モデルを 3% 上回っていることを示しています。
さらに、GSQA モデルは、音声抽出 QA データセットでのみ微調整されています。
音声で抽象化された QA データは見たことがありませんが、それでもカスケード モデルのパフォーマンスとほぼ一致する可能性があります。
結論として、私たちの GSQA モデルは、幅広い質問に一般化できる可能性を示しており、それによって抽象的 QA の音声による質問応答機能がさらに拡張されます。
コードは \href{https://voidful.github.io/GSQA}{https://voidful.github.io/GSQA} で入手できます。

要約(オリジナル)

In recent advancements in spoken question answering (QA), end-to-end models have made significant strides. However, previous research has primarily focused on extractive span selection. While this extractive-based approach is effective when answers are present directly within the input, it falls short in addressing abstractive questions, where answers are not directly extracted but inferred from the given information. To bridge this gap, we introduce the first end-to-end Generative Spoken Question Answering (GSQA) model that empowers the system to engage in abstractive reasoning. The challenge in training our GSQA model lies in the absence of a spoken abstractive QA dataset. We propose using text models for initialization and leveraging the extractive QA dataset to transfer knowledge from the text generative model to the spoken generative model. Experimental results indicate that our model surpasses the previous extractive model by 3% on extractive QA datasets. Furthermore, the GSQA model has only been fine-tuned on the spoken extractive QA dataset. Despite not having seen any spoken abstractive QA data, it can still closely match the performance of the cascade model. In conclusion, our GSQA model shows the potential to generalize to a broad spectrum of questions, thus further expanding spoken question answering capabilities of abstractive QA. Our code is available at \href{https://voidful.github.io/GSQA}{https://voidful.github.io/GSQA}

arxiv情報

著者 Min-Han Shih,Ho-Lam Chung,Yu-Chi Pai,Ming-Hao Hsu,Guan-Ting Lin,Shang-Wen Li,Hung-yi Lee
発行日 2023-12-15 13:33:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク