LLaSM: Large Language and Speech Model

要約

マルチモーダル大規模言語モデルは、最近大きな関心を集めています。
ただし、ほとんどの研究は、視覚と言語の指示に従う強力な機能を提供する視覚言語マルチモーダル モデルに焦点を当てています。
しかし、私たちは、音声は人間が世界と対話するための重要な手段でもあると主張します。
したがって、汎用アシスタントにとって、マルチモーダルな音声および言語の指示に従うことができることが重要です。
この研究では、大規模言語音声モデル (LLaSM) を提案します。
LLaSM は、クロスモーダル会話機能を備え、音声と言語の指示に従うことができる、エンドツーエンドで訓練された大規模なマルチモーダル音声言語モデルです。
私たちの初期の実験では、LLaSM が人間にとって人工知能と対話するためのより便利で自然な方法を実証していることが示されました。
具体的には、大規模な音声命令フォロー データセット LLaSM-Audio-命令 もリリースします。
コードとデモは https://github.com/LinkSoul-AI/LLaSM および https://huggingface.co/spaces/LinkSoul/LLaSM で入手できます。
LLaSM-Audio-Instructions データセットは、https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-structs で入手できます。

要約(オリジナル)

Multi-modal large language models have garnered significant interest recently. Though, most of the works focus on vision-language multi-modal models providing strong capabilities in following vision-and-language instructions. However, we claim that speech is also an important modality through which humans interact with the world. Hence, it is crucial for a general-purpose assistant to be able to follow multi-modal speech-and-language instructions. In this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an end-to-end trained large multi-modal speech-language model with cross-modal conversational abilities, capable of following speech-and-language instructions. Our early experiments show that LLaSM demonstrates a more convenient and natural way for humans to interact with artificial intelligence. Specifically, we also release a large Speech Instruction Following dataset LLaSM-Audio-Instructions. Code and demo are available at https://github.com/LinkSoul-AI/LLaSM and https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions dataset is available at https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.

arxiv情報

著者 Yu Shu,Siwei Dong,Guangyao Chen,Wenhao Huang,Ruihua Zhang,Daochen Shi,Qiqi Xiang,Yemin Shi
発行日 2023-09-12 03:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク