SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems

要約

人間のコミュニケーションは複雑かつ多様なプロセスであり、言語、常識、文化的背景などの複数の要素が関与するだけでなく、音声などの多様な情報の参加も必要とします。
大規模言語モデル (LLM) ベースのマルチエージェント システムは、人間社会のシミュレーションにおいて有望なパフォーマンスを実証しています。
LLM ベースのマルチエージェント システムを活用して人間のコミュニケーションをシミュレートできますか?
ただし、現在の LLM ベースのマルチエージェント システムは、主に主要なメディアとしてテキストに依存しています。
この論文では、人間のコミュニケーションをシミュレートするために設計されたマルチモーダル LLM ベースのマルチエージェント システムである SpeechAgents を提案します。
SpeechAgents は、個々のエージェントのコントロール センターとしてマルチモーダル LLM を利用し、エージェント間でメッセージを交換するための媒体としてマルチモーダル信号を使用します。
さらに、一般的な機能を損なうことなく LLM のマルチエージェント機能を強化するマルチエージェント チューニングを提案します。
ヒューマン コミュニケーション シミュレーションの有効性を強化および評価するために、私たちはヒューマン コミュニケーション シミュレーション ベンチマークを構築します。
実験結果は、SpeechAgents が一貫した内容、本物のリズム、豊かな感情を備えた人間のコミュニケーション対話をシミュレートでき、最大 25 人のエージェントでも優れた拡張性を示し、ドラマ作成やオーディオ ノベル生成などのタスクに適用できることを示しています。
コードとモデルは https://github でオープンソース化されます。
com/0nutation/SpeechAgents

要約(オリジナル)

Human communication is a complex and diverse process that not only involves multiple factors such as language, commonsense, and cultural backgrounds but also requires the participation of multimodal information, such as speech. Large Language Model (LLM)-based multi-agent systems have demonstrated promising performance in simulating human society. Can we leverage LLM-based multi-agent systems to simulate human communication? However, current LLM-based multi-agent systems mainly rely on text as the primary medium. In this paper, we propose SpeechAgents, a multi-modal LLM based multi-agent system designed for simulating human communication. SpeechAgents utilizes multi-modal LLM as the control center for individual agent and employes multi-modal signals as the medium for exchanged messages among agents. Additionally, we propose Multi-Agent Tuning to enhance the multi-agent capabilities of LLM without compromising general abilities. To strengthen and evaluate the effectiveness of human communication simulation, we build the Human-Communication Simulation Benchmark. Experimental results demonstrate that SpeechAgents can simulate human communication dialogues with consistent content, authentic rhythm, and rich emotions and demonstrate excellent scalability even with up to 25 agents, which can apply to tasks such as drama creation and audio novels generation. Code and models will be open-sourced at https://github. com/0nutation/SpeechAgents

arxiv情報

著者 Dong Zhang,Zhaowei Li,Pengyu Wang,Xin Zhang,Yaqian Zhou,Xipeng Qiu
発行日 2024-01-08 15:01:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク