要約
Large Audio-Language Model (LALM) にはクロックなしの音声対話機能があり、音声対話は LALM と人間の間で音声言語を直接交換します。
GPT-4o などの最近の進歩により、LALM と人間との音声対話が可能になりました。
この進歩は、LALM の可能性を強調するだけでなく、音声対話によってサポートされる幅広い実践的なシナリオにわたって LALM の適用可能性を広げます。
ただし、これらの進歩を考慮すると、オープンエンドの音声対話の理解における LALM のパフォーマンスを評価するための包括的なベンチマークは、現時点ではまだ存在していません。
このギャップに対処するために、4 つのベンチマーク データセットで構成される Audio Dialogue Understanding Benchmark (ADU-Bench) を提案します。
彼らは、3 つの一般的なシナリオ、12 のスキル、9 つの多言語言語、および曖昧さ処理の 4 つのカテゴリで、LALM の自由形式の音声対話能力を評価します。
特に、我々は最初に、文章の同じ文字通りの意味を超えた異なる意図を表現する音声対話における曖昧さの処理の評価を提案します。
さまざまなイントネーションで。
要約すると、ADU-Bench には、LALM を評価するための 20,000 を超える自由形式の音声対話が含まれています。
13 の LALM で行われた広範な実験を通じて、私たちの分析により、既存の LALM の音声対話理解能力にはまだかなりの改善の余地があることが明らかになりました。
特に、数学記号や数式、ロールプレイなどの人間の行動の理解、複数の言語の理解、イントネーション、休止位置、同音異義語などのさまざまな音声要素による音声対話の曖昧さの処理に苦労しています。
要約(オリジナル)
Large Audio-Language Models (LALMs) have unclocked audio dialogue capabilities, where audio dialogues are a direct exchange of spoken language between LALMs and humans. Recent advances, such as GPT-4o, have enabled LALMs in back-and-forth audio dialogues with humans. This progression not only underscores the potential of LALMs but also broadens their applicability across a wide range of practical scenarios supported by audio dialogues. However, given these advancements, a comprehensive benchmark to evaluate the performance of LALMs in the open-ended audio dialogue understanding remains absent currently. To address this gap, we propose an Audio Dialogue Understanding Benchmark (ADU-Bench), which consists of 4 benchmark datasets. They assess the open-ended audio dialogue ability for LALMs in 3 general scenarios, 12 skills, 9 multilingual languages, and 4 categories of ambiguity handling. Notably, we firstly propose the evaluation of ambiguity handling in audio dialogues that expresses different intentions beyond the same literal meaning of sentences, e.g., ‘Really!?’ with different intonations. In summary, ADU-Bench includes over 20,000 open-ended audio dialogues for the assessment of LALMs. Through extensive experiments conducted on 13 LALMs, our analysis reveals that there is still considerable room for improvement in the audio dialogue understanding abilities of existing LALMs. In particular, they struggle with mathematical symbols and formulas, understanding human behavior such as roleplay, comprehending multiple languages, and handling audio dialogue ambiguities from different phonetic elements, such as intonations, pause positions, and homophones.
arxiv情報
著者 | Kuofeng Gao,Shu-Tao Xia,Ke Xu,Philip Torr,Jindong Gu |
発行日 | 2024-12-06 16:34:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google