AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension

要約

最近、指示に従う音声言語モデルが、人間と音声のインタラクションとして広く注目を集めています。
ただし、オーディオ中心のインタラクション機能を評価できるベンチマークがないため、この分野の進歩は妨げられています。
以前のモデルは主に、自動音声認識 (ASR) などのさまざまな基本的なタスクの評価に焦点を当てており、音声を中心とした無制限の生成機能の評価が欠けていました。
したがって、大規模音声言語モデル (LALM) ドメインの進歩を追跡し、将来の改善のためのガイダンスを提供することは困難です。
このペーパーでは、LALM のさまざまなタイプを理解する能力を評価するために設計された最初のベンチマークである AIR-Bench (\textbf{A}udio \textbf{I}nst\textbf{R}uction \textbf{Bench}mark) を紹介します。
オーディオ信号 (人間の音声、自然音、音楽を含む) を理解し、さらにテキスト形式で人間と対話することもできます。
AIR-Bench には、\textit{foundation} ベンチマークと \textit{chat} ベンチマークの 2 つの側面が含まれます。
前者は、LALM の基本的な単一タスク能力を検査することを目的として、約 19,000 個の単一選択の質問を含む 19 のタスクで構成されています。
後者には、自由形式の質問と回答のデータの 2,000 個のインスタンスが含まれており、複雑な音声に関するモデルの理解力と指示に従う能力を直接評価します。
どちらのベンチマークでも、モデルが仮説を直接生成する必要があります。
GPT-4 などの高度な言語モデルを活用して、音声のメタ情報を考慮して生成された仮説のスコアを評価する統合フレームワークを設計します。
実験結果は、GPT-4 ベースの評価と人間による評価との間の高い一貫性を示しています。
AIR-Bench は、評価結果を通じて既存の LALM の限界を明らかにすることで、将来の研究の方向性についての洞察を提供します。

要約(オリジナル)

Recently, instruction-following audio-language models have received broad attention for human-audio interaction. However, the absence of benchmarks capable of evaluating audio-centric interaction capabilities has impeded advancements in this field. Previous models primarily focus on assessing different fundamental tasks, such as Automatic Speech Recognition (ASR), and lack an assessment of the open-ended generative capabilities centered around audio. Thus, it is challenging to track the progression in the Large Audio-Language Models (LALMs) domain and to provide guidance for future improvement. In this paper, we introduce AIR-Bench (\textbf{A}udio \textbf{I}nst\textbf{R}uction \textbf{Bench}mark), the first benchmark designed to evaluate the ability of LALMs to understand various types of audio signals (including human speech, natural sounds, and music), and furthermore, to interact with humans in the textual format. AIR-Bench encompasses two dimensions: \textit{foundation} and \textit{chat} benchmarks. The former consists of 19 tasks with approximately 19k single-choice questions, intending to inspect the basic single-task ability of LALMs. The latter one contains 2k instances of open-ended question-and-answer data, directly assessing the comprehension of the model on complex audio and its capacity to follow instructions. Both benchmarks require the model to generate hypotheses directly. We design a unified framework that leverages advanced language models, such as GPT-4, to evaluate the scores of generated hypotheses given the meta-information of the audio. Experimental results demonstrate a high level of consistency between GPT-4-based evaluation and human evaluation. By revealing the limitations of existing LALMs through evaluation results, AIR-Bench can provide insights into the direction of future research.

arxiv情報

著者 Qian Yang,Jin Xu,Wenrui Liu,Yunfei Chu,Ziyue Jiang,Xiaohuan Zhou,Yichong Leng,Yuanjun Lv,Zhou Zhao,Chang Zhou,Jingren Zhou
発行日 2024-02-12 15:41:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク