要約
特に音声を含むマルチモーダル認知状態タスクでは、OMNI-LLMS(入力としてモダリティを受け入れる大規模な言語モデル)の使用は研究されていません。
ゼロショット感情認識タスクに関する4つのオムニルスの最初の系統的評価であるOmnivoxを提示します。
広く使用されている2つのマルチモーダル感情ベンチマークで評価され、IEMOCAPとMELDを使用して、ゼロショットOMNI-LLMのアウトパフォームを見つけるか、微調整されたオーディオモデルと競合します。
オーディオのみの評価に加えて、テキストのみとテキストとオーディオのOMNI-LLMを評価します。
音響機能分析、会話のコンテキスト分析、段階的な推論に焦点を当てたOMNI-LLMSのオーディオ固有のプロンプト戦略であるアコースティックプロンプトを提示します。
音響プロンプトを最小限のプロンプトと完全なチェーンプロンプトテクニックと比較します。
IEMOCAPとMELDのコンテキストウィンドウ分析を実行し、特にIEMOCAPでコンテキストを使用するのに役立つことがわかります。
OMNI-LLMSからの生成された音響推論出力に関するエラー分析で結論を出します。
要約(オリジナル)
The use of omni-LLMs (large language models that accept any modality as input), particularly for multimodal cognitive state tasks involving speech, is understudied. We present OmniVox, the first systematic evaluation of four omni-LLMs on the zero-shot emotion recognition task. We evaluate on two widely used multimodal emotion benchmarks: IEMOCAP and MELD, and find zero-shot omni-LLMs outperform or are competitive with fine-tuned audio models. Alongside our audio-only evaluation, we also evaluate omni-LLMs on text only and text and audio. We present acoustic prompting, an audio-specific prompting strategy for omni-LLMs which focuses on acoustic feature analysis, conversation context analysis, and step-by-step reasoning. We compare our acoustic prompting to minimal prompting and full chain-of-thought prompting techniques. We perform a context window analysis on IEMOCAP and MELD, and find that using context helps, especially on IEMOCAP. We conclude with an error analysis on the generated acoustic reasoning outputs from the omni-LLMs.
arxiv情報
著者 | John Murzaku,Owen Rambow |
発行日 | 2025-03-28 12:34:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google