要約
大規模なオーディオビデオ言語モデルは、ビデオとオーディオの両方の説明を生成できます。
ただし、音声コンテンツを無視して、視覚情報のみに依存して音声説明を作成する場合があります。
この論文ではこれを幻聴と呼び、大規模なオーディオビデオ言語モデルで分析します。
音声情報を尋ねて 1,000 文を収集し、幻覚が含まれているかどうかを注釈付けします。
文が幻覚を示している場合、幻覚の種類も分類します。
その結果、332 文が幻覚であり、幻覚の種類ごとに名詞と動詞に明確な傾向が観察されたことが明らかになりました。
これに基づいて、ゼロショットおよび微調整設定で事前トレーニングされた音声テキスト モデルを使用して、幻聴分類のタスクに取り組みます。
実験の結果、ゼロショット モデル (F1 では 52.2%) がランダム (40.3%) よりも高いパフォーマンスを達成し、微調整モデルは 87.9% を達成し、ゼロショット モデルを上回るパフォーマンスを達成したことが明らかになりました。
要約(オリジナル)
Large audio-video language models can generate descriptions for both video and audio. However, they sometimes ignore audio content, producing audio descriptions solely reliant on visual information. This paper refers to this as audio hallucinations and analyzes them in large audio-video language models. We gather 1,000 sentences by inquiring about audio information and annotate them whether they contain hallucinations. If a sentence is hallucinated, we also categorize the type of hallucination. The results reveal that 332 sentences are hallucinated with distinct trends observed in nouns and verbs for each hallucination type. Based on this, we tackle a task of audio hallucination classification using pre-trained audio-text models in the zero-shot and fine-tuning settings. Our experimental results reveal that the zero-shot models achieve higher performance (52.2% in F1) than the random (40.3%) and the fine-tuning models achieve 87.9%, outperforming the zero-shot models.
arxiv情報
著者 | Taichi Nishimura,Shota Nakada,Masayoshi Kondo |
発行日 | 2024-01-18 07:50:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google