AudioBERT: Audio Knowledge Augmented Language Model

要約

最近の研究では、テキストのみのデータセットで事前トレーニングされた言語モデルには、日常の物の色などの初歩的な視覚知識が欠けていることが多いことが判明しました。
この観察に動機付けられて、私たちは \textit{聴覚} 知識の観点から同様の欠点が存在するかどうかを尋ねます。
この質問に答えるために、AuditoryBench と呼ばれる新しいデータセットを構築します。これは、聴覚知識を評価するための 2 つの新しいタスクで構成されます。
ベンチマークを使用した分析に基づいて、言語モデルも聴覚知識の深刻な欠如に悩まされていることがわかりました。
この制限に対処するために、検索ベースのアプローチを通じて BERT の聴覚知識を強化する新しい方法である AudioBERT を提案します。
まず、プロンプト内の聴覚知識範囲を検出して、検索モデルを効率的にクエリします。
次に、音声知識を BERT に注入し、音声知識が必要な場合に効果的な適応を行うために低ランク適応をオンにします。
私たちの実験では、AudioBERT が非常に効果的で、AuditoryBench で優れたパフォーマンスを達成していることが実証されました。
データセットとコードは \bulurl{https://github.com/HJ-Ok/AudioBERT} で入手できます。

要約(オリジナル)

Recent studies have identified that language models, pretrained on text-only datasets, often lack elementary visual knowledge, \textit{e.g.,} colors of everyday objects. Motivated by this observation, we ask whether a similar shortcoming exists in terms of the \textit{auditory} knowledge. To answer this question, we construct a new dataset called AuditoryBench, which consists of two novel tasks for evaluating auditory knowledge. Based on our analysis using the benchmark, we find that language models also suffer from a severe lack of auditory knowledge. To address this limitation, we propose AudioBERT, a novel method to augment the auditory knowledge of BERT through a retrieval-based approach. First, we detect auditory knowledge spans in prompts to query our retrieval model efficiently. Then, we inject audio knowledge into BERT and switch on low-rank adaptation for effective adaptation when audio knowledge is required. Our experiments demonstrate that AudioBERT is quite effective, achieving superior performance on the AuditoryBench. The dataset and code are available at \bulurl{https://github.com/HJ-Ok/AudioBERT}.

arxiv情報

著者 Hyunjong Ok,Suho Yoo,Jaeho Lee
発行日 2024-09-12 16:36:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク