要約
この研究では、言語モデルが物体の音の意味のある根拠に基づいた表現をエンコードしているかどうかを調査します。
オブジェクトに関連する音声の断片が与えられると、そのオブジェクトの正しいテキスト表現を取得する線形プローブを学習します。音声表現は事前トレーニングされた音声モデルによって与えられます。
このプローブは、オブジェクトの言語表現と音声表現を互いに近づける対照的な損失を介してトレーニングされます。
トレーニング後、プローブは、トレーニング中に見られなかったオブジェクトを一般化する能力についてテストされます。
さまざまな言語モデルと音声モデルにわたって、多くの場合、プローブの一般化が偶然を超えていることがわかり、これは、生のテキストのみでトレーニングされているにもかかわらず、言語モデルが一部のオブジェクトの音に関する根拠のある知識をエンコードしていることを示しています。
要約(オリジナル)
This work explores whether language models encode meaningfully grounded representations of sounds of objects. We learn a linear probe that retrieves the correct text representation of an object given a snippet of audio related to that object, where the sound representation is given by a pretrained audio model. This probe is trained via a contrastive loss that pushes the language representations and sound representations of an object to be close to one another. After training, the probe is tested on its ability to generalize to objects that were not seen during training. Across different language models and audio models, we find that the probe generalization is above chance in many cases, indicating that despite being trained only on raw text, language models encode grounded knowledge of sounds for some objects.
arxiv情報
著者 | Jerry Ngo,Yoon Kim |
発行日 | 2024-08-16 08:13:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google