要約
人間の言語のユーザーは、インスタンス レベルの表現を超えた知覚概念の記述を生成し、そのような記述を使用して暫定的なクラス レベルの表現を学習することもできます。
ただし、クラス表現を学習して操作する計算モデルの能力は、言語と視覚の分野では十分に調査されていません。
このホワイト ペーパーでは、個別のニューラル ネットワークをトレーニングして、クラス レベルの記述を生成および解釈します。
次に、解釈モデルのゼロショット分類パフォーマンスを、コミュニケーションの成功とクラスレベルの概念的根拠の尺度として使用します。
プロトタイプおよび模範ベースのニューラル表現に基づいたカテゴリ記述のパフォーマンスを調査します。
最後に、コミュニケーションの成功は、従来の固有の NLG 評価指標では捉えられない生成モデルのパフォーマンスの問題を明らかにすることを示し、これらの問題は、クラス レベルでビジョンの適切な言語の接地に失敗したことに起因する可能性があると主張します。
解釈モデルは、クラス レベルでの多様性が低い記述でパフォーマンスが向上することがわかります。これは、頻繁に発生する機能に強く依存している可能性があることを示しています。
要約(オリジナル)
Human language users can generate descriptions of perceptual concepts beyond instance-level representations and also use such descriptions to learn provisional class-level representations. However, the ability of computational models to learn and operate with class representations is under-investigated in the language-and-vision field. In this paper, we train separate neural networks to generate and interpret class-level descriptions. We then use the zero-shot classification performance of the interpretation model as a measure of communicative success and class-level conceptual grounding. We investigate the performance of prototype- and exemplar-based neural representations grounded category description. Finally, we show that communicative success reveals performance issues in the generation model that are not captured by traditional intrinsic NLG evaluation metrics, and argue that these issues can be traced to a failure to properly ground language in vision at the class level. We observe that the interpretation model performs better with descriptions that are low in diversity on the class level, possibly indicating a strong reliance on frequently occurring features.
arxiv情報
著者 | Bill Noble,Nikolai Ilinykh |
発行日 | 2023-03-07 17:01:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google