Grounded Language Acquisition From Object and Action Imagery

要約

自然言語処理に対するディープラーニングのアプローチは、近年大きく進歩しました。
これらのモデルは膨大な量の多様な知識を伝えるシンボルを生成しますが、そのようなシンボルが世界のデータにどのように基づいているのかは不明です。
この論文では、i) 従来の参照ゲーム環境と ii) クラス内マッチング トレーニング パラダイムを利用した対照的な学習環境の両方で創発言語 (EL) エンコーダ/デコーダをトレーニングすることにより、視覚データ表現のためのプライベート言語の開発を検討します。

ニューラル機械翻訳とランダム フォレスト分類を利用した追加の分類層を使用して、シンボル表現 (整数シンボルのシーケンス) をクラス ラベルに変換しました。
これらの方法は、物体認識と動作認識に焦点を当てた 2 つの実験に適用されました。
オブジェクト認識には、実際の画像から人間の参加者が作成した一連のスケッチが使用され (Sketchy データセット)、アクション認識には、3D モーション キャプチャ システムから 2D 軌跡が生成されました (MOVI データセット)。
各実験のデータに対して生成されたシンボルを解釈するために、勾配重み付けクラス アクティベーション マッピング (Grad-CAM) 手法を使用して、学習した言語のシンボルに対する証拠に寄与する意味論的特徴を示すピクセル領域を特定しました。
さらに、t 分布確率的近傍埋め込み (t-SNE) 法を使用して、CNN 特徴抽出器によって学習された埋め込みを調査しました。

要約(オリジナル)

Deep learning approaches to natural language processing have made great strides in recent years. While these models produce symbols that convey vast amounts of diverse knowledge, it is unclear how such symbols are grounded in data from the world. In this paper, we explore the development of a private language for visual data representation by training emergent language (EL) encoders/decoders in both i) a traditional referential game environment and ii) a contrastive learning environment utilizing a within-class matching training paradigm. An additional classification layer utilizing neural machine translation and random forest classification was used to transform symbolic representations (sequences of integer symbols) to class labels. These methods were applied in two experiments focusing on object recognition and action recognition. For object recognition, a set of sketches produced by human participants from real imagery was used (Sketchy dataset) and for action recognition, 2D trajectories were generated from 3D motion capture systems (MOVI dataset). In order to interpret the symbols produced for data in each experiment, gradient-weighted class activation mapping (Grad-CAM) methods were used to identify pixel regions indicating semantic features which contribute evidence towards symbols in learned languages. Additionally, a t-distributed stochastic neighbor embedding (t-SNE) method was used to investigate embeddings learned by CNN feature extractors.

arxiv情報

著者 James Robert Kubricht,Zhaoyuan Yang,Jianwei Qiu,Peter Henry Tu
発行日 2023-09-12 15:52:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク