Learning Bidirectional Action-Language Translation with Limited Supervision and Incongruent Input

要約

人間の乳幼児の学習は、環境の探索中に、オブジェクトとの相互作用によって、また何気なく発話を聞いて繰り返すことによって行われます。これは、教師なし学習に似ています。
学習中の乳児は、教師あり学習と同様に、自分が行っている行動について、一致する口頭での説明を受け取ることがあります。
このような学習メカニズムは、深層学習で模倣できます。
この弱教師付き学習パラダイムを、アクションと言語オートエンコーダーを組み合わせた Paired Gated Autoencoders (PGAE) モデルを使用してモデル化します。
教師ありトレーニングの割合を減らすとパフォーマンスが低下することを確認した後、Transformer ベースのクロスモーダル アテンションを使用して、Paired Transformed Autoencoders (PTAE) モデルを導入します。
PTAE は、言語から行動への翻訳、および行動から言語への翻訳において、特に教師付きトレーニング サンプルがほとんどない現実的ではあるが困難なケースで、大幅に高い精度を達成します。
また、トレーニング済みのモデルが競合するマルチモーダル入力で現実的に動作するかどうかもテストします。
心理学における不一致の概念によれば、対立はモデルの出力を低下させます。
競合するアクション入力は、競合する言語入力よりも深刻な影響を及ぼし、競合する機能が増えると干渉が大きくなります。
PTAE は、ラベル付けされたデータがほとんどないほとんどラベル付けされていないデータでトレーニングすることができ、一致しない入力でテストしたときにもっともらしい動作をします。

要約(オリジナル)

Human infant learning happens during exploration of the environment, by interaction with objects, and by listening to and repeating utterances casually, which is analogous to unsupervised learning. Only occasionally, a learning infant would receive a matching verbal description of an action it is committing, which is similar to supervised learning. Such a learning mechanism can be mimicked with deep learning. We model this weakly supervised learning paradigm using our Paired Gated Autoencoders (PGAE) model, which combines an action and a language autoencoder. After observing a performance drop when reducing the proportion of supervised training, we introduce the Paired Transformed Autoencoders (PTAE) model, using Transformer-based crossmodal attention. PTAE achieves significantly higher accuracy in language-to-action and action-to-language translations, particularly in realistic but difficult cases when only few supervised training samples are available. We also test whether the trained model behaves realistically with conflicting multimodal input. In accordance with the concept of incongruence in psychology, conflict deteriorates the model output. Conflicting action input has a more severe impact than conflicting language input, and more conflicting features lead to larger interference. PTAE can be trained on mostly unlabelled data where labeled data is scarce, and it behaves plausibly when tested with incongruent input.

arxiv情報

著者 Ozan Özdemir,Matthias Kerzel,Cornelius Weber,Jae Hee Lee,Muhammad Burhan Hafez,Patrick Bruns,Stefan Wermter
発行日 2023-02-22 15:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.NE, cs.RO パーマリンク