Contrastive Multimodal Learning for Emergence of Graphical Sensory-Motor Communication

要約

この論文では、人工エージェントが、コミュニケーションが感覚運動チャネルに依存する生態学的設定で共有言語を開発できるかどうかを調査します。
この目的のために、スピーカーが視覚的な指示対象に名前を付けるためにグラフィカルな発話を生成する必要があるグラフィック参照ゲーム (GREG) を導入します。一方、リスナーは、配信されたメッセージを考慮して、ディストラクターの指示対象の中から対応するオブジェクトを選択する必要があります。
発話は、スケッチ ライブラリと組み合わせた動的モーター プリミティブを使用して生成された描画イメージです。
GREG に取り組むために、私たちは CURVES を提示します。これは、名前付き参照対象と、学習されたエネルギー ランドスケープの勾配上昇によって生成された発話との間のエネルギー (アライメント) を表すマルチモーダルな対照的なディープ ラーニング メカニズムです。
CURVES が GREG の解決に成功するだけでなく、エージェントが、トレーニング中に見られなかった機能構成に一般化する言語を自己組織化できるようにすることを実証します。
私たちのアプローチのコミュニケーション パフォーマンスを評価することに加えて、新しい言語の構造も調べます。
具体的には、結果として得られる言語がエージェント間で共有される首尾一貫した辞書を形成し、グラフィック プロダクションに関する基本的な構成規則では構成の一般化を説明できないことを示します。

要約(オリジナル)

In this paper, we investigate whether artificial agents can develop a shared language in an ecological setting where communication relies on a sensory-motor channel. To this end, we introduce the Graphical Referential Game (GREG) where a speaker must produce a graphical utterance to name a visual referent object while a listener has to select the corresponding object among distractor referents, given the delivered message. The utterances are drawing images produced using dynamical motor primitives combined with a sketching library. To tackle GREG we present CURVES: a multimodal contrastive deep learning mechanism that represents the energy (alignment) between named referents and utterances generated through gradient ascent on the learned energy landscape. We demonstrate that CURVES not only succeeds at solving the GREG but also enables agents to self-organize a language that generalizes to feature compositions never seen during training. In addition to evaluating the communication performance of our approach, we also explore the structure of the emerging language. Specifically, we show that the resulting language forms a coherent lexicon shared between agents and that basic compositional rules on the graphical productions could not explain the compositional generalization.

arxiv情報

著者 Tristan Karch,Yoann Lemesle,Romain Laroche,Clément Moulin-Frier,Pierre-Yves Oudeyer
発行日 2023-02-14 12:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク