Know your audience: specializing grounded language models with listener subtraction

要約

タイトル: 聴衆差し引きによる特化したグラウンド言語モデル
要約:
– 有効なコミュニケーションには、各コミュニケーション文脈に合わせた適応が必要です。ヒトは、人気のあるゲーム「ディクシット」のような多くの文脈で、聴衆に合わせた特化能力を発揮しています。
– Dixitからインスピレーションを得た著者らは、訓練済みのリスナーモデルと異なる別のリスナーモデルにターゲットイメージを説明するように報酬を与える複数エージェント画像リファレンスゲームを提案しています。
– このゲームで報酬を得るために、スピーカーは、異なるリスナーと共有する知識の違いを利用する必要があります。報酬のみにより、注意ベースのアダプタを調整し、この対比的なマルチエージェント設定でCLIPビジョンエンコーダと大きな言語モデルの間にベースをフィントゥーニングすると、コンテキスト依存の自然な言語特化が生まれることを示します。
– 著者らは、制御実験を通じて、2つの聴衆に異なる知覚を持たせてスピーカーをトレーニングすることで、リスナーの個性に適応できるようになったことを示しています。さらに、本方法による特化の零ショット転送を実現し、グラウンド言語モデルの特化に関する興味深い研究課題を明らかにしました。

要約(オリジナル)

Effective communication requires adapting to the idiosyncrasies of each communicative context–such as the common ground shared with each partner. Humans demonstrate this ability to specialize to their audience in many contexts, such as the popular game Dixit. We take inspiration from Dixit to formulate a multi-agent image reference game where a (trained) speaker model is rewarded for describing a target image such that one (pretrained) listener model can correctly identify it among distractors, but another listener cannot. To adapt, the speaker must exploit differences in the knowledge it shares with the different listeners. We show that finetuning an attention-based adapter between a CLIP vision encoder and a large language model in this contrastive, multi-agent setting gives rise to context-dependent natural language specialization from rewards only, without direct supervision. Through controlled experiments, we show that training a speaker with two listeners that perceive differently, using our method, allows the speaker to adapt to the idiosyncracies of the listeners. Furthermore, we show zero-shot transfer of the specialization to real-world data. Our experiments demonstrate a method for specializing grounded language models without direct supervision and highlight the interesting research challenges posed by complex multi-agent communication.

arxiv情報

著者 Aaditya K. Singh,David Ding,Andrew Saxe,Felix Hill,Andrew K. Lampinen
発行日 2023-05-01 20:39:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク