Selective imitation on the basis of reward function similarity

要約

模倣は人間の社会行動において重要な要素であり、不確実な状況や不慣れな状況を切り抜ける方法として、子供から大人まで広く用いられている。しかし、異なる目的や目標を持つ複数の異質な主体が存在する環境では、無差別な模倣は効果的な戦略とはなりにくいため、模倣者は誰が最も有用かを判断する必要がある。このような判断には、文脈や情報の利用可能性に応じて、多くの要因が関与していると考えられる。ここでは、このような判断には、他のエージェントの報酬関数に関する推論が関与しているという仮説を検討する。人は、自分と似た報酬機能を持つと思われる他者の行動を優先的に模倣することが示唆される。さらに、このような推論は、非常に疎なデータや間接的なデータに基づいて行うことができ、報酬機能が類似している人々の異なる「グループ」や「タイプ」の存在を仮定する帰納的バイアスを活用することで、学習者は一致の直接的な証拠がなくても模倣対象を選択することができると主張した。

要約(オリジナル)

Imitation is a key component of human social behavior, and is widely used by both children and adults as a way to navigate uncertain or unfamiliar situations. But in an environment populated by multiple heterogeneous agents pursuing different goals or objectives, indiscriminate imitation is unlikely to be an effective strategy — the imitator must instead determine who is most useful to copy. There are likely many factors that play into these judgements, depending on context and availability of information. Here we investigate the hypothesis that these decisions involve inferences about other agents’ reward functions. We suggest that people preferentially imitate the behavior of others they deem to have similar reward functions to their own. We further argue that these inferences can be made on the basis of very sparse or indirect data, by leveraging an inductive bias toward positing the existence of different \textit{groups} or \textit{types} of people with similar reward functions, allowing learners to select imitation targets without direct evidence of alignment.

arxiv情報

著者 Max Taylor-Davies,Stephanie Droop,Christopher G. Lucas
発行日 2023-05-12 12:40:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, q-bio.NC パーマリンク