要約
大規模な事前に訓練された画像処理ニューラルネットワークが自動運転車やロボットなどの自律剤に埋め込まれているため、さまざまな建築とトレーニング体制にもかかわらず、そのようなシステムが周囲の世界について互いに通信する方法について疑問が生じます。
この方向への最初のステップとして、私たちは、異質な最先端の事前訓練を受けた視覚ネットワークのコミュニティでの参照コミュニケーションのタスクを体系的に探求し、自己監視された方法で共有プロトコルを開発できることを示しています
一連の候補者の間のターゲットオブジェクトを参照します。
この共有プロトコルは、以前に見えなかったオブジェクトカテゴリの異なる粒度性について通信するために、ある程度使用することもできます。
さらに、当初既存のコミュニティの一部ではなかった視覚的なネットワークは、コミュニティのプロトコルを驚くほど簡単に学ぶことができます。
最後に、定性的および定量的に、緊急プロトコルの特性の両方を研究し、オブジェクトの高レベルのセマンティック機能をキャプチャしているという証拠を提供します。
要約(オリジナル)
As large pre-trained image-processing neural networks are being embedded in autonomous agents such as self-driving cars or robots, the question arises of how such systems can communicate with each other about the surrounding world, despite their different architectures and training regimes. As a first step in this direction, we systematically explore the task of referential communication in a community of heterogeneous state-of-the-art pre-trained visual networks, showing that they can develop, in a self-supervised way, a shared protocol to refer to a target object among a set of candidates. This shared protocol can also be used, to some extent, to communicate about previously unseen object categories of different granularity. Moreover, a visual network that was not initially part of an existing community can learn the community’s protocol with remarkable ease. Finally, we study, both qualitatively and quantitatively, the properties of the emergent protocol, providing some evidence that it is capturing high-level semantic features of objects.
arxiv情報
著者 | Matéo Mahaut,Francesca Franzon,Roberto Dessì,Marco Baroni |
発行日 | 2025-01-31 16:43:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google