Mindstorms in Natural Language-Based Societies of Mind


ミンスキーの「心の社会」とシュミットフーバーの「思考の学習」はどちらも、「マインドストーム」の中で互いにインタビューすることで問題を解決する、大規模なマルチモーダル ニューラル ネットワーク (NN) の多様な社会を刺激します。
NN ベースの心の社会の最近の実装は、大規模言語モデル (LLM) と、自然言語インターフェイスを介して通信する他の NN ベースの専門家で構成されています。
そうすることで、単一 LLM の制限を克服し、マルチモーダルなゼロショット推論を改善します。
これらの自然言語ベースの心の社会 (NLSOM) では、新しいエージェントはすべて同じ普遍的な記号言語を通じて通信しますが、モジュール形式で簡単に追加できます。
NLSOM の能力を実証するために、NLSOM のいくつか (最大 129 メンバー) を組み立てて実験し、その中でマインドストームを活用して、視覚的な質問応答、画像キャプション、テキストと画像の合成、3D 生成などの実用的な AI タスクを解決します。
、自己中心的な検索、身体化された AI、および一般的な言語ベースのタスク解決。
私たちはこれを、数十億のエージェント (そのうちの一部は人間である可能性があります) を含む、より大規模な NLSOM に向けた出発点と見ています。
NLSOM の社会構造はどのようなものであるべきでしょうか?
強化学習 NLSOM の総報酬を最大化するために、NN 経済の原則をどのように使用できるでしょうか?


Both Minsky’s ‘society of mind’ and Schmidhuber’s ‘learning to think’ inspire diverse societies of large multimodal neural networks (NNs) that solve problems by interviewing each other in a ‘mindstorm.’ Recent implementations of NN-based societies of minds consist of large language models (LLMs) and other NN-based experts communicating through a natural language interface. In doing so, they overcome the limitations of single LLMs, improving multimodal zero-shot reasoning. In these natural language-based societies of mind (NLSOMs), new agents — all communicating through the same universal symbolic language — are easily added in a modular fashion. To demonstrate the power of NLSOMs, we assemble and experiment with several of them (having up to 129 members), leveraging mindstorms in them to solve some practical AI tasks: visual question answering, image captioning, text-to-image synthesis, 3D generation, egocentric retrieval, embodied AI, and general language-based task solving. We view this as a starting point towards much larger NLSOMs with billions of agents-some of which may be humans. And with this emergence of great societies of heterogeneous minds, many new research questions have suddenly become paramount to the future of artificial intelligence. What should be the social structure of an NLSOM? What would be the (dis)advantages of having a monarchical rather than a democratic structure? How can principles of NN economies be used to maximize the total reward of a reinforcement learning NLSOM? In this work, we identify, discuss, and try to answer some of these questions.


著者 Mingchen Zhuge,Haozhe Liu,Francesco Faccio,Dylan R. Ashley,Róbert Csordás,Anand Gopalakrishnan,Abdullah Hamdi,Hasan Abed Al Kader Hammoud,Vincent Herrmann,Kazuki Irie,Louis Kirsch,Bing Li,Guohao Li,Shuming Liu,Jinjie Mai,Piotr Piękos,Aditya Ramesh,Imanol Schlag,Weimin Shi,Aleksandar Stanić,Wenyi Wang,Yuhui Wang,Mengmeng Xu,Deng-Ping Fan,Bernard Ghanem,Jürgen Schmidhuber
発行日 2023-05-26 16:21:25+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: 68T07, cs.AI, cs.CL, cs.CV, cs.LG, cs.MA, I.2.11 パーマリンク