要約
ミンスキーの「心の社会」とシュミットフーバーの「思考の学習」はどちらも、「マインドストーム」の中で互いにインタビューすることで問題を解決する、大規模なマルチモーダル ニューラル ネットワーク (NN) の多様な社会を刺激します。
NN ベースの心の社会の最近の実装は、大規模言語モデル (LLM) と、自然言語インターフェイスを介して通信する他の NN ベースの専門家で構成されています。
そうすることで、単一 LLM の制限を克服し、マルチモーダルなゼロショット推論を改善します。
これらの自然言語ベースの心の社会 (NLSOM) では、新しいエージェントはすべて同じ普遍的な記号言語を通じて通信しますが、モジュール形式で簡単に追加できます。
NLSOM の能力を実証するために、NLSOM のいくつか (最大 129 メンバー) を組み立てて実験し、その中でマインドストームを活用して、視覚的な質問応答、画像キャプション、テキストと画像の合成、3D 生成などの実用的な AI タスクを解決します。
、自己中心的な検索、身体化された AI、および一般的な言語ベースのタスク解決。
私たちはこれを、数十億のエージェント (そのうちの一部は人間である可能性があります) を含む、より大規模な NLSOM に向けた出発点と見ています。
そして、この異質な精神から成る偉大な社会の出現により、多くの新しい研究課題が突然、人工知能の将来にとって最優先事項となっています。
NLSOM の社会構造はどのようなものであるべきでしょうか?
民主主義ではなく君主制の構造を持つことの利点(欠点)は何でしょうか?
強化学習 NLSOM の総報酬を最大化するために、NN 経済の原則をどのように使用できるでしょうか?
この研究では、これらの質問のいくつかを特定し、議論し、答えを試みます。
要約(オリジナル)
Both Minsky’s ‘society of mind’ and Schmidhuber’s ‘learning to think’ inspire diverse societies of large multimodal neural networks (NNs) that solve problems by interviewing each other in a ‘mindstorm.’ Recent implementations of NN-based societies of minds consist of large language models (LLMs) and other NN-based experts communicating through a natural language interface. In doing so, they overcome the limitations of single LLMs, improving multimodal zero-shot reasoning. In these natural language-based societies of mind (NLSOMs), new agents — all communicating through the same universal symbolic language — are easily added in a modular fashion. To demonstrate the power of NLSOMs, we assemble and experiment with several of them (having up to 129 members), leveraging mindstorms in them to solve some practical AI tasks: visual question answering, image captioning, text-to-image synthesis, 3D generation, egocentric retrieval, embodied AI, and general language-based task solving. We view this as a starting point towards much larger NLSOMs with billions of agents-some of which may be humans. And with this emergence of great societies of heterogeneous minds, many new research questions have suddenly become paramount to the future of artificial intelligence. What should be the social structure of an NLSOM? What would be the (dis)advantages of having a monarchical rather than a democratic structure? How can principles of NN economies be used to maximize the total reward of a reinforcement learning NLSOM? In this work, we identify, discuss, and try to answer some of these questions.
arxiv情報
著者 | Mingchen Zhuge,Haozhe Liu,Francesco Faccio,Dylan R. Ashley,Róbert Csordás,Anand Gopalakrishnan,Abdullah Hamdi,Hasan Abed Al Kader Hammoud,Vincent Herrmann,Kazuki Irie,Louis Kirsch,Bing Li,Guohao Li,Shuming Liu,Jinjie Mai,Piotr Piękos,Aditya Ramesh,Imanol Schlag,Weimin Shi,Aleksandar Stanić,Wenyi Wang,Yuhui Wang,Mengmeng Xu,Deng-Ping Fan,Bernard Ghanem,Jürgen Schmidhuber |
発行日 | 2023-05-26 16:21:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google