要約
視覚言語モデル、大規模言語モデル (LLM)、拡散モデル、視覚言語行動 (VLA) モデルなどの大規模な事前トレーニング済み基礎モデル (PFM) に基づく生成人工知能 (AI) システムは、問題を解決する能力を実証しています。
さまざまな領域や状況における、複雑かつ真に自明ではない AI の問題。
特に、マルチモーダル大規模言語モデル (MLLM) は、膨大で多様なデータ ソースから学習し、世界の豊かで微妙な表現を可能にし、それによって推論能力や意味のある対話能力などの広範な機能を提供します。
人間や他のエージェントと協力して複雑な問題を共同で解決します。
人間の社会的および感情的な側面を理解します。
この素晴らしい偉業にもかかわらず、大規模なデータセットでトレーニングされた最先端の LLM の認知能力はまだ表面的で脆弱です。
その結果、汎用 LLM のジェネラリスト機能は大幅に制限されます。
LLMが人間レベルの一般知能を獲得するには、具現化、シンボルグラウンディング、因果関係、記憶といった多くの基本的な問題に対処する必要がある。
これらの概念は人間の認知とより一致しており、物理的に妥当で、意味的に意味があり、柔軟でより一般化可能な知識と知性の実現をサポートする、人間に似た固有の認知特性を LLM に提供します。
この研究では、前述の基本的な問題について説明し、LLM でこれらの概念を実装するための最先端のアプローチを調査します。
具体的には、具体化、シンボルグラウンディング、因果関係、記憶の原則を、有機的な方法で汎用人工知能 (AGI) の達成に向けてどのように活用できるかについて説明します。
要約(オリジナル)
Generative artificial intelligence (AI) systems based on large-scale pretrained foundation models (PFMs) such as vision-language models, large language models (LLMs), diffusion models and vision-language-action (VLA) models have demonstrated the ability to solve complex and truly non-trivial AI problems in a wide variety of domains and contexts. Multimodal large language models (MLLMs), in particular, learn from vast and diverse data sources, allowing rich and nuanced representations of the world and, thereby, providing extensive capabilities, including the ability to reason, engage in meaningful dialog; collaborate with humans and other agents to jointly solve complex problems; and understand social and emotional aspects of humans. Despite this impressive feat, the cognitive abilities of state-of-the-art LLMs trained on large-scale datasets are still superficial and brittle. Consequently, generic LLMs are severely limited in their generalist capabilities. A number of foundational problems — embodiment, symbol grounding, causality and memory — are required to be addressed for LLMs to attain human-level general intelligence. These concepts are more aligned with human cognition and provide LLMs with inherent human-like cognitive properties that support the realization of physically-plausible, semantically meaningful, flexible and more generalizable knowledge and intelligence. In this work, we discuss the aforementioned foundational issues and survey state-of-the art approaches for implementing these concepts in LLMs. Specifically, we discuss how the principles of embodiment, symbol grounding, causality and memory can be leveraged toward the attainment of artificial general intelligence (AGI) in an organic manner.
arxiv情報
著者 | Alhassan Mumuni,Fuseini Mumuni |
発行日 | 2025-01-06 17:18:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google