要約
視覚言語学習における最近の進歩は、広範な世界知識を統合することにより、完全情報質問応答データセットにおいて顕著な成功を収めている。しかし、ほとんどのモデルは受動的に動作し、あらかじめ記憶された知識に基づいて質問に応答する。これとは対照的に、人間は不完全情報質問に取り組むために、新たに発見した情報と既存の情報の両方を用いて、能動的に探索し、蓄積し、推論する能力を持っている。このギャップに対応するため、我々は能動的推論の評価のために考案された対話型オープンワールド環境$Conan$を紹介する。Conan$は、Minecraftのようなリッチなオープンワールド環境を彷彿とさせるように、能動的な探索を容易にし、多ラウンドのアブダクティブ推論を促進する。Conan$では、エージェントが積極的に周囲の環境と相互作用し、新しい証拠と事前知識を融合させることで、不完全な観察から事象を解明する。Conan$に関する我々の分析は、能動的な探索と複雑なシナリオの理解における現代の最先端モデルの欠点を強調している。さらに、エージェントがベイズ規則を利用してアブダクションの課題を演繹的プロセスとして再構成する、演繹からのアブダクションを探求する。Conan$を通じて、我々は能動的推論の進歩を活性化し、環境に動的に関与することに長けた次世代の人工知能エージェントの舞台を整えることを目指す。
要約(オリジナル)
Recent advances in vision-language learning have achieved notable success on complete-information question-answering datasets through the integration of extensive world knowledge. Yet, most models operate passively, responding to questions based on pre-stored knowledge. In stark contrast, humans possess the ability to actively explore, accumulate, and reason using both newfound and existing information to tackle incomplete-information questions. In response to this gap, we introduce $Conan$, an interactive open-world environment devised for the assessment of active reasoning. $Conan$ facilitates active exploration and promotes multi-round abductive inference, reminiscent of rich, open-world settings like Minecraft. Diverging from previous works that lean primarily on single-round deduction via instruction following, $Conan$ compels agents to actively interact with their surroundings, amalgamating new evidence with prior knowledge to elucidate events from incomplete observations. Our analysis on $Conan$ underscores the shortcomings of contemporary state-of-the-art models in active exploration and understanding complex scenarios. Additionally, we explore Abduction from Deduction, where agents harness Bayesian rules to recast the challenge of abduction as a deductive process. Through $Conan$, we aim to galvanize advancements in active reasoning and set the stage for the next generation of artificial intelligence agents adept at dynamically engaging in environments.
arxiv情報
著者 | Manjie Xu,Guangyuan Jiang,Wei Liang,Chi Zhang,Yixin Zhu |
発行日 | 2023-11-03 16:24:34+00:00 |
arxivサイト | arxiv_id(pdf) |