要約
質問は、私たちの言語の習得と、不確実性について推論するための優れた能力を組み合わせたものです。
限られた認知リソースの中で、人はどうやって広大な仮説空間をナビゲートして有益な質問を投げかけるのでしょうか?
私たちは、ボード ゲーム Battleship に基づいた古典的な根拠のある質問タスクでこれらのトレードオフを研究します。
当社の言語インフォームド プログラム サンプリング (LIPS) モデルは、大規模言語モデル (LLM) を使用して自然言語の質問を生成し、それらを記号プログラムに変換し、期待される情報獲得量を評価します。
驚くほど控えめなリソース予算で、このシンプルなモンテカルロ最適化戦略により、Battleship のさまざまなボード シナリオにおける人間のパフォーマンスを反映する有益な質問が得られることがわかりました。
対照的に、LLM のみのベースラインは、取締役会の状態に疑問を根付かせるのに苦労しています。
特に、GPT-4V は非視覚的なベースラインを超える改善を提供しません。
私たちの結果は、質問のベイジアン モデルが言語の統計をどのように活用して人間の事前分布を把握できるかを示していると同時に、根拠のある推論としての純粋な LLM のいくつかの欠点を強調しています。
要約(オリジナル)
Questions combine our mastery of language with our remarkable facility for reasoning about uncertainty. How do people navigate vast hypothesis spaces to pose informative questions given limited cognitive resources? We study these tradeoffs in a classic grounded question-asking task based on the board game Battleship. Our language-informed program sampling (LIPS) model uses large language models (LLMs) to generate natural language questions, translate them into symbolic programs, and evaluate their expected information gain. We find that with a surprisingly modest resource budget, this simple Monte Carlo optimization strategy yields informative questions that mirror human performance across varied Battleship board scenarios. In contrast, LLM-only baselines struggle to ground questions in the board state; notably, GPT-4V provides no improvement over non-visual baselines. Our results illustrate how Bayesian models of question-asking can leverage the statistics of language to capture human priors, while highlighting some shortcomings of pure LLMs as grounded reasoners.
arxiv情報
著者 | Gabriel Grand,Valerio Pepe,Jacob Andreas,Joshua B. Tenenbaum |
発行日 | 2024-02-29 18:58:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google