要約
「スカーレット・ヨハンソンが生まれた年に、夏季オリンピックは の国で開催されました」などのマルチホップ クエリに答えるために、大規模言語モデル (LLM) が事実をどれだけ潜在的に思い出して構成できるかを評価します。
この能力を評価する際の 1 つの大きな課題は、LLM が同じトレーニング シーケンス内で先頭エンティティ「スカーレット ヨハンソン」と回答エンティティ「米国」に遭遇することによってショートカットを開発したり、周波数ベースの事前分布に基づいて単純に答えを推測したりする可能性があることです。
ショートカットを防ぐために、ヘッド エンティティと回答エンティティが事前トレーニング コーパスに同時に出現するテスト クエリを除外します。
関係と事実を慎重に選択し、モデルが答えを推測したり部分一致を悪用したりする可能性のあるケースを体系的に削除することにより、評価データセット SOCRATES (ShOrtCut-fRee LaTent rEaSoning) を構築します。
LLM は、ショートカットを悪用することなく、特定の種類のクエリに対してのみ、有望な潜在的なマルチホップ推論能力を実証していることが観察されています。
中間の答えとして国の潜在的な想起を必要とするクエリの場合、最良のモデルは 80% の潜在的な構成可能性を達成しますが、これは年単位の想起ではわずか 5% に低下します。
思考連鎖の構成可能性との比較により、モデルの潜在的推論能力と明示的推論能力の間に大きなギャップがあることが浮き彫りになります。
分析の結果、潜在的な構成可能性が高いクエリでは、中間応答の潜在的な表現がより頻繁に構築されることが明らかになり、事前トレーニング中に潜在的なマルチホップ推論が出現することが示されています。
要約(オリジナル)
We evaluate how well Large Language Models (LLMs) latently recall and compose facts to answer multi-hop queries like ‘In the year Scarlett Johansson was born, the Summer Olympics were hosted in the country of’. One major challenge in evaluating this ability is that LLMs may have developed shortcuts by encounters of the head entity ‘Scarlett Johansson’ and the answer entity ‘United States’ in the same training sequences or merely guess the answer based on frequency-based priors. To prevent shortcuts, we exclude test queries where the head and answer entities co-appear in pretraining corpora. Through careful selection of relations and facts and systematic removal of cases where models might guess answers or exploit partial matches, we construct an evaluation dataset SOCRATES (ShOrtCut-fRee lATent rEaSoning). We observe that LLMs demonstrate promising latent multi-hop reasoning abilities without exploiting shortcuts, but only for certain types of queries. For queries requiring latent recall of countries as the intermediate answer, the best models achieve 80% latent composability, but this drops to just 5% for the recall of years. Comparisons with Chain-of-Thought composability highlight a significant gap between the ability of models to reason latently versus explicitly. Analysis reveals that latent representations of the intermediate answer are constructed more often in queries with higher latent composability, and shows the emergence of latent multi-hop reasoning during pretraining.
arxiv情報
著者 | Sohee Yang,Nora Kassner,Elena Gribovskaya,Sebastian Riedel,Mor Geva |
発行日 | 2024-11-25 18:59:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google