Limited Out-of-Context Knowledge Reasoning in Large Language Models

要約

大規模言語モデル (LLM) は、知識ベースとしての強力な機能と、コンテキスト内の重要な推論機能を実証しています。
ただし、これまでの研究では、コンテキスト外の推論能力、つまりコンテキストやプロンプトからではなくトレーニング データから情報を推測する能力が課題となっていました。
この論文では、アウトオブコンテキスト推論の重要な側面であるアウトオブコンテキスト知識推論 (OCKR) に焦点を当てます。これは、複数の知識を組み合わせて新しい知識を推論します。
LLM の OCKR 機能を体系的に評価するために、7 つの代表的な OCKR タスクを含む合成データセットを設計しました。
このデータセットを使用して、LLaMA2-13B チャット モデルを評価したところ、知識が別のトレーニング設定でトレーニングされたか、隣接したトレーニング設定でトレーニングされたかに関係なく、この側面での習熟度には限界があることがわかりました。
さらに、完全な推論データを使用して推論するようにモデルをトレーニングしても、大幅な改善は得られませんでした。
明示的知識の検索を実行するようにモデルをトレーニングすると、タスクの 1 つだけで役に立ちます。これは、モデルの OCKR 機能が制限されているのは、関連する知識の検索が困難であることが原因であることを示しています。
さらに、言語を越えた知識伝達を OCKR の別の形式として扱い、この能力を評価します。
私たちの結果は、評価されたモデルが言語を越えて知識を伝達する能力にも限界があることを示しています。
この研究で使用されたデータセットは、https://github.com/NJUNLP/ID-OCKR で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated strong capabilities as knowledge bases and significant in-context reasoning capabilities. However, previous work challenges their out-of-context reasoning ability, i.e., the ability to infer information from their training data, instead of from the context or prompt. This paper focuses on a significant facet of out-of-context reasoning: Out-of-Context Knowledge Reasoning (OCKR), which is to combine multiple knowledge to infer new knowledge. We designed a synthetic dataset with seven representative OCKR tasks to systematically assess the OCKR capabilities of LLMs. Using this dataset, we evaluated the LLaMA2-13B-chat model and discovered that its proficiency in this aspect is limited, regardless of whether the knowledge is trained in a separate or adjacent training settings. Moreover, training the model to reason with complete reasoning data did not result in significant improvement. Training the model to perform explicit knowledge retrieval helps in only one of the tasks, indicating that the model’s limited OCKR capabilities are due to difficulties in retrieving relevant knowledge. Furthermore, we treat cross-lingual knowledge transfer as a distinct form of OCKR, and evaluate this ability. Our results show that the evaluated model also exhibits limited ability in transferring knowledge across languages. The dataset used in this study is available at https://github.com/NJUNLP/ID-OCKR.

arxiv情報

著者 Peng Hu,Changjiang Gao,Ruiqi Gao,Jiajun Chen,Shujian Huang
発行日 2024-06-24 14:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク