Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs

要約

大規模言語モデル (LLM) の開発は、事前トレーニング技術の進歩によって促進されています。
これらのモデルは、手動で設計されたプロンプトを通じて堅牢な推論機能を実証しました。
この研究では、ナレッジ グラフ (KG) 上の現在の最先端 LLM (GPT-4) の会話推論機能を評価します。
ただし、KG 環境認識の欠如と、中間推論段階の効果的な最適化メカニズムの開発の難しさにより、LLM のパフォーマンスは制限されます。
さらに、KG パスに関する正確で適応性のある予測を提供するように設計された LLM 根拠のある KG 推論エージェントである LLM-ARK を紹介します。
LLM-ARK は、フル テキスト環境 (FTE) プロンプトを利用して、各推論ステップ内の状態情報を同化します。
KG でのマルチホップ推論の課題を、逐次的な意思決定タスクとして再構成します。
Proximal Policy Optimization (PPO) オンライン ポリシー勾配強化学習アルゴリズムを利用して、私たちのモデルは豊富な報酬シグナルから学習するように最適化されています。
さらに、OpenDialKG データセットでモデルと GPT-4 の評価を実施します。
実験結果は、LLaMA-2-7B-ARK が現在の最先端モデルよりも 5.28 パーセンテージ ポイント優れ、target@1 評価基準で 36.39% のパフォーマンス レートを示していることを示しています。
一方、GPT-4 のスコアは 14.91% であり、この方法の有効性がさらに実証されました。
私たちのコードは、さらにアクセスするために GitHub (https://github.com/Aipur/LLM-ARK) で入手できます。

要約(オリジナル)

The development of large language models (LLMs) has been catalyzed by advancements in pre-training techniques. These models have demonstrated robust reasoning capabilities through manually designed prompts. In this work, we evaluate the conversational reasoning capabilities of the current state-of-the-art LLM (GPT-4) on knowledge graphs (KGs). However, the performance of LLMs is constrained due to a lack of KG environment awareness and the difficulties in developing effective optimization mechanisms for intermediary reasoning stages. We further introduce LLM-ARK, a LLM grounded KG reasoning agent designed to deliver precise and adaptable predictions on KG paths. LLM-ARK leverages Full Textual Environment (FTE) prompt to assimilate state information within each reasoning step. We reframe the challenge of multi-hop reasoning on the KG as a sequential decision-making task. Utilizing the Proximal Policy Optimization (PPO) online policy gradient reinforcement learning algorithm, our model is optimized to learn from rich reward signals. Additionally, we conduct an evaluation of our model and GPT-4 on the OpenDialKG dataset. The experimental results reveal that LLaMA-2-7B-ARK outperforms the current state-of-the-art model by 5.28 percentage points, with a performance rate of 36.39% on the target@1 evaluation metric. Meanwhile, GPT-4 scored 14.91%, further demonstrating the effectiveness of our method. Our code is available on GitHub (https://github.com/Aipura/LLM-ARK) for further access.

arxiv情報

著者 Yuxuan Huang
発行日 2024-11-15 06:48:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク