Assessing LLMs Suitability for Knowledge Graph Completion

要約

最近の研究では、ゼロショットまたはフューショットパラダイムであっても、ナレッジグラフ補完などのナレッジグラフに関連するタスクを解決できるラージ言語モデル (LLM) の機能が示されています。
ただし、ユーザーの要求を満たしている場合でも、幻覚的な回答をしたり、非決定的な方法で結果を出力したりするため、誤った推論の回答を引き起こすことが知られています。
ナレッジ グラフ関連のタスクにおける機会と課題を強調するために、静的ナレッジ グラフのナレッジ グラフ補完に関して、Mixtral-8x7b-Instruct-v0.1、GPT-3.5-Turbo-0125、および GPT-4o という 3 つの優れた LLM を実験します。
、タスク指向対話システムの使用例で、ゼロショットおよびワンショットのコンテキストで TELeR 分類に従って構築されたプロンプトを使用します。
厳格なメトリクス測定方法と柔軟なメトリクス測定方法の両方を使用して評価した場合、プロンプトに十分な情報と関連する例がカプセル化されていれば、LLM がそのようなタスクに適している可能性があることが結果からわかります。

要約(オリジナル)

Recent work has shown the capability of Large Language Models (LLMs) to solve tasks related to Knowledge Graphs, such as Knowledge Graph Completion, even in Zero- or Few-Shot paradigms. However, they are known to hallucinate answers, or output results in a non-deterministic manner, thus leading to wrongly reasoned responses, even if they satisfy the user’s demands. To highlight opportunities and challenges in knowledge graphs-related tasks, we experiment with three distinguished LLMs, namely Mixtral-8x7b-Instruct-v0.1, GPT-3.5-Turbo-0125 and GPT-4o, on Knowledge Graph Completion for static knowledge graphs, using prompts constructed following the TELeR taxonomy, in Zero- and One-Shot contexts, on a Task-Oriented Dialogue system use case. When evaluated using both strict and flexible metrics measurement manners, our results show that LLMs could be fit for such a task if prompts encapsulate sufficient information and relevant examples.

arxiv情報

著者 Vasile Ionut Remus Iga,Gheorghe Cosmin Silaghi
発行日 2024-07-18 09:48:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク