Assessing LLMs Suitability for Knowledge Graph Completion

要約

最近の研究では、ゼロ ショットまたはフュー ショット パラダイムであっても、ナレッジ グラフ補完などのナレッジ グラフに関連するタスクを解決するラージ言語モデル (LLM) の機能が示されました。
ただし、ユーザーの要求を満たしている場合でも、幻覚的な回答をしたり、非決定的な方法で結果を出力したりするため、誤った推論の回答を引き起こすことが知られています。
ナレッジ グラフ関連のタスクにおける機会と課題を強調するために、静的ナレッジ グラフのナレッジ グラフ補完について、プロンプトを使用して 2 つの優れた LLM、つまり Mixtral-8x7B-Instruct-v0.1 と gpt-3.5-turbo-0125 を実験します。
TELeR 分類に従って、ゼロショットおよびワンショットのコンテキストで、タスク指向対話システムの使用例に基づいて構築されています。
厳格なメトリクス測定方法と柔軟なメトリクス測定方法の両方を使用して評価した場合、プロンプトに十分な情報と関連する例がカプセル化されていれば、LLM がそのようなタスクに適している可能性があることが結果からわかります。

要約(オリジナル)

Recent work shown the capability of Large Language Models (LLMs) to solve tasks related to Knowledge Graphs, such as Knowledge Graph Completion, even in Zero- or Few-Shot paradigms. However, they are known to hallucinate answers, or output results in a non-deterministic manner, thus leading to wrongly reasoned responses, even if they satisfy the user’s demands. To highlight opportunities and challenges in knowledge graphs-related tasks, we experiment with two distinguished LLMs, namely Mixtral-8x7B-Instruct-v0.1, and gpt-3.5-turbo-0125, on Knowledge Graph Completion for static knowledge graphs, using prompts constructed following the TELeR taxonomy, in Zero- and One-Shot contexts, on a Task-Oriented Dialogue system use case. When evaluated using both strict and flexible metrics measurement manners, our results show that LLMs could be fit for such a task if prompts encapsulate sufficient information and relevant examples.

arxiv情報

著者 Vasile Ionut Remus Iga,Gheorghe Cosmin Silaghi
発行日 2024-05-27 15:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク