RDF-Based Structured Quality Assessment Representation of Multilingual LLM Evaluations

要約

大規模な言語モデル(LLM)は、知識のインターフェイスとしてますます機能していますが、矛盾する情報で信頼性を体系的に評価することは依然として困難です。
知識の対立に焦点を当てた多言語LLM品質を評価するためのRDFベースのフレームワークを提案します。
私たちのアプローチは、ドイツ語と英語で、4つの異なるコンテキスト条件(完全、不完全、矛盾、および非コンテキスト情報)にわたってモデル応答をキャプチャします。
この構造化された表現により、知識の漏れの包括的な分析が可能になります。ここで、モデルは提供されたコンテキストエラー検出と多言語の一貫性よりもトレーニングデータを好みます。
火災安全ドメイン実験を通じてフレームワークを実証し、コンテキストの優先順位付けと言語固有のパフォーマンスの重要なパターンを明らかにし、28質問の研究で遭遇したすべての評価ファセットを表現するのに十分であることを実証します。

要約(オリジナル)

Large Language Models (LLMs) increasingly serve as knowledge interfaces, yet systematically assessing their reliability with conflicting information remains difficult. We propose an RDF-based framework to assess multilingual LLM quality, focusing on knowledge conflicts. Our approach captures model responses across four distinct context conditions (complete, incomplete, conflicting, and no-context information) in German and English. This structured representation enables the comprehensive analysis of knowledge leakage-where models favor training data over provided context-error detection, and multilingual consistency. We demonstrate the framework through a fire safety domain experiment, revealing critical patterns in context prioritization and language-specific performance, and demonstrating that our vocabulary was sufficient to express every assessment facet encountered in the 28-question study.

arxiv情報

著者 Jonas Gwozdz,Andreas Both
発行日 2025-04-30 13:06:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク