Knowledge Graph Guided Semantic Evaluation of Language Models For User Trust

要約

タイトル:ユーザートラストのための知識グラフによる言語モデルの意味評価

要約:

– 自然言語処理における主要な問題は、言語モデルがどのような言語構造と意味を捉えるかということである。
– 知識グラフのようなグラフ形式は、言語の意味や構造を明示的に表現するため、評価が容易である。
– この研究は、明示的な知識グラフ構造を活用して、自己注意トランスフォーマーでエンコードされた意味を評価する。
– 研究者らは、グラフを与えて自己注意トランスフォーマーの出力から同じグラフを再構成しようとする場合の再構成誤差を測定するための新しいメトリクスを提案する。
– 言語モデルの不透明性は、社会的な信頼性や説明可能な意思決定結果に深刻な影響を与える。
– 調査結果は、言語モデルがもっぱらランダムな制御処理を表現するためのモデルであることを示唆している。
– しかし、言語グラフで説明されるような対象と概念レベルの意味や意味は、習得したランダムなパターンには適用されない。
– さらに、言語モデルによる概念理解の堅牢な評価を実現するために、一般言語理解評価ベンチマーク(GLUE)評価ベンチマークを基にした拡張言語理解評価ベンチマークを公開する。
– 高い信頼性を必要とするアプリケーションにおいて、意味のないランダムなパターンは信頼されないため、この評価は重要である。

要約(オリジナル)

A fundamental question in natural language processing is – what kind of language structure and semantics is the language model capturing? Graph formats such as knowledge graphs are easy to evaluate as they explicitly express language semantics and structure. This study evaluates the semantics encoded in the self-attention transformers by leveraging explicit knowledge graph structures. We propose novel metrics to measure the reconstruction error when providing graph path sequences from a knowledge graph and trying to reproduce/reconstruct the same from the outputs of the self-attention transformer models. The opacity of language models has an immense bearing on societal issues of trust and explainable decision outcomes. Our findings suggest that language models are models of stochastic control processes for plausible language pattern generation. However, they do not ascribe object and concept-level meaning and semantics to the learned stochastic patterns such as those described in knowledge graphs. Furthermore, to enable robust evaluation of concept understanding by language models, we construct and make public an augmented language understanding benchmark built on the General Language Understanding Evaluation (GLUE) benchmark. This has significant application-level user trust implications as stochastic patterns without a strong sense of meaning cannot be trusted in high-stakes applications.

arxiv情報

著者 Kaushik Roy,Tarun Garg,Vedant Palit,Yuxin Zi,Vignesh Narayanan,Amit Sheth
発行日 2023-05-08 18:53:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク