A Hypothesis-Driven Framework for the Analysis of Self-Rationalising Models

要約

LLM の自己合理化機能は、生成された説明によって予測の妥当性についての洞察が得られるため、魅力的です。
しかし、説明が予測にどれだけ忠実であるかは疑問であり、その背後にあるパターンをさらに調査する必要性が高まっています。
この目的を達成するために、仮説に基づいた統計フレームワークを提案します。
ベイジアン ネットワークを使用して、タスク (この例では自然言語推論) がどのように解決され、その内部状態がテンプレートを使用して自然言語に翻訳されるかについての仮説を実装します。
これらの説明は、自動評価と人間による評価を使用して、LLM が生成したフリーテキストの説明と比較されます。
これにより、LLM とベイジアン ネットワークの意思決定プロセスがどの程度類似しているかを判断できます。
仮説例とベイジアン ネットワークでの 2 つの実現例を使用して、フレームワークの使用法を示します。
結果として得られるモデルは GPT-3.5 との強い類似性を示しません。
このことの影響と、将来の作業で LLM の決定をより適切に近似できるフレームワークの可能性について説明します。

要約(オリジナル)

The self-rationalising capabilities of LLMs are appealing because the generated explanations can give insights into the plausibility of the predictions. However, how faithful the explanations are to the predictions is questionable, raising the need to explore the patterns behind them further. To this end, we propose a hypothesis-driven statistical framework. We use a Bayesian network to implement a hypothesis about how a task (in our example, natural language inference) is solved, and its internal states are translated into natural language with templates. Those explanations are then compared to LLM-generated free-text explanations using automatic and human evaluations. This allows us to judge how similar the LLM’s and the Bayesian network’s decision processes are. We demonstrate the usage of our framework with an example hypothesis and two realisations in Bayesian networks. The resulting models do not exhibit a strong similarity to GPT-3.5. We discuss the implications of this as well as the framework’s potential to approximate LLM decisions better in future work.

arxiv情報

著者 Marc Braun,Jenny Kunz
発行日 2024-02-07 12:26:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク