Measuring Moral Inconsistencies in Large Language Models

要約

大規模言語モデル (LLM) は、意味的に同等のプロンプトが意味的に同等の応答を生成する場合、一貫しているとみなされます。
会話システムにおける LLM の優れた機能を示す最近の進歩にもかかわらず、最先端の LLM であっても世代間の一貫性が非常に低く、その信頼性に疑問があることがわかりました。
以前の研究では、タスク固有の精度でこれを測定しようとしました。
ただし、このアプローチは、トロッコ問題など、「正解」のない道徳的なシナリオには適していません。
この問題に対処するために、道徳シナリオにおける LLM の一貫性を測定するためのセマンティック グラフ エントロピー (SGE) と呼ばれる新しい情報理論的尺度を提案します。
「経験則」(RoT) を活用してモデルの意思決定戦略を説明し、指標をさらに強化します。
既存の一貫性指標と比較して、SGE は 5 つの LLM にわたって人間の判断とよりよく相関しています。
将来的には、LLM の不一致の根本原因を調査し、改善を提案することを目指しています。

要約(オリジナル)

A Large Language Model (LLM) is considered consistent if semantically equivalent prompts produce semantically equivalent responses. Despite recent advancements showcasing the impressive capabilities of LLMs in conversational systems, we show that even state-of-the-art LLMs are highly inconsistent in their generations, questioning their reliability. Prior research has tried to measure this with task-specific accuracy. However, this approach is unsuitable for moral scenarios, such as the trolley problem, with no ‘correct’ answer. To address this issue, we propose a novel information-theoretic measure called Semantic Graph Entropy (SGE) to measure the consistency of an LLM in moral scenarios. We leverage ‘Rules of Thumb’ (RoTs) to explain a model’s decision-making strategies and further enhance our metric. Compared to existing consistency metrics, SGE correlates better with human judgments across five LLMs. In the future, we aim to investigate the root causes of LLM inconsistencies and propose improvements.

arxiv情報

著者 Vamshi Krishna Bonagiri,Sreeram Vennam,Manas Gaur,Ponnurangam Kumaraguru
発行日 2024-02-22 17:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク