Measuring the Inconsistency of Large Language Models in Preferential Ranking

要約

大規模言語モデル (LLM) の最近の進歩にもかかわらず、その偏見と幻覚の問題は依然として残り、一貫した優先順位を提供する LLM の能力は依然として研究されていません。
この研究では、一貫した順序優先度を提供する LLM の能力を調査します。これは、高密度の決定空間があるシナリオや絶対的な答えが欠如しているシナリオでは重要な側面です。
順序理論に基づいた一貫性の形式化を導入し、推移性、非対称性、可逆性、無関係な選択肢からの独立性などの基準を概説します。
厳選された最先端の LLM に関する診断実験では、これらの LLM がこれらの基準を満たすことができないことが明らかになりました。これは、強い位置バイアスと劣った推移性を示しており、無関係な代替案によって好みが簡単に左右されることを示しています。
これらの調査結果は、LLM によって生成された優先順位の重大な矛盾を浮き彫りにし、これらの制限に対処するためのさらなる研究の必要性を強調しています。

要約(オリジナル)

Despite large language models’ (LLMs) recent advancements, their bias and hallucination issues persist, and their ability to offer consistent preferential rankings remains underexplored. This study investigates the capacity of LLMs to provide consistent ordinal preferences, a crucial aspect in scenarios with dense decision space or lacking absolute answers. We introduce a formalization of consistency based on order theory, outlining criteria such as transitivity, asymmetry, reversibility, and independence from irrelevant alternatives. Our diagnostic experiments on selected state-of-the-art LLMs reveal their inability to meet these criteria, indicating a strong positional bias and poor transitivity, with preferences easily swayed by irrelevant alternatives. These findings highlight a significant inconsistency in LLM-generated preferential rankings, underscoring the need for further research to address these limitations.

arxiv情報

著者 Xiutian Zhao,Ke Wang,Wei Peng
発行日 2024-10-11 14:27:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク