Linguistic Properties of Truthful Response

要約

220個の手作り言語特徴量の大規模セットを用いて、LLMの真実でない回答現象を調査する。我々はGPT-3モデルに焦点を当て、応答の言語的プロファイルがモデルサイズ間で類似していることを発見した。つまり、様々なサイズのLLMが与えられたプロンプトに対してどのように応答するかは、言語的特性レベルでは類似しているのである。この発見をもとに、サポートベクターマシンを訓練し、モデル応答の文体成分のみを頼りに、発言の真偽を分類することにしました。データセットの大きさによって今回の発見は制限されるが、内容そのものを評価することなく真実性を検出できる可能性を示すことができた。しかし同時に、この結果を解釈する際には、我々の実験の限られた範囲を考慮する必要がある。

要約(オリジナル)

We investigate the phenomenon of an LLM’s untruthful response using a large set of 220 handcrafted linguistic features. We focus on GPT-3 models and find that the linguistic profiles of responses are similar across model sizes. That is, how varying-sized LLMs respond to given prompts stays similar on the linguistic properties level. We expand upon this finding by training support vector machines that rely only upon the stylistic components of model responses to classify the truthfulness of statements. Though the dataset size limits our current findings, we show the possibility that truthfulness detection is possible without evaluating the content itself. But at the same time, the limited scope of our experiments must be taken into account in interpreting the results.

arxiv情報

著者 Bruce W. Lee,Benedict Florance Arockiaraj,Helen Jin
発行日 2023-06-02 12:39:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク