要約
私たちは、ほとんどの人間が取るに足らないと感じる単純な推論タスクに関するLLMの言語理解能力を評価します。
具体的には、(i) 文法的に指定された含意、(ii) 不確実性の証拠副詞を伴う前提、および (iii) 単調性含意をターゲットとします。
これらのタスクの評価セットを設計し、ゼロショットと思考連鎖の両方のセットアップで、複数のプロンプトと LLM を使用して実験を実施します。
モデルは、これらの評価セットで中程度から低いパフォーマンスを示します。
その後の実験では、含意関係を維持する (前提トリガー) か、含意関係を変更する (非事実関係) 必要がある構文構造に前提を埋め込むと、モデルがさらに混乱し、特定の含意ラベルを過小予測または過大予測する原因となることが示されています。
真の関係を重視し、多くの場合、埋め込まれたコンテキストの性質を無視します。
全体として、これらの結果は、LLM の有名な言語理解能力にも関わらず、最も強力なモデルであっても、特定の種類の含意に関して盲点があり、特定の情報パッケージ構造が、埋め込まれた前提のセマンティクスを覆い隠す「ブラインド」として機能することを示唆しています。
要約(オリジナル)
We evaluate LLMs’ language understanding capacities on simple inference tasks that most humans find trivial. Specifically, we target (i) grammatically-specified entailments, (ii) premises with evidential adverbs of uncertainty, and (iii) monotonicity entailments. We design evaluation sets for these tasks and conduct experiments in both zero-shot and chain-of-thought setups, and with multiple prompts and LLMs. The models exhibit moderate to low performance on these evaluation sets. Subsequent experiments show that embedding the premise in syntactic constructions that should preserve the entailment relations (presupposition triggers) or change them (non-factives), further confuses the models, causing them to either under-predict or over-predict certain entailment labels regardless of the true relation, and often disregarding the nature of the embedding context. Overall these results suggest that, despite LLMs’ celebrated language understanding capacity, even the strongest models have blindspots with respect to certain types of entailments, and certain information-packaging structures act as “blinds” overshadowing the semantics of the embedded premise.
arxiv情報
著者 | Victoria Basmov,Yoav Goldberg,Reut Tsarfaty |
発行日 | 2024-04-11 11:16:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google