要約
大規模な言語モデルの推論能力を調査し強化することは、依然として重要な未解決の問題です。
ここでは、LLM の概念的推論能力を調査するためのケーススタディとして逆引き辞書タスクを再利用します。
インコンテキスト学習を使用して、言語記述に暗示されるオブジェクト概念の用語を生成するようにモデルをガイドします。
モデルはこのタスクにおいて確実に高精度を実現し、その表現空間はオブジェクト カテゴリと詳細な特徴に関する情報をエンコードします。
さらなる実験では、モデル全体で同様の構文一般化動作があるにもかかわらず、逆辞書タスクによって精査された概念的推論能力が、複数のベンチマークにわたるモデルの一般的な推論パフォーマンスを予測することが示唆されています。
探索的分析では、LLM に description$\Rightarrow$word の例を提示させると、タスクの解釈における表面レベルの違いを超えた一般化が誘導され、より広範な常識的推論問題のモデルが促進される可能性があることが示唆されています。
要約(オリジナル)
Probing and enhancing large language models’ reasoning capacity remains a crucial open question. Here we re-purpose the reverse dictionary task as a case study to probe LLMs’ capacity for conceptual inference. We use in-context learning to guide the models to generate the term for an object concept implied in a linguistic description. Models robustly achieve high accuracy in this task, and their representation space encodes information about object categories and fine-grained features. Further experiments suggest that the conceptual inference ability as probed by the reverse-dictionary task predicts model’s general reasoning performance across multiple benchmarks, despite similar syntactic generalization behaviors across models. Explorative analyses suggest that prompting LLMs with description$\Rightarrow$word examples may induce generalization beyond surface-level differences in task construals and facilitate models on broader commonsense reasoning problems.
arxiv情報
著者 | Ningyu Xu,Qi Zhang,Menghan Zhang,Peng Qian,Xuanjing Huang |
発行日 | 2024-02-26 11:40:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google