Dialectical language model evaluation: An initial appraisal of the commonsense spatial reasoning abilities of LLMs

要約

【タイトル】弁証法的言語モデル評価:LLMの常識的空間推論能力の初期評価

【要約】
– 言語モデルは現在大変人気があり、常識的推論能力を含む能力について多くの主張がなされている。
– 現在の言語モデルが過去のせん断的基準に対してますます優れた結果を出すことを考慮すると、代替弁証法的評価を探求する。
– この種の評価の目的は、集計パフォーマンス値を取得することではなく、システムの失敗を見つけ、境界をマップすることである。
– システムとの対話を行うことで、一貫性をチェックし、報告事例を超えたこれらの境界のさらなる保証を得る機会が得られます。
– 本論文では、常識的推論の基本的な側面である空間推論の特定の場合について、この種の評価のいくつかの質的調査を行います。
– 最後に、言語モデルの能力を改善し、この種の弁証法的評価を体系化するための将来の作業のいくつかについて提案を行います。

要約(オリジナル)

Language models have become very popular recently and many claims have been made about their abilities, including for commonsense reasoning. Given the increasingly better results of current language models on previous static benchmarks for commonsense reasoning, we explore an alternative dialectical evaluation. The goal of this kind of evaluation is not to obtain an aggregate performance value but to find failures and map the boundaries of the system. Dialoguing with the system gives the opportunity to check for consistency and get more reassurance of these boundaries beyond anecdotal evidence. In this paper we conduct some qualitative investigations of this kind of evaluation for the particular case of spatial reasoning (which is a fundamental aspect of commonsense reasoning). We conclude with some suggestions for future work both to improve the capabilities of language models and to systematise this kind of dialectical evaluation.

arxiv情報

著者 Anthony G Cohn,Jose Hernandez-Orallo
発行日 2023-04-22 06:28:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク