Define, Evaluate, and Improve Task-Oriented Cognitive Capabilities for Instruction Generation Models

要約

最近の研究では、人間向けに設計された心理テストを通じて、言語モデルの認知能力が研究されています。
これらの研究は、これらのモデルの一般的な機能を理解するのに役立ちますが、これらのテストに合格するのに十分な機能を備えたモデルが実際のタスクを実行する際にそれらの機能を実際に使用するという保証はありません。
この研究では、タスク指向の認知能力を定式化します。これは、言語モデルがタスクを実行するために活用する人間のような認知能力です。
これらの機能は、(i) 適切な発話の候補を迅速に生成する機能 (検索機能)、(ii) 聞き手がそれらの発話をどのように解釈するかを予測し、最も適切なものを選択する機能 (プラグマティック機能) です。
言語モデルのこれらの能力と人間の能力を比較するための評価スキームを設計します。
このスキームを適用してナビゲーション命令生成問題のさまざまなモデルを検証すると、それらの実用的な能力が著しく欠けていることがわかります。
この洞察により、リスナーのより良いモデルでそれらを強化し、実際の人間をガイドする際の成功率が 11% という大幅な向上を達成することができました。
私たちの研究では、(i) タスク指向の能力を定式化し、(ii) 能力の不足を定量化する方法を考案し、(iii) 能力を反復的に改善することを含む、言語モデルを人間に合わせるための原則的な手順を持つことを提唱しています。

要約(オリジナル)

Recent work studies the cognitive capabilities of language models through psychological tests designed for humans. While these studies are helpful for understanding the general capabilities of these models, there is no guarantee that a model possessing sufficient capabilities to pass those tests would actually use those capabilities in performing real-life tasks. In this work, we formulate task-oriented cognitive capabilities, which are human-like cognitive capabilities that language models leverage to perform tasks. These capabilities are (i) the ability to quickly generate good candidate utterances (the search capability) (ii) the ability to predict how a listener interprets those utterances and choose the most appropriate one (the pragmatic capability). We design an evaluation scheme for comparing these capabilities of a language model with those of a human. Applying this scheme to examine various models in a navigation instruction generation problem, we find that their pragmatic capability is severely lacking. This insight leads us to augment them with better models of the listener and obtain a significant boost of 11% in success rate in guiding real humans. Our work advocates for having a principled procedure for aligning language models with humans that involves (i) formulating task-oriented capabilities, (ii) devising a method to quantify their deficiency, and (iii) iteratively improving them.

arxiv情報

著者 Lingjun Zhao,Khanh Nguyen,Hal Daumé III
発行日 2023-05-28 14:34:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, cs.RO パーマリンク