PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning

要約

手順の計画は、高レベルの目標を時間的に順序付けられた一連のステップに分解することを必要とし、機械にとって重要ではあるものの複雑なタスクです。
これには、常識的な知識を統合して、反事実であることが多い複雑な状況を推論することが含まれます。
「電話を使わずに医師の診察の予約をする」。
現在のアプローチは、大規模言語モデル (LLM) を使用した有望な結果を示していますが、コストのかかる API 呼び出しや再現性の問題などの欠点によって妨げられています。
このペーパーでは、より小さな言語モデルを使用して計画を立てることを提唱します。
我々は、小さな言語モデルに手続き的知識と(反事実的な)計画能力を与えるための新しい二面アプローチである PlaSma を紹介します。
より具体的には、小さな言語モデルにおける暗黙の知識を強化するための記号手続き型知識の蒸留と、より構造化された正確な推論を促進するための推論時間アルゴリズムを開発します。
さらに、反事実状況に対処するために計画を修正する必要がある、反事実計画という新しいタスクを導入します。
元の設定と反事実の設定の両方で、桁違いに小さいモデル (770M-11B パラメーター) が競合し、多くの場合、より大きな教師モデルの能力を上回ることができることを示します。

要約(オリジナル)

Procedural planning, which entails decomposing a high-level goal into a sequence of temporally ordered steps, is an important yet intricate task for machines. It involves integrating common-sense knowledge to reason about complex contextualized situations that are often counterfactual, e.g. ‘scheduling a doctor’s appointment without a phone’. While current approaches show encouraging results using large language models (LLMs), they are hindered by drawbacks such as costly API calls and reproducibility issues. In this paper, we advocate planning using smaller language models. We present PlaSma, a novel two-pronged approach to endow small language models with procedural knowledge and (counterfactual) planning capabilities. More concretely, we develop symbolic procedural knowledge distillation to enhance the implicit knowledge in small language models and an inference-time algorithm to facilitate more structured and accurate reasoning. In addition, we introduce a novel task, Counterfactual Planning, that requires a revision of a plan to cope with a counterfactual situation. In both the original and counterfactual setting, we show that orders-of-magnitude smaller models (770M-11B parameters) can compete and often surpass their larger teacher models’ capabilities.

arxiv情報

著者 Faeze Brahman,Chandra Bhagavatula,Valentina Pyatkin,Jena D. Hwang,Xiang Lorraine Li,Hirona J. Arai,Soumya Sanyal,Keisuke Sakaguchi,Xiang Ren,Yejin Choi
発行日 2023-07-26 19:45:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク