要約
この調査では、言語モデル (LM) が推論スキルとツールを使用する能力によって強化された作品をレビューします。
前者は潜在的に複雑なタスクをより単純なサブタスクに分解することとして定義され、後者はコード インタープリターなどの外部モジュールを呼び出すことで構成されます。
LM は、これらの拡張機能を個別に、またはヒューリスティックを介して組み合わせて活用するか、デモンストレーションから学習することができます。
このような拡張された LM は、標準的な欠落トークン予測の目的を遵守しながら、さまざまな、場合によってはノンパラメトリックな外部モジュールを使用して、コンテキスト処理能力を拡張し、純粋な言語モデリング パラダイムから逸脱することができます。
したがって、それらを拡張言語モデル (ALM) と呼びます。
トークンの目的が欠けているため、ALM は、標準的な自然言語タスクを実行しながら、いくつかのベンチマークでほとんどの通常の LM よりも優れたパフォーマンスを発揮しながら、推論、ツールの使用、さらには行動を学習することができます。
この作業では、ALM の現在の進歩を確認した後、この新しい研究の方向性には、解釈可能性、一貫性、スケーラビリティの問題など、従来の LM の一般的な制限に対処する可能性があると結論付けています。
要約(オリジナル)
This survey reviews works in which language models (LMs) are augmented with reasoning skills and the ability to use tools. The former is defined as decomposing a potentially complex task into simpler subtasks while the latter consists in calling external modules such as a code interpreter. LMs can leverage these augmentations separately or in combination via heuristics, or learn to do so from demonstrations. While adhering to a standard missing tokens prediction objective, such augmented LMs can use various, possibly non-parametric external modules to expand their context processing ability, thus departing from the pure language modeling paradigm. We therefore refer to them as Augmented Language Models (ALMs). The missing token objective allows ALMs to learn to reason, use tools, and even act, while still performing standard natural language tasks and even outperforming most regular LMs on several benchmarks. In this work, after reviewing current advance in ALMs, we conclude that this new research direction has the potential to address common limitations of traditional LMs such as interpretability, consistency, and scalability issues.
arxiv情報
著者 | Grégoire Mialon,Roberto Dessì,Maria Lomeli,Christoforos Nalmpantis,Ram Pasunuru,Roberta Raileanu,Baptiste Rozière,Timo Schick,Jane Dwivedi-Yu,Asli Celikyilmaz,Edouard Grave,Yann LeCun,Thomas Scialom |
発行日 | 2023-02-15 18:25:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google