要約
大規模言語モデル (LLM) に関する最新の研究で最も顕著な発見の 1 つは、トレーニング中にコンピューティングをスケールアップすると、より良い結果が得られるということです。
ただし、推論中の計算のスケーリングの利点についてはあまり注目されていません。
この調査は、これらの推論時間のアプローチに焦点を当てています。
私たちは、統一された数学的形式主義の下で、トークンレベルの生成アルゴリズム、メタ生成アルゴリズム、効率的な生成という 3 つの領域を調査します。
トークン レベルの生成アルゴリズムは、デコード アルゴリズムとも呼ばれ、一度に 1 つのトークンをサンプリングするか、トークン レベルの検索スペースを構築して出力を選択することによって動作します。
これらのメソッドは通常、言語モデルのロジット、ネクストトークン分布、または確率スコアへのアクセスを前提としています。
メタ生成アルゴリズムは部分的または完全なシーケンスに作用し、ドメインの知識を組み込み、バックトラッキングを可能にし、外部情報を統合します。
効率的な生成方法は、トークンのコストを削減し、生成速度を向上させることを目的としています。
私たちの調査では、従来の自然言語処理、最新の LLM、機械学習システムという 3 つの研究コミュニティの視点が統一されています。
要約(オリジナル)
One of the most striking findings in modern research on large language models (LLMs) is that scaling up compute during training leads to better results. However, less attention has been given to the benefits of scaling compute during inference. This survey focuses on these inference-time approaches. We explore three areas under a unified mathematical formalism: token-level generation algorithms, meta-generation algorithms, and efficient generation. Token-level generation algorithms, often called decoding algorithms, operate by sampling a single token at a time or constructing a token-level search space and then selecting an output. These methods typically assume access to a language model’s logits, next-token distributions, or probability scores. Meta-generation algorithms work on partial or full sequences, incorporating domain knowledge, enabling backtracking, and integrating external information. Efficient generation methods aim to reduce token costs and improve the speed of generation. Our survey unifies perspectives from three research communities: traditional natural language processing, modern LLMs, and machine learning systems.
arxiv情報
著者 | Sean Welleck,Amanda Bertsch,Matthew Finlayson,Hailey Schoelkopf,Alex Xie,Graham Neubig,Ilia Kulikov,Zaid Harchaoui |
発行日 | 2024-11-20 17:57:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google