要約
大規模な言語モデル (LLM) は、小規模な言語モデルよりも優れているというのが一般的な考えです。
ただし、モデルが大きくなると、推論中にさらに多くの時間と計算が必要になります。
ここで疑問が生じます。両方のモデルが同じ予算で運用されるとどうなるでしょうか?
(例: コンピューティング、ランタイム)。
この問題に対処するために、さまざまなサイズのコード生成 LLM を分析し、70B モデルを 1 回実行する場合と 13B モデルから 5 つの出力を生成する場合などの比較を行います。
より小さなモデルから正しい出力を選択するために使用できる、標準的な単体テストのセットアップを検討します。
私たちの調査結果では、より小さなモデルを繰り返し使用すると一貫した改善が得られ、5 つのタスク全体で最大 15% の向上が得られることが明らかになりました。
一方、単体テストが利用できないシナリオでは、小規模なモデルからの候補のランキングに基づいた選択は、大規模なモデルからの単一出力のパフォーマンスには届きません。
私たちの結果は、大規模なモデルの代わりに小規模なモデルを使用する可能性と、LLM 出力をランク付けするアプローチを研究することの重要性を強調しています。
要約(オリジナル)
It is a common belief that large language models (LLMs) are better than smaller-sized ones. However, larger models also require significantly more time and compute during inference. This begs the question: what happens when both models operate under the same budget? (e.g., compute, run-time). To address this question, we analyze code generation LLMs of various sizes and make comparisons such as running a 70B model once vs. generating five outputs from a 13B model. We consider a standard unit-test setup, which can be used to select the correct output from the smaller model. Our findings reveal that the repeated use of smaller models can yield consistent improvements, with gains of up to 15% across five tasks. On the other hand, in scenarios where unit-tests are unavailable, a ranking-based selection of candidates from the smaller model falls short of the performance of a single output from larger ones. Our results highlight the potential of using smaller models instead of larger ones, and the importance of studying approaches for ranking LLM outputs.
arxiv情報
著者 | Michael Hassid,Tal Remez,Jonas Gehring,Roy Schwartz,Yossi Adi |
発行日 | 2024-07-25 11:37:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google