要約
大規模言語モデル (LLM) は、タスク固有のトレーニングなしで同じモデルが複数のタスクを実行できるようにするコンテキスト内学習能力を示します。
対照的に、微調整などの従来の適応アプローチでは、特定のタスクごとに基礎となるモデルを変更します。
ただし、コンテキスト内学習は、同じ例が提示された場合でも、タスク固有の調整アプローチよりも一貫してパフォーマンスが劣ります。
ほとんどの既存のアプローチ (プロンプト エンジニアリングなど) は、このパフォーマンス ギャップを埋めるために LLM の学習された表現に焦点を当てていますが、実際に私たちの分析では、LLM 表現には適切な予測を行うのに十分な情報が含まれていることが明らかになりました。
そのため、私たちは LLM の推論能力に焦点を当て、単純な確率的推論タスクを実行できないためにこのパフォーマンス ギャップが存在することを示します。
このことから、興味深い疑問が生じます。LLM は実際に、タスクに依存しない方法で推論する方法を学習できるのでしょうか?
私たちはこれに肯定的に答え、合成的に訓練された Transformer ベースの推論モジュールを使用して LLM の推論能力を一般的に向上させる TART を提案します。
TART は、合成ロジスティック回帰タスクのみを使用して、タスクに依存しない方法でこの推論モジュールをトレーニングし、追加のトレーニングを行わずに、事前にトレーニングされた任意の現実世界のモデルを使用してこの推論モジュールを構成します。
TART は、単一の推論モジュールを使用して、さまざまなモデル ファミリ (GPT-Neo、Pythia、BLOOM)、モデル サイズ (100M ~ 6B)、タスク (14 の NLP バイナリ分類タスク)、さらにはさまざまなモダリティ (音声と視覚) 全体でパフォーマンスを向上させます。
。
さらに、RAFT ベンチマークでは、TART は GPT-Neo (125M) のパフォーマンスを向上させ、BLOOM (176B) を上回り、GPT-3 (175B) の 4% 以内に収まりました。
私たちのコードとモデルは https://github.com/HazyResearch/TART で入手できます。
要約(オリジナル)
Large language models (LLMs) exhibit in-context learning abilities which enable the same model to perform several tasks without any task-specific training. In contrast, traditional adaptation approaches, such as fine-tuning, modify the underlying models for each specific task. In-context learning, however, consistently underperforms task-specific tuning approaches even when presented with the same examples. While most existing approaches (e.g., prompt engineering) focus on the LLM’s learned representations to patch this performance gap, our analysis actually reveal that LLM representations contain sufficient information to make good predictions. As such, we focus on the LLM’s reasoning abilities and demonstrate that this performance gap exists due to their inability to perform simple probabilistic reasoning tasks. This raises an intriguing question: Are LLMs actually capable of learning how to reason in a task-agnostic manner? We answer this in the affirmative and propose TART which generically improves an LLM’s reasoning abilities using a synthetically trained Transformer-based reasoning module. TART trains this reasoning module in a task-agnostic manner using only synthetic logistic regression tasks and composes it with an arbitrary real-world pre-trained model without any additional training. With a single inference module, TART improves performance across different model families (GPT-Neo, Pythia, BLOOM), model sizes (100M – 6B), tasks (14 NLP binary classification tasks), and even across different modalities (audio and vision). Additionally, on the RAFT Benchmark, TART improves GPT-Neo (125M)’s performance such that it outperforms BLOOM (176B), and is within 4% of GPT-3 (175B). Our code and models are available at https://github.com/HazyResearch/TART .
arxiv情報
著者 | Kush Bhatia,Avanika Narayan,Christopher De Sa,Christopher Ré |
発行日 | 2023-06-13 04:37:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google