要約
最近の研究では、大規模言語モデル (LLM) の事前トレーニングとそれに続く下流タスクの教師あり微調整で大幅な成果が得られることが実証されました。
このペーパーでは、$6$ の常識的推論ベンチマーク タスクを使用して GPT-neo モデルのパフォーマンスを評価します。
GPT-$3$、Llama-$2$、MPT、Falcon などのいくつかの大きなモデルのベースラインに対して、GPT-neo モデルを使用して小規模なモデルのパフォーマンスを調べることを目的としています。
適切なハイパーパラメータのセットを使用して微調整すると、私たちのモデルはいくつかのタスクで優れた精度を達成します。
また、モデルのパフォーマンスをより深く理解するために、アテンションヘッドの視覚化を使用して結果を調査し実証します。
最後に、さまざまな方法を使用してさまざまな堅牢性テストを実行し、さまざまな設定の下でモデルのパフォーマンスを測定します。
要約(オリジナル)
Recent work has demonstrated substantial gains in pre-training large-language models (LLMs) followed by supervised fine-tuning on the downstream task. In this paper, we evaluate the performance of the GPT-neo model using $6$ commonsense reasoning benchmark tasks. We aim to examine the performance of smaller models using the GPT-neo models against several larger model baselines such as GPT-$3$, Llama-$2$, MPT and Falcon. Upon fine-tuning with the appropriate set of hyperparameters, our model achieves competitive accuracy on several tasks. We also investigate and substantiate our results using attention-head visualization to better understand the model performance. Finally, we conduct various robustness tests using various methods to gauge the model performance under numerous settings.
arxiv情報
著者 | Rohan Kashyap,Vivek Kashyap,Narendra C. P. |
発行日 | 2023-09-27 08:01:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google