要約
最近の大規模言語モデル (LLM) は、自然言語を理解する強力な能力を明らかにしました。
それらのほとんどは同じ基本構造 (トランスフォーマー ブロック) を共有しているため、トレーニング プロセスの成功に寄与する可能性があるのは、スケーリングと命令のチューニングです。
ただし、これらの要因がモデルの言語認識にどのような影響を与えるかは不明です。
この研究では、異なるサイズ (7B、13B、30B、65B) のいくつかの既存の LLM (LLaMA、アルパカ、ビクーニャ) の自己注意力と、人間の読書注意力の側面である眼球運動を比較し、スケーリングとその効果を評価します。
言語認識に関する指導の調整。
結果は、スケーリングは人間の類似性を高め、些細なパターンへの依存を減らすことで効果的な注意力を向上させるが、命令チューニングはそうではないことを示しています。
ただし、命令のチューニングにより、命令に対するモデルの感度が大幅に向上します。
また、現在の LLM は注意力においてネイティブスピーカーよりも非ネイティブスピーカーに一貫して近いこともわかり、すべてのモデルの言語認識が次善であることを示唆しています。
分析に使用されたコードとデータは GitHub で入手できます。
要約(オリジナル)
Recent large language models (LLMs) have revealed strong abilities to understand natural language. Since most of them share the same basic structure, i.e. the transformer block, possible contributors to their success in the training process are scaling and instruction tuning. However, how these factors affect the models’ language perception is unclear. This work compares the self-attention of several existing LLMs (LLaMA, Alpaca and Vicuna) in different sizes (7B, 13B, 30B, 65B), together with eye saccade, an aspect of human reading attention, to assess the effect of scaling and instruction tuning on language perception. Results show that scaling enhances the human resemblance and improves the effective attention by reducing the trivial pattern reliance, while instruction tuning does not. However, instruction tuning significantly enhances the models’ sensitivity to instructions. We also find that current LLMs are consistently closer to non-native than native speakers in attention, suggesting a sub-optimal language perception of all models. Our code and data used in the analysis is available on GitHub.
arxiv情報
著者 | Changjiang Gao,Shujian Huang,Jixing Li,Jiajun Chen |
発行日 | 2023-10-29 17:16:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google