要約
大規模言語モデル(LLM)は目覚ましい成功を収めているが、LLMをユーザの意図に合わせるためには、命令チューニングが重要なステップとなる。本研究では、インストラクションチューニングがどのように事前学習されたモデルを調整するかを、内在的な変化に着目して調査する。具体的には、まず、入出力帰属のための勾配ベースの手法や、自己注意層とフィードフォワード層におけるパターンと概念を解釈するための手法など、いくつかの局所的・大域的な説明手法を開発する。次に、事前学習済みモデルと命令チューニング済みモデルから得られる説明を比較することで、命令チューニングの影響を調べる。このアプローチは、人間が理解可能なレベルでのモデルシフトの内部的な視点を提供する。1)LLMがユーザからのプロンプトの指示部分を認識できるようになり、その指示に基づいて常に応答が生成されるようになる。2)LLMの自己注意を促し、指示動詞に関する単語と単語の関係をより多く捉えることができる。3)フィードフォワードネットワークが、事前に学習した知識をユーザー指向のタスクに向けて回転させるよう促す。これらの洞察は、インストラクションチューニングのより包括的な理解に貢献し、様々なアプリケーションのためのLLMの説明と最適化を目指す将来の研究のための基礎を築く。我々のコードとデータは、https://github.com/JacksonWuxs/Interpret_Instruction_Tuning_LLMs で公開されている。
要約(オリジナル)
Large Language Models (LLMs) have achieved remarkable success, where instruction tuning is the critical step in aligning LLMs with user intentions. In this work, we investigate how the instruction tuning adjusts pre-trained models with a focus on intrinsic changes. Specifically, we first develop several local and global explanation methods, including a gradient-based method for input-output attribution, and techniques for interpreting patterns and concepts in self-attention and feed-forward layers. The impact of instruction tuning is then studied by comparing the explanations derived from the pre-trained and instruction-tuned models. This approach provides an internal perspective of the model shifts on a human-comprehensible level. Our findings reveal three significant impacts of instruction tuning: 1) It empowers LLMs to recognize the instruction parts of user prompts, and promotes the response generation constantly conditioned on the instructions. 2) It encourages the self-attention heads to capture more word-word relationships about instruction verbs. 3) It encourages the feed-forward networks to rotate their pre-trained knowledge toward user-oriented tasks. These insights contribute to a more comprehensive understanding of instruction tuning and lay the groundwork for future work that aims at explaining and optimizing LLMs for various applications. Our code and data are publicly available at https://github.com/JacksonWuxs/Interpret_Instruction_Tuning_LLMs.
arxiv情報
著者 | Xuansheng Wu,Wenlin Yao,Jianshu Chen,Xiaoman Pan,Xiaoyang Wang,Ninghao Liu,Dong Yu |
発行日 | 2024-04-04 16:30:31+00:00 |
arxivサイト | arxiv_id(pdf) |