GNNavi: Navigating the Information Flow in Large Language Models by Graph Neural Network

要約

大規模言語モデル (LLM) は、デモンストレーション付きのプロンプトが使用される場合、強力なインコンテキスト学習 (ICL) 機能を発揮します。
ただし、適応性をさらに高めるためには、微調整が依然として重要です。
プロンプトベースの微調整は、データ量が少ないシナリオでは効果的な微調整方法であることが証明されていますが、コンピューティング リソースへの要求が高いため、実用性が制限されます。
私たちは、プロンプトベースのパラメーター効率の良い微調整 (PEFT) アプローチを導入することで、この問題に対処します。
GNNavi は、ラベルの単語がプロンプト内で情報伝播のアンカーとして機能することを示す、ICL の情報フロー ダイナミクスに関する洞察を活用します。
GNNavi は、グラフ ニューラル ネットワーク (GNN) レイヤーを採用し、必要な情報フローを GNN に配線することで、プロンプトの処理中に情報フローの集約と配布を正確にガイドします。
GPT-2 と Llama2 を使用したテキスト分類タスクの実験では、GNNavi がパラメーターのわずか 0.2% ~ 0.5% を更新するだけで、数回の設定で標準的なプロンプトベースの微調整方法を上回っていることがわかりました。
パフォーマンスと効率の観点から、GNNavi をプレフィックス チューニング、LoRA、アダプターなどの一般的な PEFT アプローチと比較します。
私たちの分析により、GNNavi が情報フローを強化し、明確な集計プロセスを保証することが明らかになりました。

要約(オリジナル)

Large Language Models (LLMs) exhibit strong In-Context Learning (ICL) capabilities when prompts with demonstrations are used. However, fine-tuning still remains crucial to further enhance their adaptability. Prompt-based fine-tuning proves to be an effective fine-tuning method in low-data scenarios, but high demands on computing resources limit its practicality. We address this issue by introducing a prompt-based parameter-efficient fine-tuning (PEFT) approach. GNNavi leverages insights into ICL’s information flow dynamics, which indicates that label words act in prompts as anchors for information propagation. GNNavi employs a Graph Neural Network (GNN) layer to precisely guide the aggregation and distribution of information flow during the processing of prompts by hardwiring the desired information flow into the GNN. Our experiments on text classification tasks with GPT-2 and Llama2 show GNNavi surpasses standard prompt-based fine-tuning methods in few-shot settings by updating just 0.2% to 0.5% of parameters. We compare GNNavi with prevalent PEFT approaches, such as prefix tuning, LoRA and Adapter in terms of performance and efficiency. Our analysis reveals that GNNavi enhances information flow and ensures a clear aggregation process.

arxiv情報

著者 Shuzhou Yuan,Ercong Nie,Michael Färber,Helmut Schmid,Hinrich Schütze
発行日 2024-06-07 14:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク