G-Adapter: Towards Structure-Aware Parameter-Efficient Transfer Learning for Graph Transformer Networks

要約

モデルパラメータ全体を微調整することで、大規模な事前トレーニング済みモデルの知識をさまざまな下流タスクに転送するパラダイムが一般的になっています。
ただし、モデルの規模が拡大し、ダウンストリーム タスクの数が増加するにつれて、このパラダイムは必然的に、計算消費量とメモリ フットプリントの問題に関する課題に直面します。
最近、パラメータ効率の良い微調整 (PEFT) (Adapter、LoRA、BitFit など) は、パラメータの一部のみを更新することでこれらの懸念を軽減する有望なパラダイムを示しています。
これらの PEFT は自然言語処理において満足のいくパフォーマンスを実証しましたが、これらの技術をグラフ トランスフォーマー ネットワーク (GTN) を使用したグラフベースのタスクに転用できるかどうかについては、まだ研究が進んでいません。
したがって、このホワイトペーパーでは、さまざまなグラフベースの下流タスクに関して従来の PEFT を使用した広範なベンチマークを提供することで、このギャップを埋めます。
私たちの実証研究では、特徴量分布のシフトの問題により、既存の PEFT をグラフベースのタスクに直接転送するのは次善であることが示されています。
この問題に対処するために、我々は、G-Adapter と呼ばれる新しい構造認識型 PEFT アプローチを提案します。これは、グラフ畳み込み演算を利用して、更新プロセスをガイドする誘導バイアスとしてグラフ構造 (グラフ隣接行列など) を導入します。
さらに、モデルの積極的な更新を防ぐことで特徴分布のシフトをさらに軽減するブレグマン近位点最適化を提案します。
広範な実験により、G-Adapter が 2 つの事前トレーニングされた GTN に基づく 9 つのグラフ ベンチマーク データセットで対応するものと比較して最先端のパフォーマンスを獲得し、従来のパラダイムと比較して驚異的なメモリ フットプリント効率を実現することが実証されました。

要約(オリジナル)

It has become a popular paradigm to transfer the knowledge of large-scale pre-trained models to various downstream tasks via fine-tuning the entire model parameters. However, with the growth of model scale and the rising number of downstream tasks, this paradigm inevitably meets the challenges in terms of computation consumption and memory footprint issues. Recently, Parameter-Efficient Fine-Tuning (PEFT) (e.g., Adapter, LoRA, BitFit) shows a promising paradigm to alleviate these concerns by updating only a portion of parameters. Despite these PEFTs having demonstrated satisfactory performance in natural language processing, it remains under-explored for the question of whether these techniques could be transferred to graph-based tasks with Graph Transformer Networks (GTNs). Therefore, in this paper, we fill this gap by providing extensive benchmarks with traditional PEFTs on a range of graph-based downstream tasks. Our empirical study shows that it is sub-optimal to directly transfer existing PEFTs to graph-based tasks due to the issue of feature distribution shift. To address this issue, we propose a novel structure-aware PEFT approach, named G-Adapter, which leverages graph convolution operation to introduce graph structure (e.g., graph adjacent matrix) as an inductive bias to guide the updating process. Besides, we propose Bregman proximal point optimization to further alleviate feature distribution shift by preventing the model from aggressive update. Extensive experiments demonstrate that G-Adapter obtains the state-of-the-art performance compared to the counterparts on nine graph benchmark datasets based on two pre-trained GTNs, and delivers tremendous memory footprint efficiency compared to the conventional paradigm.

arxiv情報

著者 Anchun Gui,Jinqiang Ye,Han Xiao
発行日 2023-05-17 16:10:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク