VaiBot: Shuttle Between the Instructions and Parameters

要約

LLMとどのようにインタラクションするかは、研究者によって広く研究されている。しかし、これまでの研究では、指示の出現とタスクデータに対するLLMの学習は別個のプロセスとして扱われており、両者の間に内在する一体性を見落としていた。本稿では、VAEとVIBを統合したニューラルネットワークフレームワークVaiBotを提案し、LLMの下で演繹と帰納の両タスクを一様にモデル化し、学習し、推論するように設計する。実験を通して、VaiBotが演繹能力においては既存のベースライン手法と同等であり、帰納能力においては既存の手法を大きく上回ることを実証する。また、VaiBotは一般的な命令追従データを用いてスケールアップでき、優れた一発帰納能力を示すこともわかった。最後に、VaiBotの演繹過程と帰納過程を相乗的に統合する。T-SNE次元削減により、VaiBotの帰納的-演繹的プロセスは訓練パラメータの分布を大幅に改善し、帰納的推論タスクにおいてベースライン手法を凌駕することを確認した。この論文のコードとデータはhttps://anonymous.4open.science/r/VaiBot-021F。

要約(オリジナル)

How to interact with LLMs through \emph{instructions} has been widely studied by researchers. However, previous studies have treated the emergence of instructions and the training of LLMs on task data as separate processes, overlooking the inherent unity between the two. This paper proposes a neural network framework, VaiBot, that integrates VAE and VIB, designed to uniformly model, learn, and infer both deduction and induction tasks under LLMs. Through experiments, we demonstrate that VaiBot performs on par with existing baseline methods in terms of deductive capabilities while significantly surpassing them in inductive capabilities. We also find that VaiBot can scale up using general instruction-following data and exhibits excellent one-shot induction abilities. We finally synergistically integrate the deductive and inductive processes of VaiBot. Through T-SNE dimensionality reduction, we observe that its inductive-deductive process significantly improves the distribution of training parameters, enabling it to outperform baseline methods in inductive reasoning tasks. The code and data for this paper can be found at https://anonymous.4open.science/r/VaiBot-021F.

arxiv情報

著者 Wangtao Sun,Haotian Xu,Huanxuan Liao,Xuanqing Yu,Zhongtao Jiang,Shizhu He,Jun Zhao,Kang Liu
発行日 2025-02-04 13:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク