要約
ユーザー情報のニーズは、多くの場合、非常に多様で多様です。
現在の研究における重要な課題は、テスト時間中に多様なユーザーの需要に対応するための迅速な適応を可能にしながら、制御可能な多目的生成を達成する方法です。
報酬のあるスープなどの既存のソリューションは、単一の目的で個別に調整された言語モデルのマージに焦点を当てています。
実装が容易で広く使用されていますが、これらのアプローチは、モデルチューニングに対する競合する目標の影響を無視するため、最適なパフォーマンスを達成するための制限に直面しています。
この問題に対処するために、骨スープを提案します。これは、複数の目的の影響を考慮して、最初に一連のバックボーンモデルを探してからスープを作成する(つまり、バックボーンモデルをマージする)骨スープを提案します。
具体的には、骨スープは、多目的強化学習を使用して、さまざまな目的で複数のバックボーンモデルをトレーニングすることから始まります。
各バックボーンモデルは、バックボーン報酬信号の組み合わせによって導かれます。
これらのモデルがパレートフロントに最適であることを確認するために、バックボーンの報酬は、標準の報酬関数を基底ベクトルに組み合わせることで作成され、ルールベースの構築方法を通じて変更できます。
骨スープは、対称循環マトリックスマッピングを活用して、ユーザーの好みに応じてバックボーンモデルをマージするために使用されるマージ係数を生成します。
広範な実験結果は、骨スープが制御可能な多目的生成において強力な制御性とパレートの最適性を示すことを示しており、テスト時に多様なユーザーニーズに対処するためのより効果的で効率的なアプローチを提供します。
要約(オリジナル)
User information needs are often highly diverse and varied. A key challenge in current research is how to achieve controllable multi-objective generation while enabling rapid adaptation to accommodate diverse user demands during test time. Existing solutions, such as Rewarded Soup, focus on merging language models individually tuned on single objectives. While easy to implement and widely used, these approaches face limitations in achieving optimal performance due to their disregard for the impacts of competing objectives on model tuning. To address this issue, we propose Bone Soup, a novel model merging approach that first seeks a series of backbone models by considering the impacts of multiple objectives and then makes the soup (i.e., merge the backbone models). Specifically, Bone Soup begins by training multiple backbone models for different objectives using multi-objective reinforcement learning. Each backbone model is guided by a combination of backbone reward signals. To ensure that these models are optimal for the Pareto front, the backbone rewards are crafted by combining standard reward functions into basis vectors, which can then be modified through a rule-based construction method. Bone Soup leverages a symmetric circulant matrix mapping to generate the merging coefficients, which are used to merge the backbone models according to user preferences. Extensive experimental results demonstrate that Bone Soup exhibits strong controllability and Pareto optimality in controllable multi-objective generation, providing a more effective and efficient approach to addressing diverse user needs at test time.
arxiv情報
著者 | Guofu Xie,Xiao Zhang,Ting Yao,Yunsheng Shi |
発行日 | 2025-06-02 12:51:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google