An Exploration of Self-Supervised Mutual Information Alignment for Multi-Task Settings

要約

個々の属性や好みに合わせて言語モデルを導くことができる、多元的な調整手法の必要性が高まっています。
そのような方法の 1 つである、相互情報による自己監視調整 (SAMI) は、条件付き相互情報を使用して、行動の好みとモデルの反応の間の関連付けを促進します。
マルチタスク設定で SAMI を調査する 2 つの実験を実施します。
まず、マルチタスク ベンチマーク (MT-Bench) で SAMI と Direct Preference Optimization (DPO) を比較します。このとき、より強力なモデルを使用して、さまざまなカテゴリ (人文科学、STEM、抽出、コーディング、数学、
推論とロールプレイ)。
私たちの結果は、SAMI の 1 回の反復で DPO に対して 57% の勝率があり、タスク カテゴリ間でパフォーマンスに大きなばらつきがあることを示しています。
次に、教師あり微調整 (SFT) と比較して、数学的精度 (GSM-8K) に対する SAMI の影響を調べます。
SAMI はゼロショットのパフォーマンスを 1.1% 向上させますが、SFT は 3.2% 向上させてより効果的です。
ただし、SAMI は興味深いスケーリング傾向を示しています。
10 回試行すると、SAMI は精度が 3.9% 向上し、SFT は 10.1% の向上を達成しました。
SAMI と SFT を組み合わせると、1 回の試行の精度は変わりませんが、複数回の試行設定でさらに 1.3% の改善が得られます。

要約(オリジナル)

There is a growing need for pluralistic alignment methods that can steer language models towards individual attributes and preferences. One such method, Self-Supervised Alignment with Mutual Information (SAMI), uses conditional mutual information to encourage the connection between behavioral preferences and model responses. We conduct two experiments exploring SAMI in multi-task settings. First, we compare SAMI to Direct Preference Optimization (DPO) on a multi-task benchmark (MT-Bench), using a stronger model to generate training data for a weaker one across diverse categories (humanities, STEM, extraction, coding, math, reasoning, and roleplay). Our results indicate that one iteration of SAMI has a 57% win rate against DPO, with significant variation in performance between task categories. Second, we examine SAMI’s impact on mathematical accuracy (GSM-8K) relative to supervised fine-tuning (SFT). While SAMI increases zero-shot performance by 1.1%, SFT is more effective with a 3.2% boost. However, SAMI shows interesting scaling trends. When given 10 attempts, SAMI improves accuracy by 3.9%, while SFT achieves a 10.1% increase. Combining SAMI with SFT yields an additional improvement of 1.3% in multi-attempt settings, though single-attempt accuracy remains unchanged.

arxiv情報

著者 Soham Govande
発行日 2024-10-02 16:15:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク