Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment

要約

大規模言語モデル (LLM) のインタラクティブな性質により、理論的にはモデルが答えを洗練し、改善することができますが、LLM のマルチターン動作の体系的な分析は依然として制限されています。
この論文では、フリップフロップ実験を提案します。会話の最初のラウンドで、LLM が分類タスクを完了します。
2 番目のラウンドでは、LLM は「よろしいですか?」のようなフォローアップ フレーズで挑戦され、モデルが最初の答えを振り返り、答えを確認するかひっくり返すかを決定する機会を提供します。
7 つの分類タスクに対する 10 個の LLM の体系的な研究により、モデルは平均 46% の確率で答えを反転し、すべてのモデルで最初の予測と最後の予測の間で精度が平均 17% 低下し、平均 17% の低下が見られることが明らかになりました (フリップフロップ効果)
)。
私たちはオープンソース LLM で微調整実験を実施し、合成的に作成されたデータを微調整するとパフォーマンスの低下を 60% 軽減することはできますが、おべっかな動作を完全には解決できないことがわかりました。
FlipFlop 実験は、LLM における媚びた行動の普遍性を示し、モデルの行動を分析し、将来のモデルを評価するための堅牢なフレームワークを提供します。

要約(オリジナル)

The interactive nature of Large Language Models (LLMs) theoretically allows models to refine and improve their answers, yet systematic analysis of the multi-turn behavior of LLMs remains limited. In this paper, we propose the FlipFlop experiment: in the first round of the conversation, an LLM completes a classification task. In a second round, the LLM is challenged with a follow-up phrase like ‘Are you sure?’, offering an opportunity for the model to reflect on its initial answer, and decide whether to confirm or flip its answer. A systematic study of ten LLMs on seven classification tasks reveals that models flip their answers on average 46% of the time and that all models see a deterioration of accuracy between their first and final prediction, with an average drop of 17% (the FlipFlop effect). We conduct finetuning experiments on an open-source LLM and find that finetuning on synthetically created data can mitigate – reducing performance deterioration by 60% – but not resolve sycophantic behavior entirely. The FlipFlop experiment illustrates the universality of sycophantic behavior in LLMs and provides a robust framework to analyze model behavior and evaluate future models.

arxiv情報

著者 Philippe Laban,Lidiya Murakhovs’ka,Caiming Xiong,Chien-Sheng Wu
発行日 2024-02-21 18:15:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク