LeanPO: Lean Preference Optimization for Likelihood Alignment in Video-LLMs

要約

ほとんどのビデオ大規模な言語モデル(ビデオ-LLM)は、優先アライメント手法、例えばDPO〜 \ CITEP {rafailov2024DPo}を採用して、勝利応答($ y_w $)と負けた応答($ y_l $)の間の報酬マージンを最適化します。
ただし、DPOで観察される尤度変位は、$ \ log \ pi_ \ theta(y_w \ mid x)$と$ \ log \ pi_ \ theta(y_l \ mid x)$の両方が、トレーニング中にしばしば減少し、非ターゲット応答の確率を繰り返し高めることを示しています。
この論文では、この現象をLLMSからVideo-LLMに体系的に再検討し、ビデオコンテンツの冗長な複雑さを扱うときに強化されることを示しています。
この現象の影響を緩和するために、\ emphing {lean fearpencrefacre otimization}(leanpo)を提案します。これは、ポリシーモデルに関する応答の平均的な可能性として暗黙の報酬を再定式化する参照のないアプローチです。
LEANPOの重要な要素は、報酬と信頼性の相関自己生成優先データパイプラインであり、自己反省を介して優先データを継続的に改良しながら、関連する事前知識をモデルに慎重に注入します。
これにより、ポリシーモデルは高品質のペアデータを取得し、新たに定義された報酬を正確に推定できるため、意図しないドロップを軽減できます。
さらに、多様なビデオコンテンツからの応答におけるノイズの影響を軽減する動的なラベルスムージング戦略を導入し、モデルが過剰に適合しないようにします。
広範な実験は、Leanpoが最先端のビデオLLMのパフォーマンスを大幅に向上させ、さまざまな能力のベースラインを最小限の追加トレーニングオーバーヘッドで一貫して高めることを示しています。
さらに、Leanpoは、人間の信頼性とビデオLLMの好みを調整するためのシンプルで効果的なソリューションを提供し、信頼できる効率的なビデオLLMへの道を開いています。

要約(オリジナル)

Most Video Large Language Models (Video-LLMs) adopt preference alignment techniques, e.g., DPO~\citep{rafailov2024dpo}, to optimize the reward margin between a winning response ($y_w$) and a losing response ($y_l$). However, the likelihood displacement observed in DPO indicates that both $\log \pi_\theta (y_w\mid x)$ and $\log \pi_\theta (y_l\mid x) $ often decrease during training, inadvertently boosting the probabilities of non-target responses. In this paper, we systematically revisit this phenomenon from LLMs to Video-LLMs, showing that it intensifies when dealing with the redundant complexity of video content. To alleviate the impact of this phenomenon, we propose \emph{Lean Preference Optimization} (LeanPO), a reference-free approach that reformulates the implicit reward as the average likelihood of the response with respect to the policy model. A key component of LeanPO is the reward-trustworthiness correlated self-generated preference data pipeline, which carefully infuses relevant prior knowledge into the model while continuously refining the preference data via self-reflection. This allows the policy model to obtain high-quality paired data and accurately estimate the newly defined reward, thus mitigating the unintended drop. In addition, we introduce a dynamic label smoothing strategy that mitigates the impact of noise in responses from diverse video content, preventing the model from overfitting to spurious details. Extensive experiments demonstrate that LeanPO significantly enhances the performance of state-of-the-art Video-LLMs, consistently boosting baselines of varying capacities with minimal additional training overhead. Moreover, LeanPO offers a simple yet effective solution for aligning Video-LLM preferences with human trustworthiness, paving the way toward the reliable and efficient Video-LLMs.

arxiv情報

著者 Xiaodong Wang,Jinfa Huang,Li Yuan,Peixi Peng
発行日 2025-06-05 17:21:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク