Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality

要約

Fr\’echet Video Distance (FVD) は、ビデオ生成の配信品質を評価するために広く採用されている指標です。
ただし、その有効性は重要な前提に依存します。
私たちの分析により、次の 3 つの重大な制限が明らかになりました。(1) Inflated 3D Convnet (I3D) 特徴空間の非ガウス性。
(2) I3D 特徴は時間的な歪みに対して鈍感である。
(3) 信頼性の高い推定に必要なサンプル サイズが非現実的である。
これらの発見は、FVD の信頼性を損ない、FVD がビデオ生成評価の独立した指標として不十分であることを示しています。
幅広いメトリクスとバックボーン アーキテクチャの広範な分析を経て、多項式カーネルによる最大平均不一致を使用して測定された、ジョイント エンベディング予測アーキテクチャから導出された特徴に基づいた JEDi (JEPA エンベディング ディスタンス) を提案します。
複数のオープンソース データセットに対する私たちの実験では、これが広く使用されている FVD メトリクスの優れた代替手段であるという明らかな証拠が示されており、サンプルの 16% だけで定常値に到達するだけで、人間の評価との整合性が平均 34% 向上します。

要約(オリジナル)

The Fr\’echet Video Distance (FVD) is a widely adopted metric for evaluating video generation distribution quality. However, its effectiveness relies on critical assumptions. Our analysis reveals three significant limitations: (1) the non-Gaussianity of the Inflated 3D Convnet (I3D) feature space; (2) the insensitivity of I3D features to temporal distortions; (3) the impractical sample sizes required for reliable estimation. These findings undermine FVD’s reliability and show that FVD falls short as a standalone metric for video generation evaluation. After extensive analysis of a wide range of metrics and backbone architectures, we propose JEDi, the JEPA Embedding Distance, based on features derived from a Joint Embedding Predictive Architecture, measured using Maximum Mean Discrepancy with polynomial kernel. Our experiments on multiple open-source datasets show clear evidence that it is a superior alternative to the widely used FVD metric, requiring only 16% of the samples to reach its steady value, while increasing alignment with human evaluation by 34%, on average.

arxiv情報

著者 Ge Ya,Luo,Gian Favero,Zhi Hao Luo,Alexia Jolicoeur-Martineau,Christopher Pal
発行日 2024-10-07 17:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Finding Visual Task Vectors

要約

視覚的なプロンプトは、追加のトレーニングを行わずに、コンテキスト内の例を通じて視覚的なタスクを実行するようにモデルを教育するための手法です。
この研究では、最近のビジュアル プロンプティング モデルである MAE-VQGAN のアクティベーションを分析し、タスク固有の情報をエンコードするアクティベーションであるタスク ベクトルを見つけます。
この洞察を備えて、入出力の例を提供することなく、タスク ベクトルを特定し、それを使用してネットワークをさまざまなタスクの実行に導くことができることを実証します。
タスク ベクトルを見つけるには、タスクごとの平均中間アクティベーションを計算し、REINFORCE アルゴリズムを使用してタスク ベクトルのサブセットを検索します。
結果として得られるタスク ベクトルは、入出力例を必要とせずに、元のモデルよりも優れたタスクを実行できるようにモデルを導きます。

要約(オリジナル)

Visual Prompting is a technique for teaching models to perform a visual task via in-context examples, without any additional training. In this work, we analyze the activations of MAE-VQGAN, a recent Visual Prompting model, and find task vectors, activations that encode task-specific information. Equipped with this insight, we demonstrate that it is possible to identify the task vectors and use them to guide the network towards performing different tasks without providing any input-output examples. To find task vectors, we compute the average intermediate activations per task and use the REINFORCE algorithm to search for the subset of task vectors. The resulting task vectors guide the model towards performing a task better than the original model without the need for input-output examples.

arxiv情報

著者 Alberto Hojel,Yutong Bai,Trevor Darrell,Amir Globerson,Amir Bar
発行日 2024-10-07 17:10:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Organizing Unstructured Image Collections using Natural Language

要約

非構造化ビジュアル データをセマンティック クラスターに編成することは、コンピューター ビジョンにおける重要な課題です。
従来のディープ クラスタリング (DC) アプローチはデータの単一パーティションに焦点を当てていますが、マルチ クラスタリング (MC) 手法は、個別のクラスタリング ソリューションを明らかにすることでこの制限に対処します。
大規模言語モデル (LLM) とマルチモーダル LLM (MLLM) の台頭により、ユーザーが自然言語でクラスタリング基準を定義できるようになり、MC が強化されました。
ただし、大規模なデータセットの基準を手動で指定するのは現実的ではありません。
この研究では、大規模な画像コレクションからクラスタリング基準を自動的に検出し、人間の入力を必要とせずに解釈可能な部分構造を明らかにすることを目的としたタスク Semantic Multiple Clustering (SMC) を紹介します。
私たちのフレームワークである Text Driven Semantic Multiple Clustering (TeDeSC) は、テキストをプロキシとして使用して、大規模な画像コレクションを同時に推論し、自然言語で表現された分割基準を発見し、意味論的な下部構造を明らかにします。
TeDeSC を評価するために、COCO-4c および Food-4c ベンチマークを導入します。それぞれのベンチマークには 4 つのグループ化基準とグラウンド トゥルースの注釈が含まれています。
私たちは TeDeSC を、偏見の発見やソーシャル メディア画像の人気の分析などのさまざまなアプリケーションに適用し、画像コレクションを自動的に整理して新しい洞察を明らかにするツールとしての有用性を実証します。

要約(オリジナル)

Organizing unstructured visual data into semantic clusters is a key challenge in computer vision. Traditional deep clustering (DC) approaches focus on a single partition of data, while multiple clustering (MC) methods address this limitation by uncovering distinct clustering solutions. The rise of large language models (LLMs) and multimodal LLMs (MLLMs) has enhanced MC by allowing users to define clustering criteria in natural language. However, manually specifying criteria for large datasets is impractical. In this work, we introduce the task Semantic Multiple Clustering (SMC) that aims to automatically discover clustering criteria from large image collections, uncovering interpretable substructures without requiring human input. Our framework, Text Driven Semantic Multiple Clustering (TeDeSC), uses text as a proxy to concurrently reason over large image collections, discover partitioning criteria, expressed in natural language, and reveal semantic substructures. To evaluate TeDeSC, we introduce the COCO-4c and Food-4c benchmarks, each containing four grouping criteria and ground-truth annotations. We apply TeDeSC to various applications, such as discovering biases and analyzing social media image popularity, demonstrating its utility as a tool for automatically organizing image collections and revealing novel insights.

arxiv情報

著者 Mingxuan Liu,Zhun Zhong,Jun Li,Gianni Franchi,Subhankar Roy,Elisa Ricci
発行日 2024-10-07 17:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

The Dawn of Video Generation: Preliminary Explorations with SORA-like Models

要約

テキストからビデオ (T2V)、画像からビデオ (I2V)、およびビデオからビデオ (V2V) の生成を含む高品質のビデオ生成は、コンテンツ作成において非常に重要であり、誰もが本来持っている創造性を表現するのに役立ちます。
世界をモデル化して理解するための新しい方法と世界シミュレーション。
SORA のようなモデルは、特に長いビデオ シーケンスにおいて、より高い解像度、より自然な動き、より優れた視覚言語の調整、および向上した制御性を備えたビデオの生成を進歩させています。
これらの改善は、大規模なデータ拡張と洗練されたトレーニング戦略とともに、UNet からよりスケーラブルでパラメーターが豊富な DiT モデルへの移行というモデル アーキテクチャの進化によって推進されてきました。
しかし、DiT ベースのクローズドソースおよびオープンソース モデルの出現にもかかわらず、その機能と限界についての包括的な調査は依然として不足しています。
さらに、急速な開発により、最近のベンチマークが SORA のようなモデルを完全にカバーし、その重要な進歩を認識することが困難になっています。
さらに、評価指標が人間の好みと一致しないこともよくあります。

要約(オリジナル)

High-quality video generation, encompassing text-to-video (T2V), image-to-video (I2V), and video-to-video (V2V) generation, holds considerable significance in content creation to benefit anyone express their inherent creativity in new ways and world simulation to modeling and understanding the world. Models like SORA have advanced generating videos with higher resolution, more natural motion, better vision-language alignment, and increased controllability, particularly for long video sequences. These improvements have been driven by the evolution of model architectures, shifting from UNet to more scalable and parameter-rich DiT models, along with large-scale data expansion and refined training strategies. However, despite the emergence of DiT-based closed-source and open-source models, a comprehensive investigation into their capabilities and limitations remains lacking. Furthermore, the rapid development has made it challenging for recent benchmarks to fully cover SORA-like models and recognize their significant advancements. Additionally, evaluation metrics often fail to align with human preferences.

arxiv情報

著者 Ailing Zeng,Yuhang Yang,Weidong Chen,Wei Liu
発行日 2024-10-07 17:35:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

要約

最近の 3D ノベル ビュー合成 (NVS) 手法は、単一オブジェクト中心のシーンに限定されており、複雑な環境に対応するのに苦労しています。
多くの場合、トレーニングには大規模な 3D データが必要ですが、トレーニングの分布を超えた一般化が欠けています。
逆に、3D フリーの方法では、大量の 3D ベースのトレーニング データを必要とせずに、事前トレーニングされた安定した拡散モデルを使用して、複雑な自然のシーンのテキスト制御ビューを生成できますが、カメラ制御がありません。
この論文では、3D フリーのアプローチと 3D ベースのアプローチの利点を組み合わせて、単一の入力画像からカメラ制御の視点を生成できる方法を紹介します。
私たちの方法は、大規模なトレーニングや追加の 3D データやマルチビュー データを必要とせずに、複雑で多様なシーンを処理することに優れています。
弱いガイダンスには広く利用可能な事前トレーニング済み NVS モデルを活用し、この知識を 3D フリーのビュー合成アプローチに統合して、望ましい結果を達成します。
実験結果は、私たちの方法が定性的および定量的評価の両方で既存のモデルよりも優れており、さまざまなシーンにわたって希望のカメラ角度で高忠実度で一貫した新しいビューの合成を提供することを示しています。

要約(オリジナル)

Recent 3D novel view synthesis (NVS) methods are limited to single-object-centric scenes and struggle with complex environments. They often require extensive 3D data for training, lacking generalization beyond the training distribution. Conversely, 3D-free methods can generate text-controlled views of complex, in-the-wild scenes using a pretrained stable diffusion model without the need for a large amount of 3D-based training data, but lack camera control. In this paper, we introduce a method capable of generating camera-controlled viewpoints from a single input image, by combining the benefits of 3D-free and 3D-based approaches. Our method excels in handling complex and diverse scenes without extensive training or additional 3D and multiview data. It leverages widely available pretrained NVS models for weak guidance, integrating this knowledge into a 3D-free view synthesis approach to achieve the desired results. Experimental results demonstrate that our method outperforms existing models in both qualitative and quantitative evaluations, providing high-fidelity and consistent novel view synthesis at desired camera angles across a wide variety of scenes.

arxiv情報

著者 Taewon Kang,Divya Kothandaraman,Dinesh Manocha,Ming C. Lin
発行日 2024-10-07 17:39:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Generative Parameter-Efficient Fine-Tuning

要約

事前トレーニングされた Transformer バックボーンをダウンストリーム タスクに適応させるための Generative Parameter-Efficient Fine-Tuning (GIFT) を紹介します。
GIFT は、レイヤーの微調整された重みを事前トレーニングされた重みから直接生成することを学習します。
GIFT ネットワークは、2 つの線形層 (バイアス項なし) によって最小限の単純な方法でパラメータ化され、微調整のために選択されたさまざまな事前トレーニング済み層 (クエリ層など) によって共有されるため、GIFT ネットワークと比較してトレーニング可能なパラメータが大幅に少なくなります。
低ランク アダプター (LoRA) などのレイヤー固有のメソッド。
また、この定式化がパラメーター効率の高い微調整と表現の微調整を橋渡しすることも示します。
私たちは、自然言語タスク (常識と算術推論、命令チューニング、シーケンス分類) とコンピューター ビジョン タスク (詳細な分類) に関する包括的な実験を実行します。
常識的および算術推論のベースラインと、Llama ファミリのモデルを使用した指示に従って、および Vision Transformers を使用した視覚認識ベンチマークの中で、最高のパフォーマンスとパラメーター効率が得られました。
特に、LoRA と比較して、Llama-3 (8B) を使用した Commonsense170k のパラメータの 14 倍の削減により平均精度が 5.7% 絶対的に増加し、Llama-2 を使用してパラメータを 4 倍削減して勝率が 5.4% 絶対的に増加しました。
(7B) 命令チューニング中。
また、GIFT は、命令チューニングにおいて GPT 3.5 (Turbo 1106) よりもわずかに高い勝率を獲得しています。

要約(オリジナル)

We present Generative Parameter-Efficient Fine-Tuning (GIFT) for adapting pretrained Transformer backbones on downstream tasks. GIFT learns to generate the fine-tuned weights for a layer directly from its pretrained weights. The GIFT network is parameterized in a minimally-simple way by two linear layers (without bias terms), and is shared by different pretrained layers selected for fine-tuning (e.g., the Query layers), which result in significantly fewer trainable parameters compared to the layer-specific methods like Low-Rank Adapter (LoRA). We also show this formulation bridges parameter-efficient fine-tuning and representation fine-tuning. We perform comprehensive experiments on natural language tasks (commonsense and arithmetic reasoning, instruction tuning, and sequence classification) and computer vision tasks (fine-grained classification). We obtain the best performance and parameter efficiency among baselines on commonsense and arithmetic reasoning, and instruction following using the Llama family of models and on visual recognition benchmarks using Vision Transformers. Notably, compared to LoRA, we obtain 5.7% absolute increase in average accuracy with 14 times reduction of parameters on Commonsense170k using Llama-3 (8B), and 5.4% absolute increase in the win rate with 4 times reduction of parameters using Llama-2 (7B) during instruction tuning. Our GIFT also obtains a slightly higher win rate on instruction tuning than GPT 3.5 (Turbo 1106).

arxiv情報

著者 Chinmay Savadikar,Xi Song,Tianfu Wu
発行日 2024-10-07 17:40:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

SimO Loss: Anchor-Free Contrastive Loss for Fine-Grained Supervised Contrastive Learning

要約

私たちが提案する類似性直交性 (SimO) 損失を活用した、新しいアンカーフリー対比学習 (AFCL) 手法を紹介します。
私たちのアプローチは、2 つの重要な目的を同時に最適化するセミメトリック識別損失関数を最小化します。それは、類似した入力の埋め込み間の距離と直交性を削減すると同時に、異なる入力に対してこれらのメトリックを最大化し、よりきめの細かい対比学習を促進することです。
SimO 損失を活用した AFCL 手法は、埋め込み空間にファイバー束トポロジー構造を作成し、クラス固有の内部結合性がありながら直交する近傍を形成します。
CIFAR-10 データセットに対する手法の有効性を検証し、埋め込み空間に対する SimO 損失の影響を示す視覚化を提供します。
私たちの結果は、明確な直交クラス近傍の形成を示しており、クラス分離とクラス内変動性のバランスをとる、適切に構造化された埋め込みを作成するこのメソッドの能力を示しています。
この研究により、さまざまな機械学習タスクにおける学習された表現の幾何学的特性を理解して活用するための新しい道が開かれます。

要約(オリジナル)

We introduce a novel anchor-free contrastive learning (AFCL) method leveraging our proposed Similarity-Orthogonality (SimO) loss. Our approach minimizes a semi-metric discriminative loss function that simultaneously optimizes two key objectives: reducing the distance and orthogonality between embeddings of similar inputs while maximizing these metrics for dissimilar inputs, facilitating more fine-grained contrastive learning. The AFCL method, powered by SimO loss, creates a fiber bundle topological structure in the embedding space, forming class-specific, internally cohesive yet orthogonal neighborhoods. We validate the efficacy of our method on the CIFAR-10 dataset, providing visualizations that demonstrate the impact of SimO loss on the embedding space. Our results illustrate the formation of distinct, orthogonal class neighborhoods, showcasing the method’s ability to create well-structured embeddings that balance class separation with intra-class variability. This work opens new avenues for understanding and leveraging the geometric properties of learned representations in various machine learning tasks.

arxiv情報

著者 Taha Bouhsine,Imad El Aaroussi,Atik Faysal,Wang Huaxia
発行日 2024-10-07 17:41:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

DiffuseReg: Denoising Diffusion Model for Obtaining Deformation Fields in Unsupervised Deformable Image Registration

要約

変形可能な画像位置合わせは、さまざまなモダリティまたは時間からの医療画像を正確に位置合わせすることを目的としています。
従来の深層学習手法は効果的ではありますが、多くの場合、解釈可能性、リアルタイムの観測可能性、および登録推論時の調整能力に欠けています。
ノイズ除去拡散モデルは、レジストレーションを反復画像ノイズ除去として再定式化することにより、代替手段を提供します。
ただし、既存の拡散登録アプローチは機能を完全に活用しておらず、推論中の継続的な観測を可能にする重要なサンプリング段階を無視しています。
そこで、画像の代わりに変形フィールドのノイズを除去して透明度を向上させる革新的な拡散ベースの方法である DiffuseReg を紹介します。
また、Swin Transformer 上の新しいノイズ除去ネットワークも提案します。これは、ノイズ除去プロセス全体を通じて、移動画像と固定画像を拡散時間ステップでより適切に統合します。
さらに、新しい類似性一貫性正則化により、ノイズ除去登録プロセスの制御を強化します。
ACDC データセットの実験では、DiffuseReg が既存の拡散登録方法よりも Dice スコアで 1.32 優れていることが実証されました。
DiffuseReg のサンプリング プロセスにより、以前のディープ モデルでは実現できなかった、リアルタイムの出力観察と調整が可能になります。

要約(オリジナル)

Deformable image registration aims to precisely align medical images from different modalities or times. Traditional deep learning methods, while effective, often lack interpretability, real-time observability and adjustment capacity during registration inference. Denoising diffusion models present an alternative by reformulating registration as iterative image denoising. However, existing diffusion registration approaches do not fully harness capabilities, neglecting the critical sampling phase that enables continuous observability during the inference. Hence, we introduce DiffuseReg, an innovative diffusion-based method that denoises deformation fields instead of images for improved transparency. We also propose a novel denoising network upon Swin Transformer, which better integrates moving and fixed images with diffusion time step throughout the denoising process. Furthermore, we enhance control over the denoising registration process with a novel similarity consistency regularization. Experiments on ACDC datasets demonstrate DiffuseReg outperforms existing diffusion registration methods by 1.32 in Dice score. The sampling process in DiffuseReg enables real-time output observability and adjustment unmatched by previous deep models.

arxiv情報

著者 Yongtai Zhuo,Yiqing Shen
発行日 2024-10-07 17:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

LoTLIP: Improving Language-Image Pre-training for Long Text Understanding

要約

長いテキストを理解することは実際には大きな要求ですが、ほとんどの言語画像事前トレーニング (LIP) モデルでは実現できません。
この研究では、このような問題を引き起こす主な理由は、トレーニング画像が通常短いキャプションと組み合わされており、特定のトークンが顕著なトークンによって簡単に隠れてしまうためであることを経験的に確認しました。
この問題に対して、私たちの最初の試みは、長いキャプションでデータを再ラベルすることですが、それを直接学習すると、短いテキストを理解する際のパフォーマンスの低下につながる可能性があります (画像分類タスクなど)。
次に、コーナー トークンを組み込んで多様なテキスト情報を集約した後、モデルが本来の短文理解レベルに追いつきながら、長文理解能力を大幅に強化できるようにしました。
さらに、モデルが長いキャプションから継続的に恩恵を受けることができるかどうかを調査し、パフォーマンスと効率の間に明確なトレードオフがあることに気付きました。
最後に、100M の長いキャプション指向のテキストと画像のペアで構成される自己構築された大規模データセットを使用して、アプローチの有効性を検証します。
注目に値するのは、長いテキストの画像検索のタスクにおいて、長いキャプションを使用する競合他社に 11.1% の向上 (つまり、72.62% から 83.72% へ) で勝ったことです。
再現性とさらなる研究を促進するために、コード、モデル、および新しいデータセットをリリースします。
プロジェクト ページは https://wuw2019.github.io/lotlip で利用できます。

要約(オリジナル)

Understanding long text is of great demands in practice but beyond the reach of most language-image pre-training (LIP) models. In this work, we empirically confirm that the key reason causing such an issue is that the training images are usually paired with short captions, leaving certain tokens easily overshadowed by salient tokens. Towards this problem, our initial attempt is to relabel the data with long captions, however, directly learning with which may lead to performance degradation in understanding short text (e.g., in the image classification task). Then, after incorporating corner tokens to aggregate diverse textual information, we manage to help the model catch up to its original level of short text understanding yet greatly enhance its capability of long text understanding. We further look into whether the model can continuously benefit from longer captions and notice a clear trade-off between the performance and the efficiency. Finally, we validate the effectiveness of our approach using a self-constructed large-scale dataset, which consists of 100M long caption oriented text-image pairs. It is noteworthy that, on the task of long-text image retrieval, we beat the competitor using long captions with 11.1% improvement (i.e., from 72.62% to 83.72%). We will release the code, the model, and the new dataset to facilitate the reproducibility and further research. The project page is available at https://wuw2019.github.io/lotlip.

arxiv情報

著者 Wei Wu,Kecheng Zheng,Shuailei Ma,Fan Lu,Yuxin Guo,Yifei Zhang,Wei Chen,Qingpei Guo,Yujun Shen,Zheng-Jun Zha
発行日 2024-10-07 17:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

SePPO: Semi-Policy Preference Optimization for Diffusion Alignment

要約

ヒューマン フィードバックからの強化学習 (RLHF) 手法は、ビジュアル生成用の拡散モデル (DM) を微調整する方法として登場しています。
ただし、一般的に使用されるオンポリシー戦略は報酬モデルの汎化機能によって制限される一方、オフポリシーアプローチでは、特にビジュアル生成タスクにおいて、人間が注釈を付けたペアの取得が困難な大量のデータが必要になります。
ポリシー上およびポリシー外の両方の RLHF の制限に対処するために、報酬モデルやペアの人間による注釈付きデータに依存せずに、DM を好みに合わせて調整する好みの最適化方法を提案します。
具体的には、Semi-Policy Preference Optimization (SePPO) 手法を導入します。
SePPO は、以前のチェックポイントを参照モデルとして活用しながら、それらを使用してポリシーに準拠した参照サンプルを生成し、優先ペアの「失われたイメージ」を置き換えます。
このアプローチにより、ポリシー外の「勝利イメージ」のみを使用して最適化することができます。
さらに、政策空間の探索を拡大する参照モデル選択の戦略を設計します。
注目すべきは、参照サンプルを単に学習の否定的な例として扱うわけではないということです。
代わりに、参照サンプルが画像に勝つ可能性があるか負ける可能性があるかを評価するアンカーベースの基準を設計し、生成された参照サンプルからモデルが選択的に学習できるようにします。
このアプローチにより、参照サンプルの品質の不確実性によって引き起こされるパフォーマンスの低下が軽減されます。
テキストから画像へのベンチマークとテキストからビデオへのベンチマークの両方で SePPO を検証します。
SePPO は、テキストから画像へのベンチマークでこれまでのすべてのアプローチを上回り、テキストからビデオへのベンチマークでも優れたパフォーマンスを示します。
コードは https://github.com/DwanZhang-AI/SePPO でリリースされます。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) methods are emerging as a way to fine-tune diffusion models (DMs) for visual generation. However, commonly used on-policy strategies are limited by the generalization capability of the reward model, while off-policy approaches require large amounts of difficult-to-obtain paired human-annotated data, particularly in visual generation tasks. To address the limitations of both on- and off-policy RLHF, we propose a preference optimization method that aligns DMs with preferences without relying on reward models or paired human-annotated data. Specifically, we introduce a Semi-Policy Preference Optimization (SePPO) method. SePPO leverages previous checkpoints as reference models while using them to generate on-policy reference samples, which replace ‘losing images’ in preference pairs. This approach allows us to optimize using only off-policy ‘winning images.’ Furthermore, we design a strategy for reference model selection that expands the exploration in the policy space. Notably, we do not simply treat reference samples as negative examples for learning. Instead, we design an anchor-based criterion to assess whether the reference samples are likely to be winning or losing images, allowing the model to selectively learn from the generated reference samples. This approach mitigates performance degradation caused by the uncertainty in reference sample quality. We validate SePPO across both text-to-image and text-to-video benchmarks. SePPO surpasses all previous approaches on the text-to-image benchmarks and also demonstrates outstanding performance on the text-to-video benchmarks. Code will be released in https://github.com/DwanZhang-AI/SePPO.

arxiv情報

著者 Daoan Zhang,Guangchen Lan,Dong-Jun Han,Wenlin Yao,Xiaoman Pan,Hongming Zhang,Mingxiao Li,Pengcheng Chen,Yu Dong,Christopher Brinton,Jiebo Luo
発行日 2024-10-07 17:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする