Effective Dual-Region Augmentation for Reduced Reliance on Large Amounts of Labeled Data

要約

このペーパーでは、大規模なラベル付きデータセットへの依存を減らし、ソースフリードメイン適応(SFDA)や個人の再識別(REID)を含む多様なコンピュータービジョンタスク全体でモデルの堅牢性と適応性を改善するように設計された新しいデュアルレジオン増強アプローチを紹介します。
この方法は、ランダムノイズの摂動を前景オブジェクトに適用し、背景パッチを空間的にシャッフルすることにより、ターゲットデータ変換を実行します。
これにより、トレーニングデータの多様性が効果的に向上し、モデルの堅牢性と一般化が改善されます。
SFDAのPACSデータセットの評価は、当社の増強戦略が既存の方法を常に上回り、シングルターゲットとマルチターゲットの両方の適応設定の両方で大幅な精度の向上を達成することを示しています。
構造化された変換を通じてトレーニングデータを増強することにより、この方法により、ドメイン全体でモデルの一般化が可能になり、手動で注釈されたデータセットへの依存を減らすためのスケーラブルなソリューションが提供されます。
さらに、Market-1501およびDukemtmc-reidデータセットでの実験は、従来の増強技術を上回る人のアプローチの有効性を検証します。

要約(オリジナル)

This paper introduces a novel dual-region augmentation approach designed to reduce reliance on large-scale labeled datasets while improving model robustness and adaptability across diverse computer vision tasks, including source-free domain adaptation (SFDA) and person re-identification (ReID). Our method performs targeted data transformations by applying random noise perturbations to foreground objects and spatially shuffling background patches. This effectively increases the diversity of the training data, improving model robustness and generalization. Evaluations on the PACS dataset for SFDA demonstrate that our augmentation strategy consistently outperforms existing methods, achieving significant accuracy improvements in both single-target and multi-target adaptation settings. By augmenting training data through structured transformations, our method enables model generalization across domains, providing a scalable solution for reducing reliance on manually annotated datasets. Furthermore, experiments on Market-1501 and DukeMTMC-reID datasets validate the effectiveness of our approach for person ReID, surpassing traditional augmentation techniques.

arxiv情報

著者 Prasanna Reddy Pulakurthi,Majid Rabbani,Celso M. de Melo,Sohail A. Dianat,Raghuveer M. Rao
発行日 2025-04-17 16:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Effective Dual-Region Augmentation for Reduced Reliance on Large Amounts of Labeled Data はコメントを受け付けていません

Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions

要約

DNNSの堅牢性は、特に局所的な腐敗が発生する可能性のある複雑で動的な環境では、安全性の高いアプリケーションの重要な要因です。
以前の研究では、全画像の自然腐敗または敵対的な腐敗の下でのセマンティックセグメンテーション(SS)モデルの堅牢性を評価していましたが、局所的な腐敗における密な視力モデルの空間的堅牢性に関する包括的な調査は、未熟なままでした。
このペーパーでは、セグメンテーションモデルの空間的堅牢性をベンチマークするための特殊なメトリックを導入し、局所的な腐敗の影響を評価するための評価フレームワークを導入することにより、このギャップを埋めます。
さらに、単一の局所的な敵対的摂動を使用して、最悪の堅牢性を特徴付けるという固有の複雑さを明らかにします。
これに対処するために、地域を認識しているマルチアタック敵対的分析を提案します。これは、特定の地域に適用される敵対的摂動に対するモデルの堅牢性のより深い理解を可能にする方法です。
提案されたメトリックと分析は、運転シナリオで14のセグメンテーションモデルを評価するために活用され、自然型と敵対的な形態の両方における局所的な腐敗の影響に関する重要な洞察を明らかにしました。
結果は、モデルがこれらの2種類の脅威に異なる反応をもたらすことを明らかにしています。
たとえば、トランスベースのセグメンテーションモデルは、局所的な自然腐敗に対する顕著な堅牢性を示していますが、敵対的な腐敗に対して非常に脆弱であり、CNNベースのモデルの逆も同様です。
その結果、アンサンブルモデルによって自然および敵対的な局所的な腐敗の両方に堅牢性のバランスをとるという課題にも対処し、それにより、より広範な脅威カバレッジと密な視力課題の信頼性が向上します。

要約(オリジナル)

The robustness of DNNs is a crucial factor in safety-critical applications, particularly in complex and dynamic environments where localized corruptions can arise. While previous studies have evaluated the robustness of semantic segmentation (SS) models under whole-image natural or adversarial corruptions, a comprehensive investigation into the spatial robustness of dense vision models under localized corruptions remained underexplored. This paper fills this gap by introducing specialized metrics for benchmarking the spatial robustness of segmentation models, alongside with an evaluation framework to assess the impact of localized corruptions. Furthermore, we uncover the inherent complexity of characterizing worst-case robustness using a single localized adversarial perturbation. To address this, we propose region-aware multi-attack adversarial analysis, a method that enables a deeper understanding of model robustness against adversarial perturbations applied to specific regions. The proposed metrics and analysis were exploited to evaluate 14 segmentation models in driving scenarios, uncovering key insights into the effects of localized corruption in both natural and adversarial forms. The results reveal that models respond to these two types of threats differently; for instance, transformer-based segmentation models demonstrate notable robustness to localized natural corruptions but are highly vulnerable to adversarial ones and vice-versa for CNN-based models. Consequently, we also address the challenge of balancing robustness to both natural and adversarial localized corruptions by means of ensemble models, thereby achieving a broader threat coverage and improved reliability for dense vision tasks.

arxiv情報

著者 Giulia Marchiori Pietrosanti,Giulio Rossolini,Alessandro Biondi,Giorgio Buttazzo
発行日 2025-04-17 16:43:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions はコメントを受け付けていません

Enhancing Person-to-Person Virtual Try-On with Multi-Garment Virtual Try-Off

要約

コンピュータービジョンは、Virtual Try-On(VTON)と仮想トリオフ(VTOFF)を通じてファッションを変換しています。
VTONは、ターゲット写真と標準化された衣服の画像を使用して指定された衣服にいる人の画像を生成しますが、より挑戦的なバリアント、人から人から人への仮想トライオン(P2P-Vton)は、衣服を着ている他の人の写真を使用します。
一方、vtoffは、服を着た個人から標準化された衣服の画像を抽出します。
拡散ベースのVTOFFモデルであるTryOffdiffを紹介します。
Siglip画像コンディショニングを備えた潜在的な拡散フレームワークの上に構築され、テクスチャ、形状、パターンなどの衣服の特性を効果的にキャプチャします。
TryOffdiffは、Viton-HDで最先端の結果を達成し、ドレスコードデータセットで強力なパフォーマンスを実現し、上半身、下半身、およびドレスをカバーしています。
クラス固有の埋め込みで強化された、それはこの種の最初のパイオニアマルチガレメントVtoffです。
VTONモデルと組み合わせると、肌の色などの不要な属性伝達を最小限に抑えることにより、P2P-Vtonを改善します。
コードはhttps://rizavelioglu.github.io/tryoffdiff/で入手できます

要約(オリジナル)

Computer vision is transforming fashion through Virtual Try-On (VTON) and Virtual Try-Off (VTOFF). VTON generates images of a person in a specified garment using a target photo and a standardized garment image, while a more challenging variant, Person-to-Person Virtual Try-On (p2p-VTON), uses a photo of another person wearing the garment. VTOFF, on the other hand, extracts standardized garment images from clothed individuals. We introduce TryOffDiff, a diffusion-based VTOFF model. Built on a latent diffusion framework with SigLIP image conditioning, it effectively captures garment properties like texture, shape, and patterns. TryOffDiff achieves state-of-the-art results on VITON-HD and strong performance on DressCode dataset, covering upper-body, lower-body, and dresses. Enhanced with class-specific embeddings, it pioneers multi-garment VTOFF, the first of its kind. When paired with VTON models, it improves p2p-VTON by minimizing unwanted attribute transfer, such as skin color. Code is available at: https://rizavelioglu.github.io/tryoffdiff/

arxiv情報

著者 Riza Velioglu,Petra Bevandic,Robin Chan,Barbara Hammer
発行日 2025-04-17 16:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Enhancing Person-to-Person Virtual Try-On with Multi-Garment Virtual Try-Off はコメントを受け付けていません

EventVAD: Training-Free Event-Aware Video Anomaly Detection

要約

ビデオアノマリー検出〜(VAD)は、ビデオ内の異常の識別に焦点を当てています。
監視された方法では、ドメイン内のトレーニングデータの量が必要であり、目に見えない異常に一般化するのに苦労することがよくあります。
対照的に、トレーニングフリーの方法は、大規模な言語モデル(LLM)の本質的な世界知識を活用して異常を検出しますが、きめ細かい視覚的遷移と多様なイベントをローカライズする際の課題に直面しています。
したがって、時間のイベント推論を通じて、テーラードダイナミックグラフアーキテクチャとマルチモーダルLLMSを組み合わせたイベントを意識したビデオアノマリー検出フレームワークであるEventVadを提案します。
具体的には、EventVadは最初に、時間依存の制約を備えた動的な時空間グラフモデリングを使用して、イベント認識ビデオ機能をキャプチャします。
次に、適応型ノイズフィルタリングを実行し、信号比のしきい値を使用して、監視されていない統計的特徴を介してイベント境界を検出します。
統計的境界検出モジュールは、MLLMSの長いビデオの処理の複雑さを減らし、イベントの一貫性を通じて時間的推論を改善します。
最後に、最終決定を決定する前に、推論を実行する際にMLLMを導くための階層的なプロンプト戦略を利用します。
UCF犯罪およびXD暴力データセットに関する広範な実験を実施しました。
結果は、7B MLLMを備えたEventVadがトレーニングなしの設定で最先端(SOTA)を達成し、7B以上のMLLMを使用する強力なベースラインを上回ることを示しています。

要約(オリジナル)

Video Anomaly Detection~(VAD) focuses on identifying anomalies within videos. Supervised methods require an amount of in-domain training data and often struggle to generalize to unseen anomalies. In contrast, training-free methods leverage the intrinsic world knowledge of large language models (LLMs) to detect anomalies but face challenges in localizing fine-grained visual transitions and diverse events. Therefore, we propose EventVAD, an event-aware video anomaly detection framework that combines tailored dynamic graph architectures and multimodal LLMs through temporal-event reasoning. Specifically, EventVAD first employs dynamic spatiotemporal graph modeling with time-decay constraints to capture event-aware video features. Then, it performs adaptive noise filtering and uses signal ratio thresholding to detect event boundaries via unsupervised statistical features. The statistical boundary detection module reduces the complexity of processing long videos for MLLMs and improves their temporal reasoning through event consistency. Finally, it utilizes a hierarchical prompting strategy to guide MLLMs in performing reasoning before determining final decisions. We conducted extensive experiments on the UCF-Crime and XD-Violence datasets. The results demonstrate that EventVAD with a 7B MLLM achieves state-of-the-art (SOTA) in training-free settings, outperforming strong baselines that use 7B or larger MLLMs.

arxiv情報

著者 Yihua Shao,Haojin He,Sijie Li,Siyu Chen,Xinwei Long,Fanhu Zeng,Yuxuan Fan,Muyang Zhang,Ziyang Yan,Ao Ma,Xiaochen Wang,Hao Tang,Yan Wang,Shuyan Li
発行日 2025-04-17 16:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EventVAD: Training-Free Event-Aware Video Anomaly Detection はコメントを受け付けていません

RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

要約

この研究では、ラベルのあいまいさ、オクルージョン、およびバックグラウンドブレンドでマークされた複雑な果樹園環境でグリーンフルーツを検出するためのRF-DERTオブジェクト検出ベースモデルとYOLOV12オブジェクト検出モデル構成の詳細な比較を実施します。
シングルクラス(グリーンフルーツ)とマルチクラス(オクルドおよび非閉鎖グリーンフルーツ)の両方の注釈を備えたカスタムデータセットが開発され、動的な現実世界の条件下でモデルのパフォーマンスを評価しました。
DinoV2バックボーンと変形可能な注意を利用して、グローバルなコンテキストモデリングに優れているRF-Detrオブジェクト検出モデルは、部分的に閉塞または曖昧なグリーンフルーツを効果的に識別しました。
対照的に、Yolov12は、局所的な特徴抽出を強化するためにCNNベースの注意をレバレバリングし、計算効率とエッジ展開のために最適化しました。
RF-Detrは、シングルクラスの検出で0.9464の最高平均平均精度(MAP50)を達成し、散らかったシーンでグリーンフルーツをローカライズする優れた能力を証明しました。
Yolov12Nは0.7620の50:95@50:95の最高マップを記録しましたが、RF-Detrは複雑な空間シナリオで一貫してアウトパフォームしました。
マルチクラス検出の場合、RF-Detrは0.8298の50@50でMAPでLEDを使用し、閉塞性と非閉塞性の果物を区別する能力を示し、Yolov12Lは0.6622でMAP@50:95で最高のスコアを獲得し、詳細なオクルージョンの状況でより良い分類を示しました。
トレーニングダイナミクス分析では、特に10エポック内でプラトーになったシングルクラスの設定で、RF-Detrの迅速な収束が強調されており、動的視覚データへの適応におけるトランスベースのアーキテクチャの効率を示しています。
これらの調査結果は、Yolov12が高速応答シナリオに適しているため、RF-Detrの精密な農業用途に対する有効性を検証します。
>インデックス項:RF-Detrオブジェクト検出、Yolov12、Yolov13、Yolov14、Yolov15、Yoloe、Yolo World、Yolo、あなたは一度だけ、roboflow、検出トランス、CNNS

要約(オリジナル)

This study conducts a detailed comparison of RF-DETR object detection base model and YOLOv12 object detection model configurations for detecting greenfruits in a complex orchard environment marked by label ambiguity, occlusions, and background blending. A custom dataset was developed featuring both single-class (greenfruit) and multi-class (occluded and non-occluded greenfruits) annotations to assess model performance under dynamic real-world conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and deformable attention, excelled in global context modeling, effectively identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12 leveraged CNN-based attention for enhanced local feature extraction, optimizing it for computational efficiency and edge deployment. RF-DETR achieved the highest mean Average Precision (mAP50) of 0.9464 in single-class detection, proving its superior ability to localize greenfruits in cluttered scenes. Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR consistently outperformed in complex spatial scenarios. For multi-class detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to differentiate between occluded and non-occluded fruits, while YOLOv12L scored highest in mAP@50:95 with 0.6622, indicating better classification in detailed occlusion contexts. Training dynamics analysis highlighted RF-DETR’s swift convergence, particularly in single-class settings where it plateaued within 10 epochs, demonstrating the efficiency of transformer-based architectures in adapting to dynamic visual data. These findings validate RF-DETR’s effectiveness for precision agricultural applications, with YOLOv12 suited for fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs

arxiv情報

著者 Ranjan Sapkota,Rahul Harsha Cheppally,Ajay Sharda,Manoj Karkee
発行日 2025-04-17 17:08:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity はコメントを受け付けていません

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

要約

生成芸術の急速な進歩は、視覚的に心地よいイメージの作成を民主化しました。
しかし、本物の芸術的影響を達成すること – より深く、より意味のあるレベルで視聴者と共鳴する種類 – には、洗練された美的感性が必要です。
この感性には、単なる視覚的魅力を超えて拡張される多面的な推論プロセスが含まれます。これは、現在の計算モデルで見落とされがちです。
この論文は、マルチモーダルLLMS(MLLM)の推論能力が審美的判断のためにどのように効果的に引き出されるかを調査することにより、この複雑なプロセスをキャプチャするアプローチを開拓します。
私たちの分析は重要な課題を明らかにしています。MLLMSは、主観的な意見と根拠のない芸術的解釈を特徴とする審美的推論中に幻覚に向けた傾向を示します。
さらに、これらの制限は、提案されたベースラインであるArtcotによって実証されているように、証拠に基づいた客観的推論プロセスを採用することで克服できることを実証します。
この原則によって促されたMLLMSは、人間の判断に非常に優れている多面的で詳細な審美的推論を生成します。
これらの調査結果は、AIアートの個別指導や生成芸術の報酬モデルなどの分野で直接的な応用を備えています。
最終的に、私たちの作品は、賢明な人間の美的基準と一致するアートワークを真に理解し、感謝し、生成できるAIシステムへの道を開きます。

要約(オリジナル)

The rapid progress of generative art has democratized the creation of visually pleasing imagery. However, achieving genuine artistic impact – the kind that resonates with viewers on a deeper, more meaningful level – requires a sophisticated aesthetic sensibility. This sensibility involves a multi-faceted reasoning process extending beyond mere visual appeal, which is often overlooked by current computational models. This paper pioneers an approach to capture this complex process by investigating how the reasoning capabilities of Multimodal LLMs (MLLMs) can be effectively elicited for aesthetic judgment. Our analysis reveals a critical challenge: MLLMs exhibit a tendency towards hallucinations during aesthetic reasoning, characterized by subjective opinions and unsubstantiated artistic interpretations. We further demonstrate that these limitations can be overcome by employing an evidence-based, objective reasoning process, as substantiated by our proposed baseline, ArtCoT. MLLMs prompted by this principle produce multi-faceted and in-depth aesthetic reasoning that aligns significantly better with human judgment. These findings have direct applications in areas such as AI art tutoring and as reward models for generative art. Ultimately, our work paves the way for AI systems that can truly understand, appreciate, and generate artworks that align with the sensible human aesthetic standard.

arxiv情報

著者 Ruixiang Jiang,Changwen Chen
発行日 2025-04-17 17:14:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Multimodal LLMs Can Reason about Aesthetics in Zero-Shot はコメントを受け付けていません

UniEdit-Flow: Unleashing Inversion and Editing in the Era of Flow Models

要約

フローマッチングモデルは、拡散モデルの強力な代替品として浮上していますが、拡散のために設計された既存の反転および編集方法は、しばしば効果がないか、適用できません。
フローモデルの直線で非交差する軌跡は、拡散ベースのアプローチに課題をもたらしますが、新しいソリューションのオープンな道ももたらします。
このホワイトペーパーでは、フローモデルでの反転と編集のための予測因子保証ベースのフレームワークを紹介します。
まず、正確な再構成のために設計された効果的な反転法であるUNI-INVを提案します。
これに基づいて、遅延インジェクションの概念をフローモデルに拡張し、地域を認識し、堅牢な画像編集アプローチであるUni-Editを導入します。
私たちの方法論は、チューニング、モデルに依存しない、効率的で効果的であり、編集に関係なく強力な保存を確保しながら、多様な編集を可能にします。
さまざまな生成モデルにわたる広範な実験は、低コストの設定であっても、UNI-INVおよびUNI-EDITの優位性と一般化可能性を示しています。
プロジェクトページ:https://uniedit-flow.github.io/

要約(オリジナル)

Flow matching models have emerged as a strong alternative to diffusion models, but existing inversion and editing methods designed for diffusion are often ineffective or inapplicable to them. The straight-line, non-crossing trajectories of flow models pose challenges for diffusion-based approaches but also open avenues for novel solutions. In this paper, we introduce a predictor-corrector-based framework for inversion and editing in flow models. First, we propose Uni-Inv, an effective inversion method designed for accurate reconstruction. Building on this, we extend the concept of delayed injection to flow models and introduce Uni-Edit, a region-aware, robust image editing approach. Our methodology is tuning-free, model-agnostic, efficient, and effective, enabling diverse edits while ensuring strong preservation of edit-irrelevant regions. Extensive experiments across various generative models demonstrate the superiority and generalizability of Uni-Inv and Uni-Edit, even under low-cost settings. Project page: https://uniedit-flow.github.io/

arxiv情報

著者 Guanlong Jiao,Biqing Huang,Kuan-Chieh Wang,Renjie Liao
発行日 2025-04-17 17:24:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniEdit-Flow: Unleashing Inversion and Editing in the Era of Flow Models はコメントを受け付けていません

Probing and Inducing Combinational Creativity in Vision-Language Models

要約

既存の概念を斬新なアイデアに組み合わせる能力は、人間の知性の基本的な特徴として存在します。
GPT-4VやDalle-3などの視覚言語モデル(VLM)の最近の進歩は、出力がM. A. Boden(1998)によって定義されている組み合わせの創造性を反映しているかどうかについての議論を引き起こしました。
認知科学からインスピレーションを得て、コンセプトブレンドのレンズからのVLMの組み合わせの創造性を調査します。
識別と説明 – 実装(IEI)フレームワークを提案します。これは、クリエイティブプロセスを3つのレベルに分解し、入力スペースの識別、共有属性の抽出、新しい意味の意味を導き出すという3つのレベルに分解されます。
このフレームワークを検証するために、IEIフレームワークに従って注釈が付けられた666人のアーティストで生成された視覚マッシュアップの高品質のデータセットであるCreativeMashupをキュレートします。
広範な実験を通じて、理解タスクでは、最高のVLMが平均的な人間のパフォーマンスを上回っている間、専門家レベルの理解に達していないことを実証します。
生成タスクでは、IEIフレームワークを生成パイプラインに組み込むことで、VLMS出力の創造的な品質が大幅に向上します。
私たちの調査結果は、人工的な創造性を評価するための理論的基盤と、VLMSの創造的生成を改善するための実用的なガイドラインの両方を確立しています。

要約(オリジナル)

The ability to combine existing concepts into novel ideas stands as a fundamental hallmark of human intelligence. Recent advances in Vision-Language Models (VLMs) like GPT-4V and DALLE-3 have sparked debate about whether their outputs reflect combinational creativity–defined by M. A. Boden (1998) as synthesizing novel ideas through combining existing concepts–or sophisticated pattern matching of training data. Drawing inspiration from cognitive science, we investigate the combinational creativity of VLMs from the lens of concept blending. We propose the Identification-Explanation-Implication (IEI) framework, which decomposes creative processes into three levels: identifying input spaces, extracting shared attributes, and deriving novel semantic implications. To validate this framework, we curate CreativeMashup, a high-quality dataset of 666 artist-generated visual mashups annotated according to the IEI framework. Through extensive experiments, we demonstrate that in comprehension tasks, best VLMs have surpassed average human performance while falling short of expert-level understanding; in generation tasks, incorporating our IEI framework into the generation pipeline significantly enhances the creative quality of VLMs outputs. Our findings establish both a theoretical foundation for evaluating artificial creativity and practical guidelines for improving creative generation in VLMs.

arxiv情報

著者 Yongqian Peng,Yuxi Ma,Mengmeng Wang,Yuxuan Wang,Yizhou Wang,Chi Zhang,Yixin Zhu,Zilong Zheng
発行日 2025-04-17 17:38:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Probing and Inducing Combinational Creativity in Vision-Language Models はコメントを受け付けていません

VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models

要約

大規模な言語モデル(LLM)に基づいて構築された大規模なビデオモデル(LVM)は、ビデオの理解に有望を示していますが、しばしば人間の直観とビデオの幻覚の問題との不整合に苦しんでいます。
これらの課題に対処するために、Vistadpoを紹介します。Vistadpoは、ビデオ階層的空間的直接優先嗜好の最適化のための新しいフレームワークです。
Vistadpoは、3つの階層レベルにわたってテキストビデオ優先アラインメントを強化します。i)インスタンスレベル、全体的なビデオコンテンツを応答に合わせます。
ii)時間レベル、ビデオの時間的セマンティクスをイベントの説明と調整する。
およびiii)空間オブジェクトに言語トークンを調整する知覚レベル。
きめ細かいビデオ言語優先アラインメントのデータセットがないことを考えると、選択された回答と拒否された応答が注釈が付けられた7.2K QAペアのデータセットと、タイムスタンプ、キーフレーム、バウンドボックスなどの空間的な接地情報を構築します。
ビデオ幻覚、ビデオQA、キャプションのパフォーマンスタスクなどのベンチマークに関する広範な実験は、Vistadpoが既存のLVMのパフォーマンスを大幅に改善し、ビデオ言語の不整合と幻覚を効果的に緩和することを示しています。
コードとデータは、https://github.com/haroldchen19/vistadpoで入手できます。

要約(オリジナル)

Large Video Models (LVMs) built upon Large Language Models (LLMs) have shown promise in video understanding but often suffer from misalignment with human intuition and video hallucination issues. To address these challenges, we introduce VistaDPO, a novel framework for Video Hierarchical Spatial-Temporal Direct Preference Optimization. VistaDPO enhances text-video preference alignment across three hierarchical levels: i) Instance Level, aligning overall video content with responses; ii) Temporal Level, aligning video temporal semantics with event descriptions; and iii) Perceptive Level, aligning spatial objects with language tokens. Given the lack of datasets for fine-grained video-language preference alignment, we construct VistaDPO-7k, a dataset of 7.2K QA pairs annotated with chosen and rejected responses, along with spatial-temporal grounding information such as timestamps, keyframes, and bounding boxes. Extensive experiments on benchmarks such as Video Hallucination, Video QA, and Captioning performance tasks demonstrate that VistaDPO significantly improves the performance of existing LVMs, effectively mitigating video-language misalignment and hallucination. The code and data are available at https://github.com/HaroldChen19/VistaDPO.

arxiv情報

著者 Haojian Huang,Haodong Chen,Shengqiong Wu,Meng Luo,Jinlan Fu,Xinya Du,Hanwang Zhang,Hao Fei
発行日 2025-04-17 17:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models はコメントを受け付けていません

Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training

要約

近年、ビジョン言語モデルのプリトレーニングの分野は、主に大規模な言語モデルのテキスト機能の継続的な強化によって駆動される急速な進歩を経験しています。
ただし、マルチモーダルの大手言語モデルの既存のトレーニングパラダイムは、高品質の画像テキストペアに大きく依存しています。
モデルとデータの尺度が指数関数的に成長するにつれて、このような細心の注意を払ってキュレーションされたデータの可用性はますます乏しく飽和状態になり、そのため、このドメインのさらなる進歩を厳しく制限しています。
この研究では、視覚系モデルのトレーニング前のスケーラブルなキャプション生成技術を調査し、大規模な低温ホールチョン化合成キャプションが二重の目的に役立つことを実証します。1)トレーニング前パラダイムの実世界のデータの実行可能な代替として機能し、2)経験的な検証を通じて視力モデルに統合された場合、優れたパフォーマンスモデルを達成することを実証します。
このホワイトペーパーでは、3つの重要な貢献を紹介します。1)高品質の低温、知識が豊富な合成キャプションを生成するための新しいパイプライン。
継続的なDPO方法論は、幻覚を減らすことで顕著な結果をもたらします。
具体的には、7Bサイズのモデルでは、保有テストセットの非ホールチョン化キャプション率は48.2%から77.9%に増加します。
2)包括的な経験的検証により、当社の合成キャプションは、カウンターパートよりも優れたトレーニング前の利点を付与することが明らかになりました。
35のビジョン言語タスクにわたって、データで訓練されたモデルは、Alt-textペアや他の以前の作業と比較して、少なくとも6.2%の大幅なパフォーマンスゲインを達成します。
一方、テキストからイメージまでのドメインでかなりのサポートも提供しています。
データセットを使用すると、FIDスコアは、実際の検証ベンチマークで17.1、MSCOCO検証ベンチマークで13.3に削減されます。
3)Hunyuan-Recap100m、低硬化および知識集約型の合成キャプションデータセットをリリースします。

要約(オリジナル)

In recent years, the field of vision-language model pre-training has experienced rapid advancements, driven primarily by the continuous enhancement of textual capabilities in large language models. However, existing training paradigms for multimodal large language models heavily rely on high-quality image-text pairs. As models and data scales grow exponentially, the availability of such meticulously curated data has become increasingly scarce and saturated, thereby severely limiting further advancements in this domain. This study investigates scalable caption generation techniques for vision-language model pre-training and demonstrates that large-scale low-hallucination synthetic captions can serve dual purposes: 1) acting as a viable alternative to real-world data for pre-training paradigms and 2) achieving superior performance enhancement when integrated into vision-language models through empirical validation. This paper presents three key contributions: 1) a novel pipeline for generating high-quality, low-hallucination, and knowledge-rich synthetic captions. Our continuous DPO methodology yields remarkable results in reducing hallucinations. Specifically, the non-hallucination caption rate on a held-out test set increases from 48.2% to 77.9% for a 7B-size model. 2) Comprehensive empirical validation reveals that our synthetic captions confer superior pre-training advantages over their counterparts. Across 35 vision language tasks, the model trained with our data achieves a significant performance gain of at least 6.2% compared to alt-text pairs and other previous work. Meanwhile, it also offers considerable support in the text-to-image domain. With our dataset, the FID score is reduced by 17.1 on a real-world validation benchmark and 13.3 on the MSCOCO validation benchmark. 3) We will release Hunyuan-Recap100M, a low-hallucination and knowledge-intensive synthetic caption dataset.

arxiv情報

著者 Xinsong Zhang,Yarong Zeng,Xinting Huang,Hu Hu,Runquan Xie,Han Hu,Zhanhui Kang
発行日 2025-04-17 17:40:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training はコメントを受け付けていません