VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin

要約

スピーカー検証システムのパフォーマンスは、スピーカーの老化によって悪影響を受けます。
ただし、データ収集の課題、特に個人の持続的で大規模な縦断的データがないため、スピーカーの老化に関する研究は依然として困難です。
このホワイトペーパーでは、数年にわたって293人のスピーカー(226人の英語講演者と67人のマンダリンスピーカー)から収集された大規模な縦断的データセットであるボックスを提示し、最長の期間は17年(約900週間)に達します。
各スピーカーについて、データは毎週間隔で記録されました。
スピーカーの老化の現象と高度なスピーカー検証システムへの影響を研究し、個々のスピーカーの老化プロセスを分析し、スピーカー老化研究に対する年齢層や性別などの要因の影響を調査しました。

要約(オリジナル)

The performance of speaker verification systems is adversely affected by speaker aging. However, due to challenges in data collection, particularly the lack of sustained and large-scale longitudinal data for individuals, research on speaker aging remains difficult. In this paper, we present VoxAging, a large-scale longitudinal dataset collected from 293 speakers (226 English speakers and 67 Mandarin speakers) over several years, with the longest time span reaching 17 years (approximately 900 weeks). For each speaker, the data were recorded at weekly intervals. We studied the phenomenon of speaker aging and its effects on advanced speaker verification systems, analyzed individual speaker aging processes, and explored the impact of factors such as age group and gender on speaker aging research.

arxiv情報

著者 Zhiqi Ai,Meixuan Bao,Zhiyong Chen,Zhi Yang,Xinnuo Li,Shugong Xu
発行日 2025-05-27 17:16:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD | VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin はコメントを受け付けていません

OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers

要約

リップ同期は、ビデオのスピーカーのリップの動きを対応する音声オーディオと整列させるタスクであり、リアルで表現力のあるビデオコンテンツを作成するために不可欠です。
ただし、既存のメソッドは、多くの場合、参照フレームとマスクフレームのインペインティングに依存しており、その堅牢性をアイデンティティの一貫性、ポーズバリエーション、顔面閉塞、様式化されたコンテンツに制限します。
さらに、オーディオ信号は視覚的な手がかりよりも弱いコンディショニングを提供するため、元のビデオからのリップシェイプの漏れはリップ同期の品質に影響します。
この論文では、多様な視覚シナリオのためのユニバーサルリップ同期フレームワークであるOmnisyncを紹介します。
私たちのアプローチでは、明示的なマスクなしで直接フレーム編集のための拡散トランスモデルを使用して、マスクフリートレーニングパラダイムを導入し、自然な顔のダイナミクスを維持し、キャラクターのアイデンティティを保存しながら、無制限の期間推論を可能にします。
推論中に、ポーズとアイデンティティの一貫性を確保しながら、フローマッチングベースの進行性ノイズ初期化を提案し、正確な口領域の編集を可能にします。
オーディオの弱いコンディショニング信号に対処するために、時間と空間にわたってガイダンス強度を適応的に調整する動的な時空分類装置のないガイダンス(DS-CFG)メカニズムを開発します。
また、多様なAIで生成されたビデオでのリップ同期のための最初の評価スイートであるAIGC-Lipsyncベンチマークを確立します。
広範な実験は、Omnisyncが視覚品質とリップ同期精度の両方で以前の方法を大幅に上回り、現実世界とAIの両方のビデオで優れた結果を達成することを示しています。

要約(オリジナル)

Lip synchronization is the task of aligning a speaker’s lip movements in video with corresponding speech audio, and it is essential for creating realistic, expressive video content. However, existing methods often rely on reference frames and masked-frame inpainting, which limit their robustness to identity consistency, pose variations, facial occlusions, and stylized content. In addition, since audio signals provide weaker conditioning than visual cues, lip shape leakage from the original video will affect lip sync quality. In this paper, we present OmniSync, a universal lip synchronization framework for diverse visual scenarios. Our approach introduces a mask-free training paradigm using Diffusion Transformer models for direct frame editing without explicit masks, enabling unlimited-duration inference while maintaining natural facial dynamics and preserving character identity. During inference, we propose a flow-matching-based progressive noise initialization to ensure pose and identity consistency, while allowing precise mouth-region editing. To address the weak conditioning signal of audio, we develop a Dynamic Spatiotemporal Classifier-Free Guidance (DS-CFG) mechanism that adaptively adjusts guidance strength over time and space. We also establish the AIGC-LipSync Benchmark, the first evaluation suite for lip synchronization in diverse AI-generated videos. Extensive experiments demonstrate that OmniSync significantly outperforms prior methods in both visual quality and lip sync accuracy, achieving superior results in both real-world and AI-generated videos.

arxiv情報

著者 Ziqiao Peng,Jiwen Liu,Haoxian Zhang,Xiaoqiang Liu,Songlin Tang,Pengfei Wan,Di Zhang,Hongyan Liu,Jun He
発行日 2025-05-27 17:20:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers はコメントを受け付けていません

Visual Product Graph: Bridging Visual Products And Composite Images For End-to-End Style Recommendations

要約

意味的に類似しているが視覚的に異なるコンテンツを取得することは、視覚検索システムで重要な能力でした。
この作業では、この問題に視覚製品グラフ(VPG)でこの問題に取り組むことを目指しており、ストレージのための高性能インフラストラクチャを活用し、画像理解のための最先端のコンピュータービジョンモデルを活用しています。
VPGは、個々の製品からのナビゲーションを、これらの製品を含む複合シーンと補完的な推奨事項にできるオンラインリアルタイム検索システムとして構築されています。
当社のシステムは、コンテキストで製品をスタイル化する方法を紹介することにより、コンテキストの洞察を提供するだけでなく、これらのインスピレーションから描かれた補完的な製品の推奨事項も提供します。
視覚製品グラフを構築するための重要なコンポーネントと、オブジェクトの検出、基礎視覚埋め込み、およびその他の視覚信号全体のコアコンピュータービジョンモデルの改善について説明します。
私たちのシステムは、エンドツーエンドのヒト関連評価で78.8%の非常に類似した1@1と6%モジュールのエンゲージメント率を達成します。
Visual Product Graph Technologyを搭載した「Style To Styleth It」モジュールは、Pinterestで生産中に展開されています。

要約(オリジナル)

Retrieving semantically similar but visually distinct contents has been a critical capability in visual search systems. In this work, we aim to tackle this problem with Visual Product Graph (VPG), leveraging high-performance infrastructure for storage and state-of-the-art computer vision models for image understanding. VPG is built to be an online real-time retrieval system that enables navigation from individual products to composite scenes containing those products, along with complementary recommendations. Our system not only offers contextual insights by showcasing how products can be styled in a context, but also provides recommendations for complementary products drawn from these inspirations. We discuss the essential components for building the Visual Product Graph, along with the core computer vision model improvements across object detection, foundational visual embeddings, and other visual signals. Our system achieves a 78.8% extremely similar@1 in end-to-end human relevance evaluations, and a 6% module engagement rate. The ‘Ways to Style It’ module, powered by the Visual Product Graph technology, is deployed in production at Pinterest.

arxiv情報

著者 Yue Li Du,Ben Alexander,Mikhail Antonenka,Rohan Mahadev,Hao-yu Wu,Dmitry Kislyuk
発行日 2025-05-27 17:26:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Visual Product Graph: Bridging Visual Products And Composite Images For End-to-End Style Recommendations はコメントを受け付けていません

Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

要約

アクティブな知覚としても知られるアクティブビジョンは、タスク関連の情報を収集するために、どこでどのように検索するかを積極的に選択するプロセスを指します。
これは、人間と高度な具体化されたエージェントにおける効率的な認識と意思決定の重要な要素です。
最近、ロボットシステムの中央計画および意思決定モジュールとしてマルチモーダル大手言語モデル(MLLM)を使用することは、広範な注目を集めています。
ただし、具体化された知性における積極的な知覚の重要性にもかかわらず、MLLMをどのように能力を備えたり、積極的な認識能力を装備したり学んだかについては、ほとんどまたはまったく探求されていません。
この論文では、最初にMLLMベースのアクティブ認識タスクの体系的な定義を提供します。
最近提案されたGPT-O3モデルのズームイン検索戦略は、積極的な知覚の特別なケースと見なすことができることを指摘します。
ただし、検索効率が低く、領域の選択が不正確になっていることに依然として苦しんでいます。
これらの問題に対処するために、MLLMSにアクティブな知覚能力を装備するように設計されたGRPOの上に構築された純粋に強化学習ベースのトレーニングフレームワークであるActive-O3を提案します。
さらに、小型オブジェクトや密なオブジェクトの接地などの一般的なオープンワールドタスクの両方でアクティブO3を評価するための包括的なベンチマークスイートを確立し、リモートセンシングや自律運転における小さなオブジェクト検出、および微細な粒度の相互作用セグメンテーションなどのドメイン固有のシナリオを評価します。
さらに、Active-O3は、明示的な推論データに依存することなく、V*ベンチマークで強力なゼロショット推論能力を示しています。
私たちの仕事が、MLLMの積極的な知覚に関する将来の研究を促進するために、単純なコードベースと評価プロトコルを提供できることを願っています。

要約(オリジナル)

Active vision, also known as active perception, refers to the process of actively selecting where and how to look in order to gather task-relevant information. It is a critical component of efficient perception and decision-making in humans and advanced embodied agents. Recently, the use of Multimodal Large Language Models (MLLMs) as central planning and decision-making modules in robotic systems has gained extensive attention. However, despite the importance of active perception in embodied intelligence, there is little to no exploration of how MLLMs can be equipped with or learn active perception capabilities. In this paper, we first provide a systematic definition of MLLM-based active perception tasks. We point out that the recently proposed GPT-o3 model’s zoom-in search strategy can be regarded as a special case of active perception; however, it still suffers from low search efficiency and inaccurate region selection. To address these issues, we propose ACTIVE-O3, a purely reinforcement learning based training framework built on top of GRPO, designed to equip MLLMs with active perception capabilities. We further establish a comprehensive benchmark suite to evaluate ACTIVE-O3 across both general open-world tasks, such as small-object and dense object grounding, and domain-specific scenarios, including small object detection in remote sensing and autonomous driving, as well as fine-grained interactive segmentation. In addition, ACTIVE-O3 also demonstrates strong zero-shot reasoning abilities on the V* Benchmark, without relying on any explicit reasoning data. We hope that our work can provide a simple codebase and evaluation protocol to facilitate future research on active perception in MLLMs.

arxiv情報

著者 Muzhi Zhu,Hao Zhong,Canyu Zhao,Zongze Du,Zheng Huang,Mingyu Liu,Hao Chen,Cheng Zou,Jingdong Chen,Ming Yang,Chunhua Shen
発行日 2025-05-27 17:29:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO はコメントを受け付けていません

LazyVLM: Neuro-Symbolic Approach to Video Analytics

要約

現在のビデオ分析アプローチは、柔軟性と効率性の基本的なトレードオフに直面しています。
エンドツーエンドのビジョン言語モデル(VLM)は、多くの場合、長いコンテキスト処理と格闘し、高い計算コストを負担しますが、神経調節法は手動のラベル付けと厳格なルール設計に大きく依存しています。
この論文では、スケーラビリティの制限に対処しながら、VLMSと同様のユーザーフレンドリーなクエリインターフェイスを提供するニューロシンボリックビデオ分析システムであるLazyVLMを紹介します。
LazyVLMを使用すると、ユーザーはビデオデータを簡単にドロップし、ビデオ分析用の半構造化テキストインターフェイスを使用して複雑なマルチフレームビデオクエリを指定できます。
VLMSのスケーラビリティ制限に対処するために、LazyVLMはマルチフレームビデオクエリを細かい粒度の操作に分解し、処理の大部分を効率的なリレーショナルクエリ実行およびベクトル類似性検索にオフロードします。
LazyVLMは、規模のオープンドメインビデオデータをクエリするための堅牢で効率的でユーザーフレンドリーなソリューションを提供することを実証します。

要約(オリジナル)

Current video analytics approaches face a fundamental trade-off between flexibility and efficiency. End-to-end Vision Language Models (VLMs) often struggle with long-context processing and incur high computational costs, while neural-symbolic methods depend heavily on manual labeling and rigid rule design. In this paper, we introduce LazyVLM, a neuro-symbolic video analytics system that provides a user-friendly query interface similar to VLMs, while addressing their scalability limitation. LazyVLM enables users to effortlessly drop in video data and specify complex multi-frame video queries using a semi-structured text interface for video analytics. To address the scalability limitations of VLMs, LazyVLM decomposes multi-frame video queries into fine-grained operations and offloads the bulk of the processing to efficient relational query execution and vector similarity search. We demonstrate that LazyVLM provides a robust, efficient, and user-friendly solution for querying open-domain video data at scale.

arxiv情報

著者 Xiangru Jian,Wei Pang,Zhengyuan Dong,Chao Zhang,M. Tamer Özsu
発行日 2025-05-27 17:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.DB, cs.IR, cs.MM | LazyVLM: Neuro-Symbolic Approach to Video Analytics はコメントを受け付けていません

ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models

要約

現在、ビジョン言語モデル(VLMS)パフォーマンスを強化するための一般的なアプローチは、画像の高解像度バージョンとサムネイルの両方を同時にエンコードすることです。
効果的ですが、この方法は多数の画像トークンを生成します。
広く使用されている回転位置埋め込み(ロープ)と組み合わせると、その長期的な減衰特性は、高解像度トークンとサムネイルトークン、およびテキストと画像の間の相互作用を妨げます。
これらの問題に対処するために、ID-Alignを提案します。これは、ポジションIDを並べ替えることでこれらの問題を軽減します。
この方法では、高解像度トークンは、位置指標の過剰拡張を制約しながら、対応するサムネイルトークンからIDを継承します。
Llava-Nextフレームワーク内で実施された実験は、MMBenchの関係推論タスクと複数のベンチマークにわたる顕著な利益の6.09%の強化を含む、IDアライインが大幅に改善されることを示しています。
私たちのコードは、次のリンクで入手できます:https://github.com/zooblastlbz/id-align。

要約(オリジナル)

Currently, a prevalent approach for enhancing Vision-Language Models (VLMs) performance is to encode both the high-resolution version and the thumbnail of an image simultaneously. While effective, this method generates a large number of image tokens. When combined with the widely used Rotary Position Embedding (RoPE), its long-term decay property hinders the interaction between high-resolution tokens and thumbnail tokens, as well as between text and image. To address these issues, we propose ID-Align, which alleviates these problems by reordering position IDs. In this method, high-resolution tokens inherit IDs from their corresponding thumbnail token while constraining the overexpansion of positional indices. Our experiments conducted within the LLaVA-Next framework demonstrate that ID-Align achieves significant improvements, including a 6.09% enhancement on MMBench’s relation reasoning tasks and notable gains across multiple benchmarks. Our code is available at the following link: https://github.com/zooblastlbz/ID-Align.

arxiv情報

著者 Bozhou Li,Wentao Zhang
発行日 2025-05-27 17:36:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models はコメントを受け付けていません

Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise

要約

生成モデルの最近の進歩により、仮想世界、メディア、およびゲームのアプリケーションの可能性を秘めたテキストプロンプトに基づいて、動的4Dコンテンツ-3Dオブジェクトの動き – 動きの3Dオブジェクトの作成が可能になりました。
既存の方法では、3Dオブジェクトをアニメーション化する機能など、生成されたコンテンツの外観を制御できます。
ただし、ダイナミクスを生成する能力は、トレーニングされたメッシュデータセットに限定されており、成長や構造開発能力がありません。
この作業では、テキストプロンプトを条件付けして4D生成を導くことにより、3Dオブジェクトをアニメーション化するためのトレーニングなしの方法を導入し、元のオブジェクトのアイデンティティを維持しながらカスタムの一般的なシーンを可能にします。
最初に、オブジェクトの視覚属性を保存する静的4Dニューラル放射輝度(NERF)に3Dメッシュを変換します。
次に、テキストによって駆動される画像間拡散モデルを使用してオブジェクトをアニメーション化します。
モーションリアリズムを改善するために、オブジェクトの視点をナイシングプロセスに整合させるビュー-sonsistent Noisingプロトコルを導入して、ライフリカルな動きを促進するマスクスコア蒸留サンプリング(SDS)損失を導入します。
一時的なコヒーレンス、プロンプトアドヒアランス、視覚的忠実度のための2つの異なる3Dオブジェクトデータセットでモデルを評価し、マルチビュートレーニングに基づいてメソッドがベースラインを上回り、ハードシナリオでのテキストプロンプトとのより良い一貫性を達成することがわかります。

要約(オリジナル)

Recent advancements in generative models have enabled the creation of dynamic 4D content – 3D objects in motion – based on text prompts, which holds potential for applications in virtual worlds, media, and gaming. Existing methods provide control over the appearance of generated content, including the ability to animate 3D objects. However, their ability to generate dynamics is limited to the mesh datasets they were trained on, lacking any growth or structural development capability. In this work, we introduce a training-free method for animating 3D objects by conditioning on textual prompts to guide 4D generation, enabling custom general scenes while maintaining the original object’s identity. We first convert a 3D mesh into a static 4D Neural Radiance Field (NeRF) that preserves the object’s visual attributes. Then, we animate the object using an Image-to-Video diffusion model driven by text. To improve motion realism, we introduce a view-consistent noising protocol that aligns object perspectives with the noising process to promote lifelike movement, and a masked Score Distillation Sampling (SDS) loss that leverages attention maps to focus optimization on relevant regions, better preserving the original object. We evaluate our model on two different 3D object datasets for temporal coherence, prompt adherence, and visual fidelity, and find that our method outperforms the baseline based on multiview training, achieving better consistency with the textual prompt in hard scenarios.

arxiv情報

著者 Ohad Rahamim,Ori Malca,Dvir Samuel,Gal Chechik
発行日 2025-05-27 17:40:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise はコメントを受け付けていません

When Are Concepts Erased From Diffusion Models?

要約

モデルが特定の概念を生成するのを選択的に防止する能力である概念消去は、関心の高まりを引き付け、課題に対処するためにさまざまなアプローチが出現しています。
ただし、これらの方法がターゲットの概念をどの程度徹底的に消去するかは不明のままです。
拡散モデルにおける消去メカニズムの2つの概念モデルを提案することから始めます。(i)ターゲット概念を生成する可能性を減らし、(ii)モデルの内部ガイダンスメカニズムに干渉する。
概念がモデルから真に消去されたかどうかを徹底的に評価するために、一連の独立した評価を紹介します。
私たちの評価フレームワークには、敵対的な攻撃、新しい調査手法、および消去された概念の代わりにモデルの代替世代の分析が含まれます。
我々の結果は、副作用を最小限に抑え、敵対的なプロンプトへの堅牢性を維持することとの緊張に光を当てました。
概して、私たちの研究は、拡散モデルにおける消去のための包括的な評価の重要性を強調しています。

要約(オリジナル)

Concept erasure, the ability to selectively prevent a model from generating specific concepts, has attracted growing interest, with various approaches emerging to address the challenge. However, it remains unclear how thoroughly these methods erase the target concept. We begin by proposing two conceptual models for the erasure mechanism in diffusion models: (i) reducing the likelihood of generating the target concept, and (ii) interfering with the model’s internal guidance mechanisms. To thoroughly assess whether a concept has been truly erased from the model, we introduce a suite of independent evaluations. Our evaluation framework includes adversarial attacks, novel probing techniques, and analysis of the model’s alternative generations in place of the erased concept. Our results shed light on the tension between minimizing side effects and maintaining robustness to adversarial prompts. Broadly, our work underlines the importance of comprehensive evaluation for erasure in diffusion models.

arxiv情報

著者 Kevin Lu,Nicky Kriplani,Rohit Gandikota,Minh Pham,David Bau,Chinmay Hegde,Niv Cohen
発行日 2025-05-27 17:43:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | When Are Concepts Erased From Diffusion Models? はコメントを受け付けていません

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

要約

このホワイトペーパーでは、新しい次のデテール予測戦略を介して画像をモデル化する粗からファインの1Dオートレーリング(AR)画像生成方法であるDefaryFlowを紹介します。
徐々に劣化した画像で監督された解像度に対応するトークンシーケンスを学習することにより、詳細なフローを使用すると、生成プロセスがグローバル構造から開始し、詳細を徐々に改良することができます。
この粗からファインまでの1Dトークンシーケンスは、自己回帰推論メカニズムとよく整合しており、ARモデルが複雑な視覚コンテンツを生成するためのより自然で効率的な方法を提供します。
コンパクト1D ARモデルは、以前のアプローチ、つまりvar/vqganよりも大幅に少ないトークンで高品質の画像合成を実現します。
さらに、教師の監督に固有の蓄積サンプリングエラーを減らしながら、生成速度を約8倍に加速する自己修正を伴う並列推論メカニズムを提案します。
ImagENet 256×256ベンチマークでは、128トークン、アウトパフォームVAR(3.3 fid)、Flexvar(3.05 fid)を備えた2.96 GFIDを達成します。
さらに、トークンカウントと並列推論メカニズムが大幅に減少したため、私たちの方法は、VARおよびFlexVarに比べて推論速度が2倍近く実行されます。
広範な実験結果は、既存の最先端の方法と比較して、DefaryFlowの優れた生成品質と効率性を示しています。

要約(オリジナル)

This paper presents DetailFlow, a coarse-to-fine 1D autoregressive (AR) image generation method that models images through a novel next-detail prediction strategy. By learning a resolution-aware token sequence supervised with progressively degraded images, DetailFlow enables the generation process to start from the global structure and incrementally refine details. This coarse-to-fine 1D token sequence aligns well with the autoregressive inference mechanism, providing a more natural and efficient way for the AR model to generate complex visual content. Our compact 1D AR model achieves high-quality image synthesis with significantly fewer tokens than previous approaches, i.e. VAR/VQGAN. We further propose a parallel inference mechanism with self-correction that accelerates generation speed by approximately 8x while reducing accumulation sampling error inherent in teacher-forcing supervision. On the ImageNet 256×256 benchmark, our method achieves 2.96 gFID with 128 tokens, outperforming VAR (3.3 FID) and FlexVAR (3.05 FID), which both require 680 tokens in their AR models. Moreover, due to the significantly reduced token count and parallel inference mechanism, our method runs nearly 2x faster inference speed compared to VAR and FlexVAR. Extensive experimental results demonstrate DetailFlow’s superior generation quality and efficiency compared to existing state-of-the-art methods.

arxiv情報

著者 Yiheng Liu,Liao Qu,Huichao Zhang,Xu Wang,Yi Jiang,Yiming Gao,Hu Ye,Xian Li,Shuai Wang,Daniel K. Du,Shu Cheng,Zehuan Yuan,Xinglong Wu
発行日 2025-05-27 17:45:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction はコメントを受け付けていません

Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration

要約

大きなビジョン言語モデル(LVLMS)は、マルチモーダルタスクで印象的なパフォーマンスを実現しますが、多くの場合幻覚に悩まされ、画像に存在しないオブジェクトまたは属性を自信を持って説明します。
現在の推論時間介入は、トレーニングなしでは、オープンエンドおよび長期の生成シナリオの正確性を維持するのに苦労しています。
2つの重要なバイアスをターゲットにすることにより、この課題に対処するために、自信を得る注意キャリブレーション(CAAC)フレームワークを導入します。これは、画像トークン全体に注意を不均衡に分配する空間知覚バイアスと、視覚入力からテキスト入力に時間の経過とともにシフトするモダリティバイアスです。
CAACは2段階のアプローチを採用しています:視覚的なトークンのキャリブレーション(VTC)は、視覚トークン全体の注意のバランスを取り、適応的な注意再スケーリング(AAR)を使用して、モデルの信頼に基づいて視覚的な接地を強化します。
この信頼駆動型調整により、生成中の一貫した視覚的アライメントが保証されます。
椅子、アンバー、および教皇のベンチマークでの実験は、CAACが特に長期の世代でベースラインを上回り、幻覚を効果的に減らすことを示しています。

要約(オリジナル)

Large vision-language models (LVLMs) achieve impressive performance on multimodal tasks but often suffer from hallucination, and confidently describe objects or attributes not present in the image. Current inference-time interventions, while training-free, struggle to maintain accuracy in open-ended and long-form generation scenarios. We introduce the Confidence-Aware Attention Calibration (CAAC) framework to address this challenge by targeting two key biases: spatial perception bias, which distributes attention disproportionately across image tokens, and modality bias, which shifts focus from visual to textual inputs over time. CAAC employs a two-step approach: Visual-Token Calibration (VTC) to balance attention across visual tokens, and Adaptive Attention Re-Scaling (AAR) to reinforce visual grounding based on the model’s confidence. This confidence-driven adjustment ensures consistent visual alignment during generation. Experiments on CHAIR, AMBER, and POPE benchmarks demonstrate that CAAC outperforms baselines, particularly in long-form generations, effectively reducing hallucination.

arxiv情報

著者 Mehrdad Fazli,Bowen Wei,Ziwei Zhu
発行日 2025-05-27 17:45:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration はコメントを受け付けていません