More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram

要約

ソーシャルメディアでの(オーディオ)視覚データの増加する有病率に対処し、このコミュニケーションの進化する動的な性質を把握するために、研究者は、マルチモーダルオンラインコンテンツを分析するための監視されていないアプローチの可能性を調査し始めました。
ただし、既存の研究では、ミームを超えて視覚的なコンテンツを無視することが多く、さらに、モダリティ全体でトピックモデルを比較する方法がありません。
私たちの研究では、ドイツ語の電報チャネルで陰謀理論を分析するためにマルチモーダルトピックモデリングを適用することにより、これらのギャップに対処します。
bertopicを使用して、2023年10月に共謀理論を普及させることで知られる571年のドイツ語電報チャンネルに掲載された〜40、000電報メッセージのテキストデータと視覚データの分析を分析します。
このデータセットを介して、モダリティ全体のトピックの対称性と交点を分析することにより、単峰性およびマルチモーダルトピックモデルに関する洞察を提供します。
トピックモデリングを通じて発見されたチャネルで共有されているさまざまなテキストおよび視覚コンテンツを実証し、陰謀理論のコミュニケーションにおけるテキストおよび視覚的議論戦略の分析のための概念的なフレームワークを提案します。
トピックグループイスラエルガザのケーススタディでフレームワークを適用します。

要約(オリジナル)

To address the increasing prevalence of (audio-)visual data on social media, and to capture the evolving and dynamic nature of this communication, researchers have begun to explore the potential of unsupervised approaches for analyzing multimodal online content. However, existing research often neglects visual content beyond memes, and in addition lacks methods to compare topic models across modalities. Our study addresses these gaps by applying multimodal topic modeling for analyzing conspiracy theories in German-language Telegram channels. We use BERTopic with CLIP for the analysis of textual and visual data in a corpus of ~40, 000 Telegram messages posted in October 2023 in 571 German-language Telegram channels known for disseminating conspiracy theories. Through this dataset, we provide insights into unimodal and multimodal topic models by analyzing symmetry and intersections of topics across modalities. We demonstrate the variety of textual and visual content shared in the channels discovered through the topic modeling, and propose a conceptual framework for the analysis of textual and visual discursive strategies in the communication of conspiracy theories. We apply the framework in a case study of the topic group Israel Gaza.

arxiv情報

著者 Elisabeth Steffen
発行日 2025-03-05 15:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SI | More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram はコメントを受け付けていません

4D Radar Ground Truth Augmentation with LiDAR-to-4D Radar Data Synthesis

要約

グラウンドトゥルースの増強(GT-8月)は、グラウンドトゥルース境界ボックス(GT Bボックス)を活用することによりオブジェクト密度を高めるため、LIDARベースのオブジェクト検出の一般的な方法です。
ただし、GT-AUGを4Dレーダーテンソルデータに直接適用すると、GT BBOXの外側の重要な測定値を見落としています。
この制限に対処するために、4Dレーダーグラウンドトゥルース増強(4DR GT-8月)を提案します。
私たちのアプローチは、最初にLIDARデータを増強し、LIDAR-To-4Dレーダーデータ合成(L2RDAS)モジュールを介して4Dレーダーデータに変換します。
そうすることで、実際の測定値に近い4Dレーダーデータ分布を生成し、それによりオブジェクトの検出精度が向上します。
K-Radarデータセットの実験は、提案された方法が4Dレーダーのオブジェクト検出の従来のGT-8月と比較して、パフォーマンスの向上を達成することを示しています。
実装コードは、https://github.com/kaist-avelab/k-radarで入手できます。

要約(オリジナル)

Ground truth augmentation (GT-Aug) is a common method for LiDAR-based object detection, as it enhances object density by leveraging ground truth bounding boxes (GT bboxes). However, directly applying GT-Aug to 4D Radar tensor data overlooks important measurements outside the GT bboxes-such as sidelobes-leading to synthetic distributions that deviate from real-world 4D Radar data. To address this limitation, we propose 4D Radar Ground Truth Augmentation (4DR GT-Aug). Our approach first augments LiDAR data and then converts it to 4D Radar data via a LiDAR-to-4D Radar data synthesis (L2RDaS) module, which explicitly accounts for measurements both inside and outside GT bboxes. In doing so, it produces 4D Radar data distributions that more closely resemble real-world measurements, thereby improving object detection accuracy. Experiments on the K-Radar dataset show that the proposed method achieves improved performance compared to conventional GT-Aug in object detection for 4D Radar. The implementation code is available at https://github.com/kaist-avelab/K-Radar.

arxiv情報

著者 Woo-Jin Jung,Dong-Hee Paek,Seung-Hyun Kong
発行日 2025-03-05 16:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | 4D Radar Ground Truth Augmentation with LiDAR-to-4D Radar Data Synthesis はコメントを受け付けていません

An Adaptive Underwater Image Enhancement Framework via Multi-Domain Fusion and Color Compensation

要約

水中光学イメージングは​​、光吸収、散乱、色の歪みにより、視界と正確な画像分析を妨げることにより、ひどく分解されます。
このペーパーでは、照明補償、マルチドメインフィルタリング、動的な色補正を統合する適応拡張フレームワークを紹介します。
Clahe、ガンマ補正、およびRetinexを組み合わせたハイブリッド照明補償戦略は、視界を向上させます。
空間ドメイン(ガウス、両側、ガイド付き)および周波数領域(フーリエ、ウェーブレット)メソッドを含む2段階のフィルタリングプロセスは、詳細を維持しながらノイズを効果的に減らします。
色の歪みを修正するために、適応型色補償(ACC)モデルは、RCP、DCP、およびMUDCPを動的に組み合わせて、スペクトル減衰と水タイプを推定します。
最後に、知覚的に誘導されたカラーバランスメカニズムにより、自然な色の回復が保証されます。
ベンチマークデータセットの実験結果は、対照的強化、色補正、および構造保存における最先端の方法よりも優れたパフォーマンスを示し、水中イメージングアプリケーションに対してフレームワークを堅牢にします。

要約(オリジナル)

Underwater optical imaging is severely degraded by light absorption, scattering, and color distortion, hindering visibility and accurate image analysis. This paper presents an adaptive enhancement framework integrating illumination compensation, multi-domain filtering, and dynamic color correction. A hybrid illumination compensation strategy combining CLAHE, Gamma correction, and Retinex enhances visibility. A two-stage filtering process, including spatial-domain (Gaussian, Bilateral, Guided) and frequency-domain (Fourier, Wavelet) methods, effectively reduces noise while preserving details. To correct color distortion, an adaptive color compensation (ACC) model estimates spectral attenuation and water type to combine RCP, DCP, and MUDCP dynamically. Finally, a perceptually guided color balance mechanism ensures natural color restoration. Experimental results on benchmark datasets demonstrate superior performance over state-of-the-art methods in contrast enhancement, color correction, and structural preservation, making the framework robust for underwater imaging applications.

arxiv情報

著者 Yuezhe Tian,Kangchen Yao,Xiaoyang Yu
発行日 2025-03-05 16:19:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | An Adaptive Underwater Image Enhancement Framework via Multi-Domain Fusion and Color Compensation はコメントを受け付けていません

DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms

要約

Dongbaの絵文字は、世界でまだ使用されている唯一の絵文字です。
それらは絵の表彰台の特徴を持ち、そのシンボルには豊かな文化的および文脈情報があります。
関連するデータセットが不足しているため、既存の研究は、ドンバ絵文字の意味的理解の研究を進めることが困難です。
この目的のために、Dongbaの絵文字の意味理解と抽出のための最初のマルチモーダルデータセットであるDongbamieを提案します。
データセットは、Dongbaの絵文字画像と、対応する中国の意味注釈で構成されています。
23,530レベルと2,539の段落レベルの画像が含まれており、オブジェクト、アクション、関係、属性の4つのセマンティックディメンションをカバーしています。
GPT-4O、GEMINI-2.0、およびQWEN2-VLモデルを体系的に評価します。
実験結果は、最適なオブジェクト抽出におけるGPT-4OとGeminiのF1スコアがそれぞれ3.16と3.11であることを示しています。
監視された微調整後のQWEN2-VLのF1スコアはわずか11.49です。
これらの結果は、現在の大規模なマルチモーダルモデルが、Dongbaの絵文字の多様なセマンティック情報を正確に認識する上で依然として重要な課題に直面していることを示唆しています。
データセットはこのURLから取得できます。

要約(オリジナル)

Dongba pictographs are the only pictographs still in use in the world. They have pictorial ideographic features, and their symbols carry rich cultural and contextual information. Due to the lack of relevant datasets, existing research has difficulty in advancing the study of semantic understanding of Dongba pictographs. To this end, we propose DongbaMIE, the first multimodal dataset for semantic understanding and extraction of Dongba pictographs. The dataset consists of Dongba pictograph images and their corresponding Chinese semantic annotations. It contains 23,530 sentence-level and 2,539 paragraph-level images, covering four semantic dimensions: objects, actions, relations, and attributes. We systematically evaluate the GPT-4o, Gemini-2.0, and Qwen2-VL models. Experimental results show that the F1 scores of GPT-4o and Gemini in the best object extraction are only 3.16 and 3.11 respectively. The F1 score of Qwen2-VL after supervised fine-tuning is only 11.49. These results suggest that current large multimodal models still face significant challenges in accurately recognizing the diverse semantic information in Dongba pictographs. The dataset can be obtained from this URL.

arxiv情報

著者 Xiaojun Bi,Shuo Li,Ziyue Wang,Fuwen Luo,Weizheng Qiao,Lu Han,Ziwei Sun,Peng Li,Yang Liu
発行日 2025-03-05 16:20:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms はコメントを受け付けていません

DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles

要約

生成モデルを特定のドメインに適応させることは、特殊な要件を満たすための効果的なソリューションを提供します。
ただし、特にこれらのドメインがターゲット分布をキャプチャするために実質的なペアのデータを必要とする場合、一部の複雑なドメインに適応することは依然として困難です。
ビジョンや言語などの単一のモダリティからの対応のないデータはより容易に入手できるため、統一生成モデルによって学習したビジョンと言語の双方向マッピングを利用して、ドメイン適応のための不合理なデータのトレーニングを可能にします。
具体的には、2つのマルチモーダルサイクルを統合するDoracycleを提案します:テキストからイメージからテキストとテキストへの画像からテキストへの画像。
このモデルは、サイクルエンドポイントで計算されたクロスエントロピー損失を通じて最適化されており、両方のエンドポイントが同じモダリティを共有しています。
これにより、注釈付きのテキスト画像ペアに依存せずにモデルの自己進化が促進されます。
実験結果は、スタイリライゼーションなどのペアの知識から独立したタスクの場合、ドラシクルは、対応のないデータのみを使用して統一モデルを効果的に適応させることができることを示しています。
特定のアイデンティティなどの新しいペアの知識を含むタスクの場合、効果的なドメイン指向の適応には、ペアの画像テキストの例と大規模な対応のないデータの組み合わせで十分です。
コードはhttps://github.com/showlab/doracycleでリリースされます。

要約(オリジナル)

Adapting generative models to specific domains presents an effective solution for satisfying specialized requirements. However, adapting to some complex domains remains challenging, especially when these domains require substantial paired data to capture the targeted distributions. Since unpaired data from a single modality, such as vision or language, is more readily available, we utilize the bidirectional mappings between vision and language learned by the unified generative model to enable training on unpaired data for domain adaptation. Specifically, we propose DoraCycle, which integrates two multimodal cycles: text-to-image-to-text and image-to-text-to-image. The model is optimized through cross-entropy loss computed at the cycle endpoints, where both endpoints share the same modality. This facilitates self-evolution of the model without reliance on annotated text-image pairs. Experimental results demonstrate that for tasks independent of paired knowledge, such as stylization, DoraCycle can effectively adapt the unified model using only unpaired data. For tasks involving new paired knowledge, such as specific identities, a combination of a small set of paired image-text examples and larger-scale unpaired data is sufficient for effective domain-oriented adaptation. The code will be released at https://github.com/showlab/DoraCycle.

arxiv情報

著者 Rui Zhao,Weijia Mao,Mike Zheng Shou
発行日 2025-03-05 16:26:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles はコメントを受け付けていません

Improving 6D Object Pose Estimation of metallic Household and Industry Objects

要約

6Dオブジェクトのポーズ推定は、金属オブジェクトに適用すると精度が低下することに苦しんでいます。
私たちは、産業用アプリケーションの反射や鏡面ハイライトなどの課題に対処することにより、最先端の改善に着手しました。
さまざまな照明と背景条件の下で、多様な金属オブジェクト(缶、家庭、および産業用品)のセットを備えた私たちの新しいBOP互換性のあるデータセットは、追加の幾何学的および視覚的な手がかりを提供します。
これらのキューを効果的に活用して、全体的なパフォーマンスを向上させることができることを実証します。
追加機能の有用性を説明するために、空間シーンの理解を深めるために追加のキーポイント予測と材料推定器ヘッドを導入することにより、GDRNPPアルゴリズムを改善します。
新しいデータセットの評価は、金属オブジェクトの精度が向上し、追加の幾何学的および視覚的な合図が学習を改善できるという仮説をサポートしています。

要約(オリジナル)

6D object pose estimation suffers from reduced accuracy when applied to metallic objects. We set out to improve the state-of-the-art by addressing challenges such as reflections and specular highlights in industrial applications. Our novel BOP-compatible dataset, featuring a diverse set of metallic objects (cans, household, and industrial items) under various lighting and background conditions, provides additional geometric and visual cues. We demonstrate that these cues can be effectively leveraged to enhance overall performance. To illustrate the usefulness of the additional features, we improve upon the GDRNPP algorithm by introducing an additional keypoint prediction and material estimator head in order to improve spatial scene understanding. Evaluations on the new dataset show improved accuracy for metallic objects, supporting the hypothesis that additional geometric and visual cues can improve learning.

arxiv情報

著者 Thomas Pöllabauer,Michael Gasser,Tristan Wirth,Sarah Berkei,Volker Knauthe,Arjan Kuijper
発行日 2025-03-05 16:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Improving 6D Object Pose Estimation of metallic Household and Industry Objects はコメントを受け付けていません

What to align in multimodal contrastive learning?

要約

人間は多感覚統合を通じて世界を認識し、さまざまなモダリティの情報を混ぜ合わせて行動を適応させます。
対照学習は、マルチモーダルの自己監視学習のための魅力的なソリューションを提供します。
実際、各モダリティを同じエンティティの異なるビューと見なすことにより、共有表現スペースの異なるモダリティの特徴を調整することを学びます。
ただし、このアプローチは、モダリティ間で共有または冗長な情報のみを学習するため、本質的に制限されていますが、マルチモーダルの相互作用は他の方法で発生する可能性があります。
この作業では、単一のマルチモーダル空間でのモダリティ間の通信を可能にする対照的なマルチモーダル学習戦略であるCommを紹介します。
これらのマルチモーダル機能の拡張バージョン間で相互情報を最大化することにより、横断または内部の制約を課す代わりに、マルチモーダル表現を整合することを提案します。
私たちの理論的分析は、この定式化から自然に相乗的で独自の情報の共有と独自の用語が発生し、冗長性を超えたマルチモーダルの相互作用を推定できることを示しています。
制御されたものと一連の現実世界の設定の両方で通信​​をテストします。前者では、Commがモダリティ間で冗長でユニークで相乗的な情報を効果的にキャプチャすることを実証します。
後者では、Commは複雑なマルチモーダル相互作用を学習し、7つのマルチモーダルベンチマークで最新の結果を達成します。
コードはhttps://github.com/duplums/commで入手できます

要約(オリジナル)

Humans perceive the world through multisensory integration, blending the information of different modalities to adapt their behavior. Contrastive learning offers an appealing solution for multimodal self-supervised learning. Indeed, by considering each modality as a different view of the same entity, it learns to align features of different modalities in a shared representation space. However, this approach is intrinsically limited as it only learns shared or redundant information between modalities, while multimodal interactions can arise in other ways. In this work, we introduce CoMM, a Contrastive MultiModal learning strategy that enables the communication between modalities in a single multimodal space. Instead of imposing cross- or intra- modality constraints, we propose to align multimodal representations by maximizing the mutual information between augmented versions of these multimodal features. Our theoretical analysis shows that shared, synergistic and unique terms of information naturally emerge from this formulation, allowing us to estimate multimodal interactions beyond redundancy. We test CoMM both in a controlled and in a series of real-world settings: in the former, we demonstrate that CoMM effectively captures redundant, unique and synergistic information between modalities. In the latter, CoMM learns complex multimodal interactions and achieves state-of-the-art results on the seven multimodal benchmarks. Code is available at https://github.com/Duplums/CoMM

arxiv情報

著者 Benoit Dufumier,Javiera Castillo-Navarro,Devis Tuia,Jean-Philippe Thiran
発行日 2025-03-05 16:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | What to align in multimodal contrastive learning? はコメントを受け付けていません

LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant

要約

一人称ビデオアシスタントは、オンラインビデオの対話を通じて私たちの日常生活を強化することを非常に期待しています。
ただし、既存のオンラインビデオアシスタントは、粗粒の視覚的特徴を使用して低フレームレートビデオを処理することにより、リアルタイムの効率のためにアシスタントの有効性を犠牲にすることがよくあります。有効性と効率性のトレードオフを克服するために、オンラインビデオアシスタント、ライオン-FS、リアルタイム、プロヤータイム、ポリティブ、およびコンテキストの正確な応答を実現することを提案します。
Lion-FSは2段階の最適化戦略を採用しています。1)高速パス:ルーティングベースの応答決定は、即時の応答が必要かどうかをフレームごとに評価します。
応答の決定精度を強化し、より高いフレームレートの入力を効率的に処理するために、トークン集約ルーティングを使用して、トークン数を増やすことなく空間的特徴を動的に融合させ、トークンドロップルーティングを利用して冗長機能を排除します。
2)スローパス:マルチ粒度キーフレームの増強は、応答生成中にキーフレームを最適化します。
トレーニングデータによって制約されている原子作用を超えた包括的かつ詳細な応答を提供するために、細粒の空間的特徴と人間と環境の相互作用機能が多粒プーリングを通じて抽出されます。
これらの機能は、より正確な応答生成をガイドするために、細心の注意を払って設計されたマルチモーダル思考テンプレートにさらに統合されています。
オンラインビデオタスクの包括的な評価は、ライオンFSが最新の有効性と効率を達成することを示しています。

要約(オリジナル)

First-person video assistants are highly anticipated to enhance our daily lives through online video dialogue. However, existing online video assistants often sacrifice assistant efficacy for real-time efficiency by processing low-frame-rate videos with coarse-grained visual features.To overcome the trade-off between efficacy and efficiency, we propose ‘Fast & Slow Video-Language Thinker’ as an onLIne videO assistaNt, LION-FS, achieving real-time, proactive, temporally accurate, and contextually precise responses. LION-FS adopts a two-stage optimization strategy: 1)Fast Path: Routing-Based Response Determination evaluates frame-by-frame whether an immediate response is necessary. To enhance response determination accuracy and handle higher frame-rate inputs efficiently, we employ Token Aggregation Routing to dynamically fuse spatiotemporal features without increasing token numbers, while utilizing Token Dropping Routing to eliminate redundant features. 2)Slow Path: Multi-granularity Keyframe Augmentation optimizes keyframes during response generation. To provide comprehensive and detailed responses beyond atomic actions constrained by training data, fine-grained spatial features and human-environment interaction features are extracted through multi-granular pooling. These features are further integrated into a meticulously designed multimodal Thinking Template to guide more precise response generation. Comprehensive evaluations on online video tasks demonstrate that LION-FS achieves state-of-the-art efficacy and efficiency.

arxiv情報

著者 Wei Li,Bing Hu,Rui Shao,Leyang Shen,Liqiang Nie
発行日 2025-03-05 16:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant はコメントを受け付けていません

A Generative Approach to High Fidelity 3D Reconstruction from Text Data

要約

生成的人工知能と高度なコンピュータービジョンテクノロジーの収束は、テキストの説明を3次元表現に変換するための画期的なアプローチを導入します。
この研究では、テキストから画像への生成、さまざまな画像処理技術、反射除去と3D再建のための深い学習方法をシームレスに統合する完全に自動化されたパイプラインを提案しています。
安定した拡散のような最先端の生成モデルを活用することにより、方法論は自然言語の入力をマルチステージワークフローを介して詳細な3Dモデルに変換します。
再構築プロセスは、テキストプロンプトからの高品質の画像の生成から始まり、その後、強化学習エージェントによる強化と、安定した喜びモデルを使用した反射除去が続きます。
次に、高度な画像のアップスケーリングとバックグラウンド除去技術が適用され、視覚的な忠実度がさらに向上します。
これらの洗練された2次元表現は、その後、洗練された機械学習アルゴリズムを使用して体積3Dモデルに変換され、複雑な空間的関係と幾何学的特性をキャプチャします。
このプロセスは、高度に構造化された詳細な出力を実現し、最終的な3Dモデルがセマンティック精度と幾何学的精度の両方を反映することを保証します。
このアプローチは、セマンティックコヒーレンスの維持、幾何学的複雑さの管理、詳細な視覚情報の保存など、生成再構築における重要な課題に対処します。
包括的な実験的評価では、多様なドメインにわたる再構成の質、意味的精度、幾何学的忠実度、およびさまざまなレベルの複雑さを評価します。
AI駆動型の3D再構成技術の可能性を実証することにより、この研究は、拡張現実(AR)、バーチャルリアリティ(VR)、デジタルコンテンツの作成などの分野に大きな意味を提供します。

要約(オリジナル)

The convergence of generative artificial intelligence and advanced computer vision technologies introduces a groundbreaking approach to transforming textual descriptions into three-dimensional representations. This research proposes a fully automated pipeline that seamlessly integrates text-to-image generation, various image processing techniques, and deep learning methods for reflection removal and 3D reconstruction. By leveraging state-of-the-art generative models like Stable Diffusion, the methodology translates natural language inputs into detailed 3D models through a multi-stage workflow. The reconstruction process begins with the generation of high-quality images from textual prompts, followed by enhancement by a reinforcement learning agent and reflection removal using the Stable Delight model. Advanced image upscaling and background removal techniques are then applied to further enhance visual fidelity. These refined two-dimensional representations are subsequently transformed into volumetric 3D models using sophisticated machine learning algorithms, capturing intricate spatial relationships and geometric characteristics. This process achieves a highly structured and detailed output, ensuring that the final 3D models reflect both semantic accuracy and geometric precision. This approach addresses key challenges in generative reconstruction, such as maintaining semantic coherence, managing geometric complexity, and preserving detailed visual information. Comprehensive experimental evaluations will assess reconstruction quality, semantic accuracy, and geometric fidelity across diverse domains and varying levels of complexity. By demonstrating the potential of AI-driven 3D reconstruction techniques, this research offers significant implications for fields such as augmented reality (AR), virtual reality (VR), and digital content creation.

arxiv情報

著者 Venkat Kumar R,Deepak Saravanan
発行日 2025-03-05 16:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A Generative Approach to High Fidelity 3D Reconstruction from Text Data はコメントを受け付けていません

DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance

要約

正確で忠実な運転シーンの再構築には、包括的なシーン情報を条件付き入力として効果的に利用する必要があります。
既存の方法は、主に3Dバウンディングボックスと前景とバックグラウンドコントロール用のBEVロードマップに依存しています。これは、運転シーンの完全な複雑さをキャプチャできず、マルチモーダル情報を適切に統合します。
この作業では、複数のビューとビデオシーケンスにわたって運転シーンの生成を強化するために設計されたデュアルブランチ条件付き拡散モデルであるDualDiffを提示します。
具体的には、条件付き入力として占有レイシェイプサンプリング(OR)を導入し、両方の要素の生成を正確に制御するために、3D空間ジオメトリと並んでリッチな前景と背景のセマンティクスを提供します。
きめ細かい前景オブジェクト、特に複雑で遠いオブジェクトの合成を改善するために、前景を認識したマスク(FGM)の損失関数を除去することを提案します。
さらに、関連する情報を動的に優先し、ノイズを抑制し、より効果的なマルチモーダル融合を可能にするセマンティックフュージョンの注意(SFA)メカニズムを開発します。
最後に、高品質の画像からビデオへの生成を確保するために、生成されたビデオのグローバルな一貫性とセマンティックコヒーレンスを維持する報酬誘導拡散(RGD)フレームワークを導入します。
広範な実験は、DualDiffが複数のデータセットで最先端の(SOTA)パフォーマンスを達成することを示しています。
Nuscenesデータセットでは、DualDiffは最良のベースラインと比較してFIDスコアを4.09%削減します。
BEVセグメンテーションなどの下流のタスクでは、この方法は車両MIOUを4.50%、道路MIOUを1.70%改善しますが、BEV 3Dオブジェクト検出では、前景マップは1.46%増加します。
コードはhttps://github.com/yangzhaojason/dualdiffで利用可能になります。

要約(オリジナル)

Accurate and high-fidelity driving scene reconstruction demands the effective utilization of comprehensive scene information as conditional inputs. Existing methods predominantly rely on 3D bounding boxes and BEV road maps for foreground and background control, which fail to capture the full complexity of driving scenes and adequately integrate multimodal information. In this work, we present DualDiff, a dual-branch conditional diffusion model designed to enhance driving scene generation across multiple views and video sequences. Specifically, we introduce Occupancy Ray-shape Sampling (ORS) as a conditional input, offering rich foreground and background semantics alongside 3D spatial geometry to precisely control the generation of both elements. To improve the synthesis of fine-grained foreground objects, particularly complex and distant ones, we propose a Foreground-Aware Mask (FGM) denoising loss function. Additionally, we develop the Semantic Fusion Attention (SFA) mechanism to dynamically prioritize relevant information and suppress noise, enabling more effective multimodal fusion. Finally, to ensure high-quality image-to-video generation, we introduce the Reward-Guided Diffusion (RGD) framework, which maintains global consistency and semantic coherence in generated videos. Extensive experiments demonstrate that DualDiff achieves state-of-the-art (SOTA) performance across multiple datasets. On the NuScenes dataset, DualDiff reduces the FID score by 4.09% compared to the best baseline. In downstream tasks, such as BEV segmentation, our method improves vehicle mIoU by 4.50% and road mIoU by 1.70%, while in BEV 3D object detection, the foreground mAP increases by 1.46%. Code will be made available at https://github.com/yangzhaojason/DualDiff.

arxiv情報

著者 Zhao Yang,Zezhong Qian,Xiaofan Li,Weixiang Xu,Gongpeng Zhao,Ruohong Yu,Lingsi Zhu,Longjun Liu
発行日 2025-03-05 17:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance はコメントを受け付けていません