A Scoping Review of Earth Observation and Machine Learning for Causal Inference: Implications for the Geography of Poverty

要約

衛星画像などの地球観測(EO)データは、特に機械学習(ML)とコンピュータービジョンと相まって、貧困の地理の理解に広範囲に影響を与える可能性があります。
初期の研究では、データが限られている地域の生活条件を予測するためにコンピュータービジョンを使用しましたが、最近の研究は因果分析にますます焦点を当てています。
このシフトにもかかわらず、因果推論のためにEO-MLメソッドの使用には徹底的な文書が欠けており、ベストプラクティスはまだ発展しています。
包括的なスコーピングレビューを通じて、因果分析におけるEO-MLメソッドに関する現在の文献をカタログ化します。
因果ワークフローにEOデータを組み込むための5つの主要なアプローチを合成します。(1)下流の因果分析の結果の転帰、(2)EO画像デコンファウンド、(3)EOベースの治療効果の不均一性、(4)EOベースの輸送可能性分析、および(5)画像に形成された因果発見。
これらの調査結果に基づいて、EOデータを因果分析に統合するための詳細なプロトコルガイド研究者を提供します。データ要件、コンピュータービジョンモデルの選択、評価メトリックをカバーしています。
私たちのフォーカスは健康と生活条件の結果に焦点を当てていますが、プロトコルはEOデータを利用して他の持続可能な開発ドメインに適応できます。

要約(オリジナル)

Earth observation (EO) data such as satellite imagery can have far-reaching impacts on our understanding of the geography of poverty, especially when coupled with machine learning (ML) and computer vision. Early research used computer vision to predict living conditions in areas with limited data, but recent studies increasingly focus on causal analysis. Despite this shift, the use of EO-ML methods for causal inference lacks thorough documentation, and best practices are still developing. Through a comprehensive scoping review, we catalog the current literature on EO-ML methods in causal analysis. We synthesize five principal approaches to incorporating EO data in causal workflows: (1) outcome imputation for downstream causal analysis, (2) EO image deconfounding, (3) EO-based treatment effect heterogeneity, (4) EO-based transportability analysis, and (5) image-informed causal discovery. Building on these findings, we provide a detailed protocol guiding researchers in integrating EO data into causal analysis — covering data requirements, computer vision model selection, and evaluation metrics. While our focus centers on health and living conditions outcomes, our protocol is adaptable to other sustainable development domains utilizing EO data.

arxiv情報

著者 Kazuki Sakamoto,Connor T. Jerzak,Adel Daoud
発行日 2025-04-22 16:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62H11, cs.CV, cs.LG, I.2.6, stat.ME, stat.ML | A Scoping Review of Earth Observation and Machine Learning for Causal Inference: Implications for the Geography of Poverty はコメントを受け付けていません

Evaluating Vision Language Models (VLMs) for Radiology: A Comprehensive Analysis

要約

自己監視技術を使用して膨大な量のデータで訓練された基礎モデルは、医学における人工知能(AI)アプリケーションを進めるための有望なフロンティアとして浮上しています。
この研究では、3つの異なる視覚言語基礎モデル(Rad-Dino、Chexagent、およびBiomedClip)を評価して、放射線科タスクの微細なイメージング機能をキャプチャする能力を評価します。
モデルは、胸部レントゲン写真の気胸および心臓腫瘍の分類、セグメンテーション、および回帰タスク全体で評価されました。
自己監視されたRad-Dinoは一貫してセグメンテーションタスクに優れていましたが、テキスト補助Chexagentは優れた分類パフォーマンスを実証しました。
BiomedClipは、タスク全体で一貫性のないパフォーマンスを示しました。
グローバルとローカルの機能を統合するカスタムセグメンテーションモデルは、特に気胸セグメンテーションに挑戦するために、すべての基礎モデルのパフォーマンスを大幅に改善しました。
調査結果は、トレーニング前の方法論が特定のダウンストリームタスクのモデルパフォーマンスに大きく影響することを強調しています。
微調整されたセグメンテーションタスクの場合、テキストの監督なしで訓練されたモデルはより良く機能しましたが、テキスト補助モデルは分類と解釈可能性の利点を提供しました。
これらの洞察は、放射線学における特定の臨床応用に基づいて、基礎モデルを選択するためのガイダンスを提供します。

要約(オリジナル)

Foundation models, trained on vast amounts of data using self-supervised techniques, have emerged as a promising frontier for advancing artificial intelligence (AI) applications in medicine. This study evaluates three different vision-language foundation models (RAD-DINO, CheXagent, and BiomedCLIP) on their ability to capture fine-grained imaging features for radiology tasks. The models were assessed across classification, segmentation, and regression tasks for pneumothorax and cardiomegaly on chest radiographs. Self-supervised RAD-DINO consistently excelled in segmentation tasks, while text-supervised CheXagent demonstrated superior classification performance. BiomedCLIP showed inconsistent performance across tasks. A custom segmentation model that integrates global and local features substantially improved performance for all foundation models, particularly for challenging pneumothorax segmentation. The findings highlight that pre-training methodology significantly influences model performance on specific downstream tasks. For fine-grained segmentation tasks, models trained without text supervision performed better, while text-supervised models offered advantages in classification and interpretability. These insights provide guidance for selecting foundation models based on specific clinical applications in radiology.

arxiv情報

著者 Frank Li,Hari Trivedi,Bardia Khosravi,Theo Dapamede,Mohammadreza Chavoshi,Abdulhameed Dere,Rohan Satya Isaac,Aawez Mansuri,Janice Newsome,Saptarshi Purkayastha,Judy Gichoya
発行日 2025-04-22 17:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Evaluating Vision Language Models (VLMs) for Radiology: A Comprehensive Analysis はコメントを受け付けていません

LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision

要約

ビデオから時空間シーングラフ(STSG)を学習するための監視されたアプローチは、STSG解剖されたビデオに依存しているため、大規模に構築するために労働集約的なビデオに依存しているため、大幅に妨げられています。
代わりに、すぐに利用可能なビデオキャプションを弱い監督として使用することは可能ですか?
この質問に対処するために、ビデオキャプションのみを使用してSTSGジェネレーターをトレーニングできるようにするためのニューロシンボリックフレームワークであるレーザーを提案します。
Laserは、ビデオキャプションから豊富な時空間セマンティック情報を使用して、最初に論理仕様を抽出するために大規模な言語モデルを採用しています。
その後、レーザーは基礎となるSTSGジェネレーターをトレーニングして、予測されたSTSGを仕様に合わせます。
アラインメントアルゴリズムは、微分可能なシンボリック推論を活用し、対照的な、時間的、およびセマンティクス損失の組み合わせを使用することにより、弱い監督の課題を克服します。
全体的なアプローチは、低レベルの知覚モデルを効率的にトレーニングして、ビデオキャプションに準拠するきめの細かいSTSGを抽出します。
そうすることで、退屈な注釈なしでSTSGを学習するための新しい方法論を可能にします。
OpenPVSG、20bn、およびMugenの3つのビデオデータセットでこの方法を評価します。
私たちのアプローチは、完全に監視されたベースラインよりも大幅な改善を示しており、27.78%(+12.65%)の単位述語予測精度と、OpenPVSGで0.42(+0.22)のバイナリリコールを達成しています。
さらに、レーザーは、全体的な述語予測精度の点で、20bnでベースラインを7%、ムゲンで5.2%を超えています。

要約(オリジナル)

Supervised approaches for learning spatio-temporal scene graphs (STSG) from video are greatly hindered due to their reliance on STSG-annotated videos, which are labor-intensive to construct at scale. Is it feasible to instead use readily available video captions as weak supervision? To address this question, we propose LASER, a neuro-symbolic framework to enable training STSG generators using only video captions. LASER employs large language models to first extract logical specifications with rich spatio-temporal semantic information from video captions. LASER then trains the underlying STSG generator to align the predicted STSG with the specification. The alignment algorithm overcomes the challenges of weak supervision by leveraging a differentiable symbolic reasoner and using a combination of contrastive, temporal, and semantics losses. The overall approach efficiently trains low-level perception models to extract a fine-grained STSG that conforms to the video caption. In doing so, it enables a novel methodology for learning STSGs without tedious annotations. We evaluate our method on three video datasets: OpenPVSG, 20BN, and MUGEN. Our approach demonstrates substantial improvements over fully-supervised baselines, achieving a unary predicate prediction accuracy of 27.78% (+12.65%) and a binary recall@5 of 0.42 (+0.22) on OpenPVSG. Additionally, LASER exceeds baselines by 7% on 20BN and 5.2% on MUGEN in terms of overall predicate prediction accuracy.

arxiv情報

著者 Jiani Huang,Ziyang Li,Mayur Naik,Ser-Nam Lim
発行日 2025-04-22 17:26:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.LO | LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision はコメントを受け付けていません

Vision language models are unreliable at trivial spatial cognition

要約

ビジョン言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されています。
いくつかの研究では、VLMが人間のようなシーンの理解を示すことができることを示唆していますが、他の調査では関係情報を処理する能力の困難を明らかにしています。
広範囲にわたる適用性を実現するには、VLMSが確実に実行され、さまざまな関連タスクにわたって同等の能力をもたらす必要があります。
私たちは、これらのアーキテクチャが些細な空間認知に従事することにどれだけ信頼できるかをテストしようとしました。
テーブルに配置されたオブジェクトの3Dシーンを描いた画像を描いたベンチマークデータセット(TableTest)を開発し、それを使用して最新のVLMを評価しました。
結果は、論理的に同等の説明を使用するプロンプトのわずかなバリエーションによってパフォーマンスが低下する可能性があることを示しています。
これらの分析は、VLMが実際のアプリケーションにおける空間関係についてどのように推論するかについての制限を示唆しています。
また、より効率的なトレーニングとテストのために、画像キャプションコーパスを強化するための新しい機会を明らかにしています。

要約(オリジナル)

Vision language models (VLMs) are designed to extract relevant visuospatial information from images. Some research suggests that VLMs can exhibit humanlike scene understanding, while other investigations reveal difficulties in their ability to process relational information. To achieve widespread applicability, VLMs must perform reliably, yielding comparable competence across a wide variety of related tasks. We sought to test how reliable these architectures are at engaging in trivial spatial cognition, e.g., recognizing whether one object is left of another in an uncluttered scene. We developed a benchmark dataset — TableTest — whose images depict 3D scenes of objects arranged on a table, and used it to evaluate state-of-the-art VLMs. Results show that performance could be degraded by minor variations of prompts that use logically equivalent descriptions. These analyses suggest limitations in how VLMs may reason about spatial relations in real-world applications. They also reveal novel opportunities for bolstering image caption corpora for more efficient training and testing.

arxiv情報

著者 Sangeet Khemlani,Tyler Tran,Nathaniel Gyory,Anthony M. Harrison,Wallace E. Lawson,Ravenna Thielstrom,Hunter Thompson,Taaren Singh,J. Gregory Trafton
発行日 2025-04-22 17:38:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Vision language models are unreliable at trivial spatial cognition はコメントを受け付けていません

ForesightNav: Learning Scene Imagination for Efficient Exploration

要約

人間がどのように事前知識を活用して目に見えない環境をナビゲートしながら、探索的な決定を下すことを理解することは、同様の能力を持つ自律的なロボットを開発するために不可欠です。
この作業では、人間の想像力と推論に触発された新しい探索戦略であるForesightnavを提案します。
私たちのアプローチは、未開の地域の占有やセマンティックの詳細などのコンテキスト情報を予測する機能をロボットエージェントに装備しています。
これらの予測により、ロボットは意味のある長期ナビゲーション目標を効率的に選択し、目に見えない環境での探査を大幅に強化することができます。
Structured3Dデータセットを使用して想像力ベースのアプローチを検証し、目に見えないシーンのジオメトリを予測する正確な占有率と優れたパフォーマンスを実証します。
我々の実験は、想像力モジュールが目に見えない環境での探査効率を改善し、PointNavの100%の完了率とStructured3D検証分割のObjectNavで67%のSPLを達成することを示しています。
これらの貢献は、一般化可能で効率的な探査を強化するための自律システムの想像力駆動型の推論の力を示しています。

要約(オリジナル)

Understanding how humans leverage prior knowledge to navigate unseen environments while making exploratory decisions is essential for developing autonomous robots with similar abilities. In this work, we propose ForesightNav, a novel exploration strategy inspired by human imagination and reasoning. Our approach equips robotic agents with the capability to predict contextual information, such as occupancy and semantic details, for unexplored regions. These predictions enable the robot to efficiently select meaningful long-term navigation goals, significantly enhancing exploration in unseen environments. We validate our imagination-based approach using the Structured3D dataset, demonstrating accurate occupancy prediction and superior performance in anticipating unseen scene geometry. Our experiments show that the imagination module improves exploration efficiency in unseen environments, achieving a 100% completion rate for PointNav and an SPL of 67% for ObjectNav on the Structured3D Validation split. These contributions demonstrate the power of imagination-driven reasoning for autonomous systems to enhance generalizable and efficient exploration.

arxiv情報

著者 Hardik Shah,Jiaxu Xing,Nico Messikommer,Boyang Sun,Marc Pollefeys,Davide Scaramuzza
発行日 2025-04-22 17:38:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ForesightNav: Learning Scene Imagination for Efficient Exploration はコメントを受け付けていません

Boosting Generative Image Modeling via Joint Image-Feature Synthesis

要約

潜在的な拡散モデル(LDMS)は高品質の画像生成を支配しますが、表現学習を生成モデリングと統合することは依然として課題です。
拡散モデルを活用して、低レベルの画像潜伏物質(変動自動エンコーダーから)と高レベルのセマンティック機能(Dinoのような前処理された自己監視エンコーダーから)を共同でモデル化することにより、このギャップをシームレスにブリッジする新しい生成画像モデリングフレームワークを紹介します。
私たちの潜在的な女性的拡散アプローチは、純粋なノイズからコヒーレントな画像風のペアを生成し、生成的品質とトレーニング効率の両方を大幅に向上させることを学びますが、すべて標準的な拡散変圧器アーキテクチャの最小限の変更のみを必要とします。
複雑な蒸留目標の必要性を排除することにより、統一された設計はトレーニングを簡素化し、強力な新しい推論戦略のロックを解除します。表現ガイダンスは、画像生成を操縦および改良するためのセマンティクスを活用します。
条件付きおよび無条件の両方の設定で評価されたこの方法は、画質とトレーニングの収束速度の大幅な改善を実現し、表現に対応する生成モデリングの新しい方向性を確立します。

要約(オリジナル)

Latent diffusion models (LDMs) dominate high-quality image generation, yet integrating representation learning with generative modeling remains a challenge. We introduce a novel generative image modeling framework that seamlessly bridges this gap by leveraging a diffusion model to jointly model low-level image latents (from a variational autoencoder) and high-level semantic features (from a pretrained self-supervised encoder like DINO). Our latent-semantic diffusion approach learns to generate coherent image-feature pairs from pure noise, significantly enhancing both generative quality and training efficiency, all while requiring only minimal modifications to standard Diffusion Transformer architectures. By eliminating the need for complex distillation objectives, our unified design simplifies training and unlocks a powerful new inference strategy: Representation Guidance, which leverages learned semantics to steer and refine image generation. Evaluated in both conditional and unconditional settings, our method delivers substantial improvements in image quality and training convergence speed, establishing a new direction for representation-aware generative modeling.

arxiv情報

著者 Theodoros Kouzelis,Efstathios Karypidis,Ioannis Kakogeorgiou,Spyros Gidaris,Nikos Komodakis
発行日 2025-04-22 17:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Boosting Generative Image Modeling via Joint Image-Feature Synthesis はコメントを受け付けていません

Describe Anything: Detailed Localized Image and Video Captioning

要約

画像やビデオで特定の領域の詳細かつ正確な説明を生成することは、ビジョン言語モデルにとって根本的な課題のままです。
詳細なローカライズされたキャプション(DLC)向けに設計されたモデルであるDescribth Anyty Model(DAM)を紹介します。
DAMは、2つの重要な革新を通じて、ローカルの詳細とグローバルコンテキストの両方を保持します。これは、ターゲット領域の高解像度エンコードを保証する焦点プロンプトと、より広いコンテキストと正確なローカリゼーションを統合するローカライズされたビジョンバックボーンです。
高品質のDLCデータの希少性に取り組むために、半監視学習(SSL)ベースのデータパイプライン(DLC-SDP)を提案します。
DLC-SDPは、既存のセグメンテーションデータセットから始まり、SSLを使用して非標識Web画像に拡張します。
参照キャプションに依存せずにDLCを評価するために設計されたベンチマークであるDLC-Benchを紹介します。
DAMは、キーワードレベル、フレーズレベル、および詳細なマルチセンテンスローカライズされた画像とビデオキャプションにまたがる7つのベンチマークに新しい最先端の最先端を設定します。

要約(オリジナル)

Generating detailed and accurate descriptions for specific regions in images and videos remains a fundamental challenge for vision-language models. We introduce the Describe Anything Model (DAM), a model designed for detailed localized captioning (DLC). DAM preserves both local details and global context through two key innovations: a focal prompt, which ensures high-resolution encoding of targeted regions, and a localized vision backbone, which integrates precise localization with its broader context. To tackle the scarcity of high-quality DLC data, we propose a Semi-supervised learning (SSL)-based Data Pipeline (DLC-SDP). DLC-SDP starts with existing segmentation datasets and expands to unlabeled web images using SSL. We introduce DLC-Bench, a benchmark designed to evaluate DLC without relying on reference captions. DAM sets new state-of-the-art on 7 benchmarks spanning keyword-level, phrase-level, and detailed multi-sentence localized image and video captioning.

arxiv情報

著者 Long Lian,Yifan Ding,Yunhao Ge,Sifei Liu,Hanzi Mao,Boyi Li,Marco Pavone,Ming-Yu Liu,Trevor Darrell,Adam Yala,Yin Cui
発行日 2025-04-22 17:51:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Describe Anything: Detailed Localized Image and Video Captioning はコメントを受け付けていません

From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

要約

最近のテキスト間拡散モデルは、トレーニングデータとモデルパラメーターの広範なスケーリングを通じて印象的な視覚品質を実現しますが、しばしば複雑なシーンや細かい詳細に苦労しています。
大規模な言語モデルに出現する自己反射能力に触発され、拡散モデルが出力を反映して改良できる推論時間フレームワークであるReflectionFlowを提案します。
ReflectionFlowは、3つの相補的な推論時間スケーリング軸を導入します。(1)潜在的な初期化を最適化するためのノイズレベルのスケーリング。
(2)正確なセマンティックガイダンスのためのプロンプトレベルのスケーリング。
特に、(3)反射レベルのスケーリングは、以前の世代を繰り返し評価および修正するための実用的な反射を明示的に提供します。
反射レベルのスケーリングを容易にするために、それぞれが反射、欠陥のある画像、拡張画像を含む100万のトリプレットを含む大規模なデータセットであるGunrefを構築します。
このデータセットを活用して、統一されたフレームワーク内でマルチモーダル入力を共同でモデル化することにより、最先端の拡散トランス、Flux.1-Devの反射チューニングを効率的に実行します。
実験結果は、リフレクションフローが素朴なノイズレベルのスケーリング方法を大幅に上回ることを示しており、挑戦的なタスクに関する高品質の画像合成に対してスケーラブルで計算効率の良いソリューションを提供します。

要約(オリジナル)

Recent text-to-image diffusion models achieve impressive visual quality through extensive scaling of training data and model parameters, yet they often struggle with complex scenes and fine-grained details. Inspired by the self-reflection capabilities emergent in large language models, we propose ReflectionFlow, an inference-time framework enabling diffusion models to iteratively reflect upon and refine their outputs. ReflectionFlow introduces three complementary inference-time scaling axes: (1) noise-level scaling to optimize latent initialization; (2) prompt-level scaling for precise semantic guidance; and most notably, (3) reflection-level scaling, which explicitly provides actionable reflections to iteratively assess and correct previous generations. To facilitate reflection-level scaling, we construct GenRef, a large-scale dataset comprising 1 million triplets, each containing a reflection, a flawed image, and an enhanced image. Leveraging this dataset, we efficiently perform reflection tuning on state-of-the-art diffusion transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified framework. Experimental results show that ReflectionFlow significantly outperforms naive noise-level scaling methods, offering a scalable and compute-efficient solution toward higher-quality image synthesis on challenging tasks.

arxiv情報

著者 Le Zhuo,Liangbing Zhao,Sayak Paul,Yue Liao,Renrui Zhang,Yi Xin,Peng Gao,Mohamed Elhoseiny,Hongsheng Li
発行日 2025-04-22 17:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning はコメントを受け付けていません

Survey of Video Diffusion Models: Foundations, Implementations, and Applications

要約

拡散モデルの最近の進歩により、ビデオ生成に革命をもたらし、従来の生成的敵対的ネットワークベースのアプローチと比較して、優れた時間的一貫性と視覚的品質を提供しています。
この新たな分野は、アプリケーションで大きな約束を示していますが、動きの一貫性、計算効率、倫理的考慮事項において大きな課題に直面しています。
この調査では、拡散ベースのビデオ生成の包括的なレビューを提供し、その進化、技術的基盤、および実用的なアプリケーションを調べます。
現在の方法論の体系的な分類法を提示し、建築革新と最適化戦略を分析し、除去や超解像度などの低レベルのビジョンタスク全体でアプリケーションを調査します。
さらに、ビデオ表現の学習、質問の回答、取得など、拡散ベースのビデオ生成と関連するドメインの相乗効果を調査します。
既存の調査(Lei et al。、2024a; b; Melnik et al。、2024; Cao et al。、2023; Xing et al。、2024c)と比較して、ビデオ統合や長年のコンテンツ生成など、ビデオ統合や長い形態のコンテンツ生成など、ビデオ生成の特定の側面に焦点を当てています。
ビデオ生成における評価メトリック、業界ソリューション、およびトレーニングエンジニアリング技術のための特別なセクションを使用した拡散ベースのアプローチに関する視点。
この調査は、拡散モデルとビデオ生成の交差点で働く研究者と実践者の基礎的なリソースとして機能し、この急速に進化する分野を駆動する理論的枠組みと実用的な実装の両方に対する洞察を提供します。
この調査に関与する関連作品の構造化リストは、https://github.com/eyeline-research/survey-video-diffusionでも入手できます。

要約(オリジナル)

Recent advances in diffusion models have revolutionized video generation, offering superior temporal consistency and visual quality compared to traditional generative adversarial networks-based approaches. While this emerging field shows tremendous promise in applications, it faces significant challenges in motion consistency, computational efficiency, and ethical considerations. This survey provides a comprehensive review of diffusion-based video generation, examining its evolution, technical foundations, and practical applications. We present a systematic taxonomy of current methodologies, analyze architectural innovations and optimization strategies, and investigate applications across low-level vision tasks such as denoising and super-resolution. Additionally, we explore the synergies between diffusionbased video generation and related domains, including video representation learning, question answering, and retrieval. Compared to the existing surveys (Lei et al., 2024a;b; Melnik et al., 2024; Cao et al., 2023; Xing et al., 2024c) which focus on specific aspects of video generation, such as human video synthesis (Lei et al., 2024a) or long-form content generation (Lei et al., 2024b), our work provides a broader, more updated, and more fine-grained perspective on diffusion-based approaches with a special section for evaluation metrics, industry solutions, and training engineering techniques in video generation. This survey serves as a foundational resource for researchers and practitioners working at the intersection of diffusion models and video generation, providing insights into both the theoretical frameworks and practical implementations that drive this rapidly evolving field. A structured list of related works involved in this survey is also available on https://github.com/Eyeline-Research/Survey-Video-Diffusion.

arxiv情報

著者 Yimu Wang,Xuye Liu,Wei Pang,Li Ma,Shuai Yuan,Paul Debevec,Ning Yu
発行日 2025-04-22 17:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Survey of Video Diffusion Models: Foundations, Implementations, and Applications はコメントを受け付けていません

MR. Video: ‘MapReduce’ is the Principle for Long Video Understanding

要約

MRを提案します。
ビデオ、長いビデオを処理するためのシンプルで効果的なMapReduce原則を示すエージェントの長いビデオ理解フレームワーク:(1)マップ:独立して密に短いビデオクリップを知覚し、(2)すべてのクリップから情報を共同で集約します。
シーケンスからシーケンスへの視覚言語モデル(VLM)と比較して、MR。
ビデオは、コンテキストの長さによって制限されることなく、詳細な短いビデオ認識を実行します。
通常、シーケンシャルキーセグメントの選択に依存する既存のビデオエージェントと比較して、マップ操作により、短いビデオセグメントのよりシンプルでスケーラブルなシーケンス並列認識が可能になります。
その削減ステップにより、より包括的なコンテキスト集約と推論が可能になり、明示的なキーセグメントの検索を超えます。
このMapReduceの原則は、VLMSとビデオエージェントの両方に適用でき、LLMエージェントを使用してその有効性を検証します。
実際には、MR。
ビデオでは、2つのMapReduce段階を採用しています。(a)キャプション:短いビデオクリップのキャプションの生成(マップ)、その後、繰り返される文字とオブジェクトを共有名(reduce)に標準化します。
(b)分析:ユーザーの質問ごとに、個々の短いビデオ(マップ)からの関連情報を分析し、最終回答(削減)に統合します。
氏。
ビデオは、最先端のVLMSやビデオエージェントと比較して、挑戦的なLVBenchで10%以上の精度改善を達成します。
コードは、https://github.com/ziqipang/mr-videoで入手できます

要約(オリジナル)

We propose MR. Video, an agentic long video understanding framework that demonstrates the simple yet effective MapReduce principle for processing long videos: (1) Map: independently and densely perceiving short video clips, and (2) Reduce: jointly aggregating information from all clips. Compared with sequence-to-sequence vision-language models (VLMs), MR. Video performs detailed short video perception without being limited by context length. Compared with existing video agents that typically rely on sequential key segment selection, the Map operation enables simpler and more scalable sequence parallel perception of short video segments. Its Reduce step allows for more comprehensive context aggregation and reasoning, surpassing explicit key segment retrieval. This MapReduce principle is applicable to both VLMs and video agents, and we use LLM agents to validate its effectiveness. In practice, MR. Video employs two MapReduce stages: (A) Captioning: generating captions for short video clips (map), then standardizing repeated characters and objects into shared names (reduce); (B) Analysis: for each user question, analyzing relevant information from individual short videos (map), and integrating them into a final answer (reduce). MR. Video achieves over 10% accuracy improvement on the challenging LVBench compared to state-of-the-art VLMs and video agents. Code is available at: https://github.com/ziqipang/MR-Video

arxiv情報

著者 Ziqi Pang,Yu-Xiong Wang
発行日 2025-04-22 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MR. Video: ‘MapReduce’ is the Principle for Long Video Understanding はコメントを受け付けていません