PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild

要約

このレポートは、CVPR 2025と協力して開催されたWild(PVU)チャレンジにおける第4ピクセルレベルのビデオ理解の包括的な概要を提供します。チャレンジの結果、参加方法、および将来の研究の方向性を要約します。
課題には、複雑なシーンのビデオオブジェクトセグメンテーションに焦点を当てたMoseと、モーションガイドの言語ベースのビデオセグメンテーションをターゲットにするMevisの2つのトラックがあります。
どちらのトラックでも、実際のシナリオをよりよく反映するように設計された新しい、より挑戦的なデータセットを導入します。
詳細な評価と分析を通じて、この課題は、複雑なビデオセグメンテーションにおける現在の最先端および新たな傾向に関する貴重な洞察を提供します。
詳細については、ワークショップのWebサイトhttps://pvuw.github.io/をご覧ください。

要約(オリジナル)

This report provides a comprehensive overview of the 4th Pixel-level Video Understanding in the Wild (PVUW) Challenge, held in conjunction with CVPR 2025. It summarizes the challenge outcomes, participating methodologies, and future research directions. The challenge features two tracks: MOSE, which focuses on complex scene video object segmentation, and MeViS, which targets motion-guided, language-based video segmentation. Both tracks introduce new, more challenging datasets designed to better reflect real-world scenarios. Through detailed evaluation and analysis, the challenge offers valuable insights into the current state-of-the-art and emerging trends in complex video segmentation. More information can be found on the workshop website: https://pvuw.github.io/.

arxiv情報

著者 Henghui Ding,Chang Liu,Nikhila Ravi,Shuting He,Yunchao Wei,Song Bai,Philip Torr,Kehuan Song,Xinglin Xie,Kexin Zhang,Licheng Jiao,Lingling Li,Shuyuan Yang,Xuqiang Cao,Linnan Zhao,Jiaxuan Zhao,Fang Liu,Mengjiao Wang,Junpei Zhang,Xu Liu,Yuting Yang,Mengru Ma,Hao Fang,Runmin Cong,Xiankai Lu,Zhiyang Che,Wei Zhan,Tianming Liang,Haichao Jiang,Wei-Shi Zheng,Jian-Fang Hu,Haobo Yuan,Xiangtai Li,Tao Zhang,Lu Qi,Ming-Hsuan Yang
発行日 2025-04-15 16:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild はコメントを受け付けていません

Seedream 3.0 Technical Report

要約

中国と英語の高性能バイリンガルイメージジェネレーションファンデーションモデルであるSeedReam 3.0を紹介します。
複雑なプロンプトとのアラインメント、きめの細かいタイポグラフィの生成、最適ではない視覚美学と忠実度、限られた画像解像度を含む、Seedream 2.0の既存の課題に対処するためのいくつかの技術的改善を開発します。
具体的には、SeedReam 3.0の進歩は、データ構築からモデルの展開まで、パイプライン全体の改善に起因しています。
データ層では、欠陥認識トレーニングパラダイムとデュアル軸共同データサンプリングフレームワークを使用して、データセットを2倍にします。
さらに、混合解像度トレーニング、クロスモダリティロープ、表現アライメント損失、およびトレーニング前の段階での解像度認識のタイムステップサンプリングなど、いくつかの効果的な手法を採用しています。
トレーニング後の段階では、SFTの多様な審美的なキャプションと、スケーリングを備えたVLMベースの報酬モデルを利用して、人間の好みとよく整合する出力を実現します。
さらに、SeedReam 3.0 Pioneers新しい加速パラダイム。
一貫したノイズの期待と重要性の高いタイムステップサンプリングを採用することにより、画質を維持しながら4〜8倍のスピードアップを達成します。
SeedReam 3.0は、SeedReam 2.0よりも大幅な改善を示しています。特に、専門のタイポグラフィ生成にとって重要な複雑な漢字でのテキストレンダリングの全体的な機能が向上します。
さらに、ネイティブの高解像度の出力(最大2K)を提供し、視覚品質の高い画像を生成できるようにします。

要約(オリジナル)

We present Seedream 3.0, a high-performance Chinese-English bilingual image generation foundation model. We develop several technical improvements to address existing challenges in Seedream 2.0, including alignment with complicated prompts, fine-grained typography generation, suboptimal visual aesthetics and fidelity, and limited image resolutions. Specifically, the advancements of Seedream 3.0 stem from improvements across the entire pipeline, from data construction to model deployment. At the data stratum, we double the dataset using a defect-aware training paradigm and a dual-axis collaborative data-sampling framework. Furthermore, we adopt several effective techniques such as mixed-resolution training, cross-modality RoPE, representation alignment loss, and resolution-aware timestep sampling in the pre-training phase. During the post-training stage, we utilize diversified aesthetic captions in SFT, and a VLM-based reward model with scaling, thereby achieving outputs that well align with human preferences. Furthermore, Seedream 3.0 pioneers a novel acceleration paradigm. By employing consistent noise expectation and importance-aware timestep sampling, we achieve a 4 to 8 times speedup while maintaining image quality. Seedream 3.0 demonstrates significant improvements over Seedream 2.0: it enhances overall capabilities, in particular for text-rendering in complicated Chinese characters which is important to professional typography generation. In addition, it provides native high-resolution output (up to 2K), allowing it to generate images with high visual quality.

arxiv情報

著者 Yu Gao,Lixue Gong,Qiushan Guo,Xiaoxia Hou,Zhichao Lai,Fanshi Li,Liang Li,Xiaochen Lian,Chao Liao,Liyang Liu,Wei Liu,Yichun Shi,Shiqi Sun,Yu Tian,Zhi Tian,Peng Wang,Rui Wang,Xuanda Wang,Xun Wang,Ye Wang,Guofeng Wu,Jie Wu,Xin Xia,Xuefeng Xiao,Zhonghua Zhai,Xinyu Zhang,Qi Zhang,Yuwei Zhang,Shijia Zhao,Jianchao Yang,Weilin Huang
発行日 2025-04-15 16:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Seedream 3.0 Technical Report はコメントを受け付けていません

DeepWheel: Generating a 3D Synthetic Wheel Dataset for Design and Performance Evaluation

要約

データ駆動型の設計は、エンジニアリングの革新を加速するための強力な戦略として浮上しています。
ただし、3Dジオメトリと物理的パフォーマンスメトリックを含む大規模で高品質のデータセットがないため、車両ホイールの設計への適用は限られています。
このギャップに対処するために、この研究では、生成AIを使用した合成設計パフォーマンスデータセット生成フレームワークを提案しています。
提案されたフレームワークは、最初に安定した拡散を使用して2Dレンダリングされた画像を生成し、次に2.5D深度推定を通じて3Dジオメトリを再構築します。
その後、エンジニアリングパフォーマンスデータを抽出するために構造シミュレーションが実行されます。
設計とパフォーマンスのスペースをさらに拡大するために、トポロジの最適化が適用され、より多様なホイールデザインの生成が可能になります。
Deepheelという名前の最終データセットは、6,000を超える写真リアリスティックな画像と、構造的に分析された3Dモデルで構成されています。
このマルチモーダルデータセットは、サロゲートモデルトレーニング、データ駆動型の逆設計、設計スペース探索のための貴重なリソースとして機能します。
提案された方法論は、他の複雑な設計ドメインにも適用できます。
データセットはCreative Commons Attribution-NonCommercial 4.0 International(CC BY-NC 4.0)の下でリリースされ、https://www.smartdesignlab.org/datasetsで入手できます。

要約(オリジナル)

Data-driven design is emerging as a powerful strategy to accelerate engineering innovation. However, its application to vehicle wheel design remains limited due to the lack of large-scale, high-quality datasets that include 3D geometry and physical performance metrics. To address this gap, this study proposes a synthetic design-performance dataset generation framework using generative AI. The proposed framework first generates 2D rendered images using Stable Diffusion, and then reconstructs the 3D geometry through 2.5D depth estimation. Structural simulations are subsequently performed to extract engineering performance data. To further expand the design and performance space, topology optimization is applied, enabling the generation of a more diverse set of wheel designs. The final dataset, named DeepWheel, consists of over 6,000 photo-realistic images and 900 structurally analyzed 3D models. This multi-modal dataset serves as a valuable resource for surrogate model training, data-driven inverse design, and design space exploration. The proposed methodology is also applicable to other complex design domains. The dataset is released under the Creative Commons Attribution-NonCommercial 4.0 International(CC BY-NC 4.0) and is available on the https://www.smartdesignlab.org/datasets

arxiv情報

著者 Soyoung Yoo,Namwoo Kang
発行日 2025-04-15 16:20:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CV, physics.app-ph | DeepWheel: Generating a 3D Synthetic Wheel Dataset for Design and Performance Evaluation はコメントを受け付けていません

Explicit and Implicit Representations in AI-based 3D Reconstruction for Radiology: A systematic literature review

要約

臨床診療と診断支援における高品質の医療イメージングの需要により、放射線イメージングにおける3D再構成が重要な研究に焦点を当てています。
人工知能(AI)は、獲得と処理時間を短縮しながら再建の精度を高めるための有望なアプローチとして浮上し、それにより患者の放射線被曝と不快感を最小限に抑え、最終的に臨床診断に利益をもたらしました。
このレビューでは、放射線イメージングにおける最先端のAIベースの3D再構成アルゴリズムを調査し、それらを基礎となる原則に基づいて明示的で暗黙のアプローチに分類します。
明示的な方法には、ポイントベース、ボリュームベース、およびガウス表現が含まれますが、暗黙的な方法には、暗黙の事前埋め込みおよび神経放射輝度が含まれます。
さらに、一般的に使用される評価メトリックとベンチマークデータセットを調べます。
最後に、この進化する分野での現在の開発状況、重要な課題、および将来の研究の方向性について説明します。
当社のプロジェクトは、https://github.com/bean-young/ai4medで入手できます。

要約(オリジナル)

The demand for high-quality medical imaging in clinical practice and assisted diagnosis has made 3D reconstruction in radiological imaging a key research focus. Artificial intelligence (AI) has emerged as a promising approach to enhancing reconstruction accuracy while reducing acquisition and processing time, thereby minimizing patient radiation exposure and discomfort and ultimately benefiting clinical diagnosis. This review explores state-of-the-art AI-based 3D reconstruction algorithms in radiological imaging, categorizing them into explicit and implicit approaches based on their underlying principles. Explicit methods include point-based, volume-based, and Gaussian representations, while implicit methods encompass implicit prior embedding and neural radiance fields. Additionally, we examine commonly used evaluation metrics and benchmark datasets. Finally, we discuss the current state of development, key challenges, and future research directions in this evolving field. Our project available on: https://github.com/Bean-Young/AI4Med.

arxiv情報

著者 Yuezhe Yang,Boyu Yang,Yaqian Wang,Yang He,Xingbo Dong,Zhe Jin
発行日 2025-04-15 16:21:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.AI, cs.CV, cs.GR, I.4.5 | Explicit and Implicit Representations in AI-based 3D Reconstruction for Radiology: A systematic literature review はコメントを受け付けていません

A Decade of Wheat Mapping for Lebanon

要約

小麦は世界のカロリー摂取量の約20%を占めており、世界の食料安全保障の重要な要素となっています。
この重要性を考えると、小麦畑のマッピングは、政策立案者、研究者、農業組織を含むさまざまな利害関係者が食料安全保障、サプライチェーン管理、リソースの割り当てに関する情報に基づいた決定を下すことを可能にする上で重要な役割を果たします。
この論文では、冬の小麦セグメンテーションの改善されたパイプラインを導入し、レバノンの小麦マッピングの10年間の分析に関するケーススタディを提示することにより、衛星画像から小麦場を正確にマッピングする問題に取り組みます。
時間の空間視覚変圧器(TSVIT)を、パラメーター効率の高い微調整(PEFT)と、世界のフィールド(FTW)フレームワークに基づいた新しいポスト処理パイプラインを統合します。
提案されたパイプラインは、単一の大きな分野での小さな農業区のクラスタリングなど、既存のアプローチで遭遇する重要な課題に対処しています。
小麦のセグメンテーションを正確なフィールド境界抽出とマージすることにより、私たちの方法は、幾何学的にコヒーレントで意味的に豊富なマップを生成し、長年にわたって作物の輪作パターンを追跡するなどの詳細な分析を実行できるようにします。
広範な評価は、境界描写とフィールドレベルの精度の改善を実証し、運用上の農業監視と歴史的傾向分析における提案されたフレームワークの可能性を確立します。
小麦場の正確なマッピングを許可することにより、この作業は、作物の監視や収穫量の推定など、さまざまな重要な研究と将来の進歩の基礎を築きます。

要約(オリジナル)

Wheat accounts for approximately 20% of the world’s caloric intake, making it a vital component of global food security. Given this importance, mapping wheat fields plays a crucial role in enabling various stakeholders, including policy makers, researchers, and agricultural organizations, to make informed decisions regarding food security, supply chain management, and resource allocation. In this paper, we tackle the problem of accurately mapping wheat fields out of satellite images by introducing an improved pipeline for winter wheat segmentation, as well as presenting a case study on a decade-long analysis of wheat mapping in Lebanon. We integrate a Temporal Spatial Vision Transformer (TSViT) with Parameter-Efficient Fine Tuning (PEFT) and a novel post-processing pipeline based on the Fields of The World (FTW) framework. Our proposed pipeline addresses key challenges encountered in existing approaches, such as the clustering of small agricultural parcels in a single large field. By merging wheat segmentation with precise field boundary extraction, our method produces geometrically coherent and semantically rich maps that enable us to perform in-depth analysis such as tracking crop rotation pattern over years. Extensive evaluations demonstrate improved boundary delineation and field-level precision, establishing the potential of the proposed framework in operational agricultural monitoring and historical trend analysis. By allowing for accurate mapping of wheat fields, this work lays the foundation for a range of critical studies and future advances, including crop monitoring and yield estimation.

arxiv情報

著者 Hasan Wehbi,Hasan Nasrallah,Mohamad Hasan Zahweh,Zeinab Takach,Veera Ganesh Yalla,Ali J. Ghandour
発行日 2025-04-15 16:31:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Decade of Wheat Mapping for Lebanon はコメントを受け付けていません

From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation

要約

医療画像セグメンテーションは、トレーニング用のピクセルレベルの注釈のコストが高いため、依然として困難です。
監督が弱いという文脈では、臨床医の視線データは診断的な関心のある地域を捉えています。
ただし、そのスパースはセグメンテーションへの使用を制限しています。
対照的に、ビジョン言語モデル(VLM)は、テキストの説明を通じてセマンティックコンテキストを提供しますが、説明の精度が必要です。
どちらのソースだけでも十分ではないことを認識して、私たちは視線と言語の監督の両方を統合し、補完的な強みを活用する教師と学生のフレームワークを提案します。
私たちの重要な洞察は、視線データが診断中に臨床医がどこに焦点を合わせているかを示し、VLMSがそれらの地域が重要である理由を説明することです。
これを実装するために、教師モデルはまず、病変の形態のVLM生成された説明によって強化された視線から学習し、学生モデルを導くための基盤を確立します。
その後、教師は3つの戦略を通じて生徒に指示します。(1)マルチスケール機能のアラインメントは、視覚的な手がかりをテキストセマンティクスと融合させます。
(2)信頼できる予測に焦点を当てる信頼加重された一貫性の制約。
(3)不確実な領域でのエラー伝播を制限するための適応マスキング。
Kvasir-SEG、NCI-ISBI、およびISICデータセットの実験では、この方法では、それぞれ80.78%、80.53%、および84.22%のサイコロスコアが達成され、注釈の負担を増加させることなく視線ベースラインに3-5%改善することが示されています。
予測、視線データ、病変の記述間の相関を維持することにより、私たちのフレームワークは臨床的解釈も維持します。
この作業は、人間の視覚的注意とAIに生成されたセマンティックコンテキストを統合することで、個々の弱い監督シグナルの制限を効果的に克服し、それによって展開可能な注釈効率の高い医療AIシステムの開発を進める方法を示しています。
コードは、https://github.com/jingkunchen/fgi.gitで入手できます。

要約(オリジナル)

Medical image segmentation remains challenging due to the high cost of pixel-level annotations for training. In the context of weak supervision, clinician gaze data captures regions of diagnostic interest; however, its sparsity limits its use for segmentation. In contrast, vision-language models (VLMs) provide semantic context through textual descriptions but lack the explanation precision required. Recognizing that neither source alone suffices, we propose a teacher-student framework that integrates both gaze and language supervision, leveraging their complementary strengths. Our key insight is that gaze data indicates where clinicians focus during diagnosis, while VLMs explain why those regions are significant. To implement this, the teacher model first learns from gaze points enhanced by VLM-generated descriptions of lesion morphology, establishing a foundation for guiding the student model. The teacher then directs the student through three strategies: (1) Multi-scale feature alignment to fuse visual cues with textual semantics; (2) Confidence-weighted consistency constraints to focus on reliable predictions; (3) Adaptive masking to limit error propagation in uncertain areas. Experiments on the Kvasir-SEG, NCI-ISBI, and ISIC datasets show that our method achieves Dice scores of 80.78%, 80.53%, and 84.22%, respectively-improving 3-5% over gaze baselines without increasing the annotation burden. By preserving correlations among predictions, gaze data, and lesion descriptions, our framework also maintains clinical interpretability. This work illustrates how integrating human visual attention with AI-generated semantic context can effectively overcome the limitations of individual weak supervision signals, thereby advancing the development of deployable, annotation-efficient medical AI systems. Code is available at: https://github.com/jingkunchen/FGI.git.

arxiv情報

著者 Jingkun Chen,Haoran Duan,Xiao Zhang,Boyan Gao,Tao Tan,Vicente Grau,Jungong Han
発行日 2025-04-15 16:32:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.CV, I.2.10 | From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation はコメントを受け付けていません

Deep Learning-Based Longitudinal Prediction of Childhood Myopia Progression Using Fundus Image Sequences and Baseline Refraction Data

要約

小児期の近視は、重要な世界的な健康上の懸念を構成しています。
それはエスカレートする有病率を示し、家族的な幸福に悪影響を及ぼし、かなりの経済的コストを生み出す深刻で不可逆的な条件に進化する可能性があります。
現代の研究は、近視の進行を正確に予測してタイムリーで効果的な介入を可能にすることの重要性を強調しており、それにより子供の重度の視覚障害を回避します。
このような予測は、主に主観的な臨床評価に依存しており、本質的に偏った資源集約的であるため、広範囲にわたる応用が妨げられています。
この研究では、Fundus画像とベースライン屈折データのみを使用して、小児の近視軌道と近視リスクを定量的に予測するための新しい高精度の方法を紹介します。
このアプローチは、16,211の眼底画像と対応する屈折データを利用して、河南省の3,408人の子供を対象とした6年間の縦断的研究を通じて検証されました。
深い学習に基づく私たちの方法は、それぞれ近視と高近視の発達のリスクを予測するために、年間0.311D、AUCスコア0.944と0.995のエラーマージンで予測精度を実証しました。
これらの調査結果は、特に追加のメタデータと繰り返しの相談の必要性を排除することにより、早期介入戦略をサポートし、医療コストを大幅に削減する際のモデルの有用性を確認します。
さらに、私たちの方法は、メタデータや医師からの複数の問い合わせを必要とせずに、眼底画像と屈折エラーデータのみに依存するように設計され、関連する医療費を強く削減し、大規模なスクリーニングを促進しました。
私たちのモデルは、単一の時間測定のみに基づいて良い予測を提供することもできます。
その結果、提案された方法は、経済的格差によって引き起こされる医学的不平等を減らすための重要な手段です。

要約(オリジナル)

Childhood myopia constitutes a significant global health concern. It exhibits an escalating prevalence and has the potential to evolve into severe, irreversible conditions that detrimentally impact familial well-being and create substantial economic costs. Contemporary research underscores the importance of precisely predicting myopia progression to enable timely and effective interventions, thereby averting severe visual impairment in children. Such predictions predominantly rely on subjective clinical assessments, which are inherently biased and resource-intensive, thus hindering their widespread application. In this study, we introduce a novel, high-accuracy method for quantitatively predicting the myopic trajectory and myopia risk in children using only fundus images and baseline refraction data. This approach was validated through a six-year longitudinal study of 3,408 children in Henan, utilizing 16,211 fundus images and corresponding refractive data. Our method based on deep learning demonstrated predictive accuracy with an error margin of 0.311D per year and AUC scores of 0.944 and 0.995 for forecasting the risks of developing myopia and high myopia, respectively. These findings confirm the utility of our model in supporting early intervention strategies and in significantly reducing healthcare costs, particularly by obviating the need for additional metadata and repeated consultations. Furthermore, our method was designed to rely only on fundus images and refractive error data, without the need for meta data or multiple inquiries from doctors, strongly reducing the associated medical costs and facilitating large-scale screening. Our model can even provide good predictions based on only a single time measurement. Consequently, the proposed method is an important means to reduce medical inequities caused by economic disparities.

arxiv情報

著者 Mengtian Kang,Yansong Hu,Shuo Gao,Yuanyuan Liu,Hongbei Meng,Xuemeng Li,Xuhang Chen,Hubin Zhao,Jing Fu,Guohua Hu,Wei Wang,Yanning Dai,Arokia Nathan,Peter Smielewski,Ningli Wang,Shiming Li
発行日 2025-04-15 16:41:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Deep Learning-Based Longitudinal Prediction of Childhood Myopia Progression Using Fundus Image Sequences and Baseline Refraction Data はコメントを受け付けていません

Omni$^2$: Unifying Omnidirectional Image Generation and Editing in an Omni Model

要約

$ 360^{\ circ} $ omnidirectional画像(ODI)は最近かなりの注目を集めており、さまざまな仮想現実(VR)および拡張現実(AR)アプリケーションで広く使用されています。
ただし、そのような画像をキャプチャすることは高価であり、特殊な機器が必要であり、ODI合成がますます重要になっています。
一般的な2D画像生成と編集方法は急速に進歩していますが、これらのモデルは、ODIの独自の形式と幅広い360 $^{\ circ} $ of-view(FOV)のためにODIを生成または編集するときに満足のいく結果を提供するのに苦労しています。
このギャップを埋めるために、\ textbf {\ textit {any2omni}}を構築します。最初の包括的なODI生成編集データセットは、多様な入力条件と最大9つのODI生成および編集タスクをカバーする60,000以上のトレーニングデータで構成されています。
任意の2omniに基づいて、\ textbf {\ underline {omni}}モデルの\ textbf {\ underline {omni}} – 方向性画像生成と編集(\ textbf {\ textIT {omni $^2 $}})を提案します。
広範な実験は、ODI生成と編集タスクの両方で提案されたOMNI $^2 $モデルの優位性と有効性を示しています。

要約(オリジナル)

$360^{\circ}$ omnidirectional images (ODIs) have gained considerable attention recently, and are widely used in various virtual reality (VR) and augmented reality (AR) applications. However, capturing such images is expensive and requires specialized equipment, making ODI synthesis increasingly important. While common 2D image generation and editing methods are rapidly advancing, these models struggle to deliver satisfactory results when generating or editing ODIs due to the unique format and broad 360$^{\circ}$ Field-of-View (FoV) of ODIs. To bridge this gap, we construct \textbf{\textit{Any2Omni}}, the first comprehensive ODI generation-editing dataset comprises 60,000+ training data covering diverse input conditions and up to 9 ODI generation and editing tasks. Built upon Any2Omni, we propose an \textbf{\underline{Omni}} model for \textbf{\underline{Omni}}-directional image generation and editing (\textbf{\textit{Omni$^2$}}), with the capability of handling various ODI generation and editing tasks under diverse input conditions using one model. Extensive experiments demonstrate the superiority and effectiveness of the proposed Omni$^2$ model for both the ODI generation and editing tasks.

arxiv情報

著者 Liu Yang,Huiyu Duan,Yucheng Zhu,Xiaohong Liu,Lu Liu,Zitong Xu,Guangji Ma,Xiongkuo Min,Guangtao Zhai,Patrick Le Callet
発行日 2025-04-15 16:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Omni$^2$: Unifying Omnidirectional Image Generation and Editing in an Omni Model はコメントを受け付けていません

SC-NeRF: NeRF-based Point Cloud Reconstruction using a Stationary Camera for Agricultural Applications

要約

このホワイトペーパーでは、屋内ハイスループットプラントの表現型施設向けに特別に設計されたPoint Cloud(PCD)再構築のためのNERFベースのフレームワークを紹介します。
従来のNERFベースの再構築方法では、カメラが固定オブジェクトを移動する必要がありますが、このアプローチは、コンベアまたは回転した台座で移動しながらオブジェクトが急速に画像化される高スループット環境では非現実的です。
この制限に対処するために、オブジェクトが台座で回転するときに画像をキャプチャする単一の固定カメラを使用するNERFベースのPCD再構成のバリアントを開発します。
私たちのワークフローは、COLMAPベースのポーズ推定、カメラの動きをシミュレートするための簡単なポーズ変換、およびその後の標準NERFトレーニングで構成されています。
対象の定義領域(ROI)は、無関係なシーンデータを除外し、高解像度ポイントクラウドの生成(10mポイント)を可能にします。
実験結果は、優れた再構成の忠実度を示しており、精密リコール分析により、評価されたすべての植物オブジェクトで100.00に近いFスコアが得られます。
ポーズの推定は、固定カメラのセットアップでは計算的に集中的なままですが、全体的なトレーニングと再構築時間は競争力があり、実用的なハイスループットの屋内表現型アプリケーションの方法の実現可能性を検証します。
私たちの調査結果は、高品質のNERFベースの3D再構成が固定カメラを使用して達成できることを示しており、複雑なカメラの動きや高価なイメージング機器の必要性を排除します。
このアプローチは、3D植物の表現型療法にハイパースペクトルカメラなどの高価で繊細な機器を採用する場合に特に有益です。
将来の作業は、ポーズ推定技術の最適化に焦点を当て、方法論をさらに合理化して、自動化されたハイスループット3D表現型パイプラインへのシームレスな統合を促進します。

要約(オリジナル)

This paper presents a NeRF-based framework for point cloud (PCD) reconstruction, specifically designed for indoor high-throughput plant phenotyping facilities. Traditional NeRF-based reconstruction methods require cameras to move around stationary objects, but this approach is impractical for high-throughput environments where objects are rapidly imaged while moving on conveyors or rotating pedestals. To address this limitation, we develop a variant of NeRF-based PCD reconstruction that uses a single stationary camera to capture images as the object rotates on a pedestal. Our workflow comprises COLMAP-based pose estimation, a straightforward pose transformation to simulate camera movement, and subsequent standard NeRF training. A defined Region of Interest (ROI) excludes irrelevant scene data, enabling the generation of high-resolution point clouds (10M points). Experimental results demonstrate excellent reconstruction fidelity, with precision-recall analyses yielding an F-score close to 100.00 across all evaluated plant objects. Although pose estimation remains computationally intensive with a stationary camera setup, overall training and reconstruction times are competitive, validating the method’s feasibility for practical high-throughput indoor phenotyping applications. Our findings indicate that high-quality NeRF-based 3D reconstructions are achievable using a stationary camera, eliminating the need for complex camera motion or costly imaging equipment. This approach is especially beneficial when employing expensive and delicate instruments, such as hyperspectral cameras, for 3D plant phenotyping. Future work will focus on optimizing pose estimation techniques and further streamlining the methodology to facilitate seamless integration into automated, high-throughput 3D phenotyping pipelines.

arxiv情報

著者 Kibon Ku,Talukder Z Jubery,Elijah Rodriguez,Aditya Balu,Soumik Sarkar,Adarsh Krishnamurthy,Baskar Ganapathysubramanian
発行日 2025-04-15 16:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SC-NeRF: NeRF-based Point Cloud Reconstruction using a Stationary Camera for Agricultural Applications はコメントを受け付けていません

VideoPanda: Video Panoramic Diffusion with Multi-view Attention

要約

高解像度のパノラマビデオコンテンツは、仮想現実の没入型エクスペリエンスにとって最も重要ですが、特殊な機器と複雑なカメラのセットアップを必要とするため、収集するのは重要ではありません。
この作業では、テキストまたはシングルビュービデオデータを条件付けられた360 $^\ circ $のビデオを合成するための新しいアプローチであるVideoPandaを紹介します。
VideoPandaは、マルチビューの注意レイヤーを活用してビデオ拡散モデルを強化し、没入型のパノラマコンテンツに組み合わせることができる一貫したマルチビュービデオを生成できるようにします。
VideoPandaは、テキストのみの条件とシングルビュービデオの2つの条件を使用して共同でトレーニングされており、オートレーフレフな生成の長いビデオをサポートしています。
マルチビュービデオ生成の計算上の負担を克服するために、トレーニング中に使用される期間とカメラビューをランダムにサブサンプリングし、モデルが推論中により多くのフレームを生成するために優雅に一般化できることを示します。
実世界と合成ビデオデータセットの両方での広範な評価は、Videopandaが既存の方法と比較してすべての入力条件でより現実的でコヒーレントな360 $^\ circ $パノラマを生成することを示しています。
結果については、プロジェクトのWebサイトhttps://research-claging.nvidia.com/labs/toronto-ai/videopanda/にアクセスしてください。

要約(オリジナル)

High resolution panoramic video content is paramount for immersive experiences in Virtual Reality, but is non-trivial to collect as it requires specialized equipment and intricate camera setups. In this work, we introduce VideoPanda, a novel approach for synthesizing 360$^\circ$ videos conditioned on text or single-view video data. VideoPanda leverages multi-view attention layers to augment a video diffusion model, enabling it to generate consistent multi-view videos that can be combined into immersive panoramic content. VideoPanda is trained jointly using two conditions: text-only and single-view video, and supports autoregressive generation of long-videos. To overcome the computational burden of multi-view video generation, we randomly subsample the duration and camera views used during training and show that the model is able to gracefully generalize to generating more frames during inference. Extensive evaluations on both real-world and synthetic video datasets demonstrate that VideoPanda generates more realistic and coherent 360$^\circ$ panoramas across all input conditions compared to existing methods. Visit the project website at https://research-staging.nvidia.com/labs/toronto-ai/VideoPanda/ for results.

arxiv情報

著者 Kevin Xie,Amirmojtaba Sabour,Jiahui Huang,Despoina Paschalidou,Greg Klar,Umar Iqbal,Sanja Fidler,Xiaohui Zeng
発行日 2025-04-15 16:58:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | VideoPanda: Video Panoramic Diffusion with Multi-view Attention はコメントを受け付けていません