RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining

要約

高度な医療イメージング検索システムの開発は、異なる医療コンテキストにわたる「同様の画像」のさまざまな定義のために困難です。
この課題は、大規模で高品質の医療画像検索データセットとベンチマークがないことによって悪化します。
この論文では、密な放射線レポートを活用して、スケーラブルで完全に自動的な方法で複数の粒度での画像ごとの類似性の順序を定義する新しい方法論を提案します。
このアプローチを使用して、2つの包括的な医療イメージング検索データセットを作成します。CTレイ用のMIMIC-IRとCTスキャン用のCtrate-IRを作成し、多様な解剖学的構造を条件付けられた詳細な画像ランキングアノテーションを提供します。
さらに、Radir-CXRとModel-ChestCTの2つの検索システムを開発し、従来の画像イメージと画像レポートの検索タスクで優れたパフォーマンスを実証します。
また、これらのシステムは、テキストで説明されている特定の解剖学的構造に条件付けられた柔軟で効果的な画像検索を可能にし、78のメトリックのうち77で最先端の結果を達成します。

要約(オリジナル)

Developing advanced medical imaging retrieval systems is challenging due to the varying definitions of `similar images’ across different medical contexts. This challenge is compounded by the lack of large-scale, high-quality medical imaging retrieval datasets and benchmarks. In this paper, we propose a novel methodology that leverages dense radiology reports to define image-wise similarity ordering at multiple granularities in a scalable and fully automatic manner. Using this approach, we construct two comprehensive medical imaging retrieval datasets: MIMIC-IR for Chest X-rays and CTRATE-IR for CT scans, providing detailed image-image ranking annotations conditioned on diverse anatomical structures. Furthermore, we develop two retrieval systems, RadIR-CXR and model-ChestCT, which demonstrate superior performance in traditional image-image and image-report retrieval tasks. These systems also enable flexible, effective image retrieval conditioned on specific anatomical structures described in text, achieving state-of-the-art results on 77 out of 78 metrics.

arxiv情報

著者 Tengfei Zhang,Ziheng Zhao,Chaoyi Wu,Xiao Zhou,Ya Zhang,Yangfeng Wang,Weidi Xie
発行日 2025-03-06 17:43:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, eess.IV | RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining はコメントを受け付けていません

ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

要約

大規模なマルチモーダルモデル(LMM)は、画像を解釈する際に大きな不足を示し、いくつかの手段により、小さな子供や動物よりも空間認知が低下します。
それにもかかわらず、彼らは多くの人気のある視覚ベンチマークで高いスコアを達成し、ヘッドルームはモデルの進行の急増によって急速に侵食されます。
これに対処するために、より長い間関連性のある困難なベンチマークが差し迫った必要性があります。
私たちは、現代のフロンティアLMMにとって完全に不可能なZerobench-A軽量の視覚的推論ベンチマークを導入することにより、このアイデアをその限界に引き上げます。
私たちのベンチマークは、100の手動でキュレーションされた質問と334の困難なサブクエストで構成されています。
ゼロベンチで20のLMMを評価し、そのすべてが0.0%を獲得し、エラーを厳密に分析します。
視覚的理解の進歩を促進するために、Zerobenchを公開します。

要約(オリジナル)

Large Multimodal Models (LMMs) exhibit major shortfalls when interpreting images and, by some measures, have poorer spatial cognition than small children or animals. Despite this, they attain high scores on many popular visual benchmarks, with headroom rapidly eroded by an ongoing surge of model progress. To address this, there is a pressing need for difficult benchmarks that remain relevant for longer. We take this idea to its limit by introducing ZeroBench-a lightweight visual reasoning benchmark that is entirely impossible for contemporary frontier LMMs. Our benchmark consists of 100 manually curated questions and 334 less difficult subquestions. We evaluate 20 LMMs on ZeroBench, all of which score 0.0%, and rigorously analyse the errors. To encourage progress in visual understanding, we publicly release ZeroBench.

arxiv情報

著者 Jonathan Roberts,Mohammad Reza Taesiri,Ansh Sharma,Akash Gupta,Samuel Roberts,Ioana Croitoru,Simion-Vlad Bogolin,Jialu Tang,Florian Langer,Vyas Raina,Vatsal Raina,Hanyi Xiong,Vishaal Udandarao,Jingyi Lu,Shiyang Chen,Sam Purkis,Tianshuo Yan,Wenye Lin,Gyungin Shin,Qiaochu Yang,Anh Totti Nguyen,David I. Atkinson,Aaditya Baranwal,Alexandru Coca,Mikah Dang,Sebastian Dziadzio,Jakob D. Kunz,Kaiqu Liang,Alexander Lo,Brian Pulfer,Steven Walton,Charig Yang,Kai Han,Samuel Albanie
発行日 2025-03-06 17:45:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models はコメントを受け付けていません

Implicit Neural Representation for Video and Image Super-Resolution

要約

暗黙の神経表現(INR)を利用して、低解像度のビデオと画像を効果的に再構築および強化する超解像度の新しいアプローチを提示します。
ニューラルネットワークの能力を活用して空間的特徴と時間的機能を暗黙的にエンコードすることにより、この方法は、低解像度の入力と3D高解像度グリッドのみを使用して高解像度の再構築を促進します。
これにより、画像とビデオの両方の超解像度の両方に効率的なソリューションが得られます。
提案された方法であるSR-INRは、フレームと画像間で一貫した詳細を維持し、他のビデオ超解像度技術で通常使用される計算集中的な光学フローまたはモーション推定に依存することなく、印象的な時間的安定性を達成します。
私たちのアプローチのシンプルさは、多くの既存の方法の複雑さとは対照的であり、効果的かつ効率的です。
実験的評価は、SR-INRが、より単純な構造と計算需要の減少を維持しながら、最先端の超解像度方法と同等または優れた結果を提供することを示しています。
これらの発見は、低解像度データから高品質で時間的に一貫したビデオおよび画像シグナルを再構築するための強力なツールとしての暗黙の神経表現の可能性を強調しています。

要約(オリジナル)

We present a novel approach for super-resolution that utilizes implicit neural representation (INR) to effectively reconstruct and enhance low-resolution videos and images. By leveraging the capacity of neural networks to implicitly encode spatial and temporal features, our method facilitates high-resolution reconstruction using only low-resolution inputs and a 3D high-resolution grid. This results in an efficient solution for both image and video super-resolution. Our proposed method, SR-INR, maintains consistent details across frames and images, achieving impressive temporal stability without relying on the computationally intensive optical flow or motion estimation typically used in other video super-resolution techniques. The simplicity of our approach contrasts with the complexity of many existing methods, making it both effective and efficient. Experimental evaluations show that SR-INR delivers results on par with or superior to state-of-the-art super-resolution methods, while maintaining a more straightforward structure and reduced computational demands. These findings highlight the potential of implicit neural representations as a powerful tool for reconstructing high-quality, temporally consistent video and image signals from low-resolution data.

arxiv情報

著者 Mary Aiyetigbo,Wanqi Yuan,Feng Luo,Nianyi Li
発行日 2025-03-06 17:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Implicit Neural Representation for Video and Image Super-Resolution はコメントを受け付けていません

What Are You Doing? A Closer Look at Controllable Human Video Generation

要約

機械学習研究の進捗状況を促進するためには、高品質のベンチマークが重要です。
ただし、ビデオ生成への関心が高まっているにもかかわらず、人間の生成を評価するための包括的なデータセットはありません。
人間はさまざまなアクションと相互作用を実行できますが、TiktokやTed-Talksなどの既存のデータセットには、ビデオ生成モデルの機能を完全にキャプチャするための多様性と複雑さがありません。
「何してるの?」を紹介することで、このギャップを閉じます。
(WYD):制御可能な画像からビデオへの生成の人間の細かい評価のための新しいベンチマーク。
WYDは、56の細かいカテゴリが細心の注意を払って収集され、注釈が付けられた1 {、} 544のキャプション付きビデオで構成されています。
これらにより、行動、相互作用、動きなど、人間の生成の9つの側面にわたってパフォーマンスを体系的に測定できます。
また、注釈を活用し、人間の評価をよりよく捉える自動メトリックを提案および検証します。
データセットとメトリックを装備して、制御可能な画像からビデオからビデオへの7つの最先端モデルの詳細な分析を実行し、WYDがこれらのモデルの機能に関する新しい洞察をどのように提供するかを示しています。
データとコードをリリースして、https://github.com/google-deepmind/wyd-benchmarkで人間のビデオ生成モデリングの進捗状況を促進します。

要約(オリジナル)

High-quality benchmarks are crucial for driving progress in machine learning research. However, despite the growing interest in video generation, there is no comprehensive dataset to evaluate human generation. Humans can perform a wide variety of actions and interactions, but existing datasets, like TikTok and TED-Talks, lack the diversity and complexity to fully capture the capabilities of video generation models. We close this gap by introducing `What Are You Doing?’ (WYD): a new benchmark for fine-grained evaluation of controllable image-to-video generation of humans. WYD consists of 1{,}544 captioned videos that have been meticulously collected and annotated with 56 fine-grained categories. These allow us to systematically measure performance across 9 aspects of human generation, including actions, interactions and motion. We also propose and validate automatic metrics that leverage our annotations and better capture human evaluations. Equipped with our dataset and metrics, we perform in-depth analyses of seven state-of-the-art models in controllable image-to-video generation, showing how WYD provides novel insights about the capabilities of these models. We release our data and code to drive forward progress in human video generation modeling at https://github.com/google-deepmind/wyd-benchmark.

arxiv情報

著者 Emanuele Bugliarello,Anurag Arnab,Roni Paiss,Pieter-Jan Kindermans,Cordelia Schmid
発行日 2025-03-06 17:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | What Are You Doing? A Closer Look at Controllable Human Video Generation はコメントを受け付けていません

Detecting Systematic Weaknesses in Vision Models along Predefined Human-Understandable Dimensions

要約

スライス発見方法(SDMS)は、DNNSの体系的な弱点を見つけるための顕著なアルゴリズムです。
彼らは、DNNアンダーテストのパフォーマンスの低いデータの頭蓋骨のコヒーレントスライス/サブセットを識別します。
直接役立つためには、スライスは、運用デザインドメイン(ODD)の一部として安全性とドメインの専門家によって定義される人間に理解しやすく関連する次元と整列する必要があります。
SDMは構造化されたデータに効果的に適用できますが、セマンティックメタデータの欠如により画像データに対するアプリケーションは複雑になります。
これらの問題に対処するために、ゼロショット画像分類の基礎モデルを組み合わせて、セマンティックメタデータと組み合わせ検索の方法を生成して、画像の体系的な弱点を見つけるアルゴリズムを提示します。
既存のアプローチとは対照的に、私たちのものは、事前に定義された人間の理解可能な寸法に沿った弱いスライスを特定します。
アルゴリズムには基礎モデルが含まれているため、その中間および最終結果が必ずしも正確ではない場合があります。
したがって、ノイズの多いメタデータの影響に対処するためのアプローチを含めます。
合成データセットと現実世界の両方のデータセットの両方でアルゴリズムを検証し、人間に理解できる体系的な弱点を回復する能力を示しています。
さらに、私たちのアプローチを使用して、複数の事前に訓練され、公的に利用可能な最先端のコンピュータービジョンDNNの体系的な弱点を特定します。

要約(オリジナル)

Slice discovery methods (SDMs) are prominent algorithms for finding systematic weaknesses in DNNs. They identify top-k semantically coherent slices/subsets of data where a DNN-under-test has low performance. For being directly useful, slices should be aligned with human-understandable and relevant dimensions, which, for example, are defined by safety and domain experts as part of the operational design domain (ODD). While SDMs can be applied effectively on structured data, their application on image data is complicated by the lack of semantic metadata. To address these issues, we present an algorithm that combines foundation models for zero-shot image classification to generate semantic metadata with methods for combinatorial search to find systematic weaknesses in images. In contrast to existing approaches, ours identifies weak slices that are in line with pre-defined human-understandable dimensions. As the algorithm includes foundation models, its intermediate and final results may not always be exact. Therefore, we include an approach to address the impact of noisy metadata. We validate our algorithm on both synthetic and real-world datasets, demonstrating its ability to recover human-understandable systematic weaknesses. Furthermore, using our approach, we identify systematic weaknesses of multiple pre-trained and publicly available state-of-the-art computer vision DNNs.

arxiv情報

著者 Sujan Sai Gannamaneni,Rohil Prakash Rao,Michael Mock,Maram Akila,Stefan Wrobel
発行日 2025-03-06 18:07:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Detecting Systematic Weaknesses in Vision Models along Predefined Human-Understandable Dimensions はコメントを受け付けていません

Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection

要約

Yoloのようなリアルタイムオブジェクト検出器は、複数のエポックの大きなデータセットで訓練された場合、例外的なパフォーマンスを実現します。
ただし、データが段階的に到着する実際のシナリオでは、ニューラルネットワークは壊滅的な忘却に苦しみ、以前に学習された知識の喪失につながります。
これに対処するために、以前の研究では、2段階のオブジェクト検出器に焦点を当てたほとんどのアプローチを使用して、オブジェクト検出(CLOD)の継続的な学習におけるクラス増分学習(CIL)の戦略を調査しました。
ただし、既存の研究では、忘れずに学習(LWF)は、騒々しい回帰出力のためにヨーロのような1段階のない検出器にとって効果がない可能性があることを示唆しています。
この作業では、Yoloベースの継続的なオブジェクト検出に合わせた自己抵抗アプローチであるYolo LWFを紹介します。
リプレイメモリと相まって、ヨロLWFが忘却を大幅に軽減することを実証します。
以前のアプローチと比較して、最先端のパフォーマンスを達成し、それぞれVOCおよびCOCOベンチマークでMAPを +2.1%および +2.9%改善します。

要約(オリジナル)

Real-time object detectors like YOLO achieve exceptional performance when trained on large datasets for multiple epochs. However, in real-world scenarios where data arrives incrementally, neural networks suffer from catastrophic forgetting, leading to a loss of previously learned knowledge. To address this, prior research has explored strategies for Class Incremental Learning (CIL) in Continual Learning for Object Detection (CLOD), with most approaches focusing on two-stage object detectors. However, existing work suggests that Learning without Forgetting (LwF) may be ineffective for one-stage anchor-free detectors like YOLO due to noisy regression outputs, which risk transferring corrupted knowledge. In this work, we introduce YOLO LwF, a self-distillation approach tailored for YOLO-based continual object detection. We demonstrate that when coupled with a replay memory, YOLO LwF significantly mitigates forgetting. Compared to previous approaches, it achieves state-of-the-art performance, improving mAP by +2.1% and +2.9% on the VOC and COCO benchmarks, respectively.

arxiv情報

著者 Riccardo De Monte,Davide Dalle Pezze,Gian Antonio Susto
発行日 2025-03-06 18:31:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection はコメントを受け付けていません

DEAL-YOLO: Drone-based Efficient Animal Localization using YOLO

要約

深い学習と空中監視技術の進歩により、野生生物の保全の取り組みが改善されていますが、複雑で不安定な環境条件が依然として問題を引き起こし、費用対効果の高い小動物検出のための革新的なソリューションを必要とします。
この作業では、Wise Iou(Wiou)や正規化されたWasserstein距離(NWD)などの多目的損失関数を使用して、無人航空機(UAV)画像の小さなオブジェクト検出を改善する新しいアプローチであるDeal-Yoloを紹介します。
さらに、このモデルは、線形変形(LD)畳み込みによる効率的な特徴抽出により最適化され、計算効率を維持しながら精度を向上させます。
スケーリングされたシーケンス特徴融合(SSFF)モジュールは、スケール間の関係を効果的にキャプチャし、特徴表現を改善し、最適化されたマルチスケール融合を介してメトリックをブーストすることにより、オブジェクトの検出を強化します。
ベースラインモデルとの比較により、バニラYolov8-Nと比較して最大69.5%少ないパラメーターで高い有効性が明らかになり、提案された修正の堅牢性を強調しています。
このアプローチを通じて、私たちの論文は、絶滅危species種の検出、動物集団分析、生息地の監視、生物多様性の研究、および野生生物保護の取り組みを豊かにする他のさまざまなアプリケーションの検出を促進することを目的としています。
Deal-Yoloは、オブジェクト検出のために2段階の推論パラダイムを採用し、選択した領域を改良してローカリゼーションと自信を改善します。
このアプローチは、特にオブジェクト性スコアが低い小さなインスタンスでパフォーマンスを向上させます。

要約(オリジナル)

Although advances in deep learning and aerial surveillance technology are improving wildlife conservation efforts, complex and erratic environmental conditions still pose a problem, requiring innovative solutions for cost-effective small animal detection. This work introduces DEAL-YOLO, a novel approach that improves small object detection in Unmanned Aerial Vehicle (UAV) images by using multi-objective loss functions like Wise IoU (WIoU) and Normalized Wasserstein Distance (NWD), which prioritize pixels near the centre of the bounding box, ensuring smoother localization and reducing abrupt deviations. Additionally, the model is optimized through efficient feature extraction with Linear Deformable (LD) convolutions, enhancing accuracy while maintaining computational efficiency. The Scaled Sequence Feature Fusion (SSFF) module enhances object detection by effectively capturing inter-scale relationships, improving feature representation, and boosting metrics through optimized multiscale fusion. Comparison with baseline models reveals high efficacy with up to 69.5\% fewer parameters compared to vanilla Yolov8-N, highlighting the robustness of the proposed modifications. Through this approach, our paper aims to facilitate the detection of endangered species, animal population analysis, habitat monitoring, biodiversity research, and various other applications that enrich wildlife conservation efforts. DEAL-YOLO employs a two-stage inference paradigm for object detection, refining selected regions to improve localization and confidence. This approach enhances performance, especially for small instances with low objectness scores.

arxiv情報

著者 Aditya Prashant Naidu,Hem Gosalia,Ishaan Gakhar,Shaurya Singh Rathore,Krish Didwania,Ujjwal Verma
発行日 2025-03-06 18:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DEAL-YOLO: Drone-based Efficient Animal Localization using YOLO はコメントを受け付けていません

Iris Style Transfer: Enhancing Iris Recognition with Style Features and Privacy Preservation through Neural Style Transfer

要約

IRISテクスチャは、認証と識別のためのゴールドスタンダードバイオメトリックモダリティと広く見なされています。
IRIS攻撃に関するセキュリティおよびプライバシーの懸念の高まりと相まって、堅牢な虹彩認識方法の需要が最近エスカレートしています。
ニューラルネットワークを活用してコンテンツとスタイルの機能を分離する高度な手法であるニューラルスタイルの転送に触発されたアイリステクスチャのスタイル機能は、認識の信頼できる基盤を提供し、従来のアプローチよりも回転や視点シフトなどのバリエーションにより回復力があると仮定します。
私たちの実験結果は、この仮説をサポートし、従来の機能と比較してかなり高い分類精度を示しています。
さらに、ニューラルスタイルの転送を使用して、識別可能な虹彩スタイルの機能をマスクし、目のセグメンテーションや視線の推定などのタスクに対して目の画像の有用性を維持しながら、敏感な生体認証情報の保護を確保します。
この作業は、虹彩指向、安全な、プライバシー対応の生体認証システムのための新しい道を開きます。

要約(オリジナル)

Iris texture is widely regarded as a gold standard biometric modality for authentication and identification. The demand for robust iris recognition methods, coupled with growing security and privacy concerns regarding iris attacks, has escalated recently. Inspired by neural style transfer, an advanced technique that leverages neural networks to separate content and style features, we hypothesize that iris texture’s style features provide a reliable foundation for recognition and are more resilient to variations like rotation and perspective shifts than traditional approaches. Our experimental results support this hypothesis, showing a significantly higher classification accuracy compared to conventional features. Further, we propose using neural style transfer to mask identifiable iris style features, ensuring the protection of sensitive biometric information while maintaining the utility of eye images for tasks like eye segmentation and gaze estimation. This work opens new avenues for iris-oriented, secure, and privacy-aware biometric systems.

arxiv情報

著者 Mengdi Wang,Efe Bozkir,Enkelejda Kasneci
発行日 2025-03-06 18:55:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | Iris Style Transfer: Enhancing Iris Recognition with Style Features and Privacy Preservation through Neural Style Transfer はコメントを受け付けていません

Floxels: Fast Unsupervised Voxel Based Scene Flow Estimation

要約

シーンフローの推定は、堅牢な動的オブジェクト検出、自動ラベル付け、センサーの同期など、多くのロボットアプリケーションの基礎タスクです。
問題に対する2つのタイプのアプローチが進化しました。1)監督と2)最適化ベースの方法。
監視された方法は推論中に高速であり、高品質の結果を達成しますが、大量のラベル付きトレーニングデータの必要性により制限され、ドメインギャップの影響を受けやすくなります。
対照的に、監視されていないテスト時間最適化方法は、ドメインのギャップの問題に直面することはありませんが、通常、実質的なランタイム、アーティファクトを示す、または適切なソリューションに収束することができません。
この作業では、既存の最適化ベースの方法のいくつかの制限を緩和します。
この目的のために、1)複数の次元での標準のMLPベースの定式化を改善する単純なボクセルグリッドベースのモデルを導入し、2)新しいマルチフレーム損失定式化を導入します。
3)フロックスと呼ばれる新しい方法で両方の貢献を組み合わせます。
Argoverse 2ベンチマークでは、Floxelsは、計算コストのほんの一部で同等のパフォーマンスを達成しながら、監視されていない方法の中でeulerflowによってのみ超えられます。
Floxelsは、Eulerflowで約60〜140倍以上の大規模なスピードアップを実現し、シーケンスあたり1日から10分間のランタイムを減らします。
より高速ではあるが低品質のベースラインであるNSFPに加えて、フロクセルスは〜14倍のスピードアップを達成します。

要約(オリジナル)

Scene flow estimation is a foundational task for many robotic applications, including robust dynamic object detection, automatic labeling, and sensor synchronization. Two types of approaches to the problem have evolved: 1) Supervised and 2) optimization-based methods. Supervised methods are fast during inference and achieve high-quality results, however, they are limited by the need for large amounts of labeled training data and are susceptible to domain gaps. In contrast, unsupervised test-time optimization methods do not face the problem of domain gaps but usually suffer from substantial runtime, exhibit artifacts, or fail to converge to the right solution. In this work, we mitigate several limitations of existing optimization-based methods. To this end, we 1) introduce a simple voxel grid-based model that improves over the standard MLP-based formulation in multiple dimensions and 2) introduce a new multiframe loss formulation. 3) We combine both contributions in our new method, termed Floxels. On the Argoverse 2 benchmark, Floxels is surpassed only by EulerFlow among unsupervised methods while achieving comparable performance at a fraction of the computational cost. Floxels achieves a massive speedup of more than ~60 – 140x over EulerFlow, reducing the runtime from a day to 10 minutes per sequence. Over the faster but low-quality baseline, NSFP, Floxels achieves a speedup of ~14x.

arxiv情報

著者 David T. Hoffmann,Syed Haseeb Raza,Hanqiu Jiang,Denis Tananaev,Steffen Klingenhoefer,Martin Meinke
発行日 2025-03-06 18:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Floxels: Fast Unsupervised Voxel Based Scene Flow Estimation はコメントを受け付けていません

FluidNexus: 3D Fluid Reconstruction and Prediction from a Single Video

要約

単一のビデオからの3D流体の外観と速度の再構築と予測を研究します。
現在の方法では、流体再建のためのマルチビュービデオが必要です。
このタスクに取り組むためにビデオ生成と物理シミュレーションを橋渡しする新しいフレームワークであるFluidNexusを提示します。
私たちの重要な洞察は、再構築の参照として複数の斬新なビデオビデオを統合することです。
fluidNexusは、2つの重要なコンポーネントで構成されています。(1)フレームワイズビューの合成と、現実的なビデオを生成するためのビデオ拡散洗練を組み合わせた斬新なビデオシンセサイザー、および(2)物理学的統合された粒子表現は、差別化可能なシミュレーションと、3D流体の再構築と予測を同時に促進するためのレンダリングを組み合わせます。
アプローチを評価するために、テクスチャの背景とオブジェクトの相互作用を備えた2つの新しい実際の流体データセットを収集します。
私たちの方法により、単一の流体ビデオからの動的な新規ビューの合成、将来の予測、および相互作用シミュレーションが可能になります。
プロジェクトWebサイト:https://yuegao.me/fluidnexus。

要約(オリジナル)

We study reconstructing and predicting 3D fluid appearance and velocity from a single video. Current methods require multi-view videos for fluid reconstruction. We present FluidNexus, a novel framework that bridges video generation and physics simulation to tackle this task. Our key insight is to synthesize multiple novel-view videos as references for reconstruction. FluidNexus consists of two key components: (1) a novel-view video synthesizer that combines frame-wise view synthesis with video diffusion refinement for generating realistic videos, and (2) a physics-integrated particle representation coupling differentiable simulation and rendering to simultaneously facilitate 3D fluid reconstruction and prediction. To evaluate our approach, we collect two new real-world fluid datasets featuring textured backgrounds and object interactions. Our method enables dynamic novel view synthesis, future prediction, and interaction simulation from a single fluid video. Project website: https://yuegao.me/FluidNexus.

arxiv情報

著者 Yue Gao,Hong-Xing Yu,Bo Zhu,Jiajun Wu
発行日 2025-03-06 18:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FluidNexus: 3D Fluid Reconstruction and Prediction from a Single Video はコメントを受け付けていません