evclust: Python library for evidential clustering

要約

クラスタリングの最近の開発傾向は、データ内のクラスターを識別するだけでなく、クラスターメンバーシップの不確実性を表現およびキャプチャするアルゴリズムの進歩です。
証拠クラスタリングは、不確実性を管理および表現するために設計されたフレームワークであるDempster-Shaferの信念関数の理論を使用して、これに対処します。
このアプローチは、各オブジェクトの潜在的なグループへの不確実な割り当てを定量化する構造化された質量関数セットである信用分割をもたらします。
このペーパーで提示されているPythonフレームワークEVClustは、クレジットパーティションを視覚化、評価、分析するためのツールと同様に、クラスタリングアルゴリズムをクラスタリングする効率的な証拠スイートを提供します。

要約(オリジナル)

A recent developing trend in clustering is the advancement of algorithms that not only identify clusters within data, but also express and capture the uncertainty of cluster membership. Evidential clustering addresses this by using the Dempster-Shafer theory of belief functions, a framework designed to manage and represent uncertainty. This approach results in a credal partition, a structured set of mass functions that quantify the uncertain assignment of each object to potential groups. The Python framework evclust, presented in this paper, offers a suite of efficient evidence clustering algorithms as well as tools for visualizing, evaluating and analyzing credal partitions.

arxiv情報

著者 Armel Soubeiga,Violaine Antoine
発行日 2025-02-10 15:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MS, cs.SE | evclust: Python library for evidential clustering はコメントを受け付けていません

A Large-scale AI-generated Image Inpainting Benchmark

要約

生成モデルの最近の進歩により、非常に現実的な画像操作が可能になり、堅牢な偽造検出方法が緊急に必要になります。
これらの方法をトレーニングおよび評価するための現在のデータセットの規模と多様性は限られています。
これに対処するために、高品質の入力データセットを作成するための方法論を提案し、MS-Coco、Raise、およびOpenImagesから供給された78,000個のオリジナル画像から生成された95,000を超えるインペイントされた画像を含むfiquidを作成するために適用します。
私たちの方法論は、3つのコンポーネントで構成されています:(1)インスタンスセグメンテーションを通じて適切なオブジェクトを識別し、コンテキストに適切なプロンプトを生成する意味的に整列したオブジェクト置換(SAOR)、(2)さまざまな最先端の最先端を採用する複数のモデル画像インペインティング(MMII)
主に拡散モデルに基づいてパイプラインを開始して、多様な操作を作成し、(3)オリジナルとの比較分析を通じて画像リアリズムを評価する不確実性ガイド付き欺ceptivensive評価(UGDA)。
結果のデータセットは、多様性、審美的な品質、技術的な品質の既存のデータセットを上回ります。
最先端の偽造検出方法を使用して包括的なベンチマーク結果を提供し、検出アルゴリズムの評価と改善におけるデータセットの有効性を実証します。
1,000枚の画像で42人の参加者がいる人間の研究を通じて、人間は私たちの方法論によって欺くと分類された画像に苦労しているが、データセットで訓練されたモデルはこれらの困難なケースで高性能を維持していることを示しています。
コードとデータセットはhttps://github.com/mever-team/diquidで入手できます。

要約(オリジナル)

Recent advances in generative models enable highly realistic image manipulations, creating an urgent need for robust forgery detection methods. Current datasets for training and evaluating these methods are limited in scale and diversity. To address this, we propose a methodology for creating high-quality inpainting datasets and apply it to create DiQuID, comprising over 95,000 inpainted images generated from 78,000 original images sourced from MS-COCO, RAISE, and OpenImages. Our methodology consists of three components: (1) Semantically Aligned Object Replacement (SAOR) that identifies suitable objects through instance segmentation and generates contextually appropriate prompts, (2) Multiple Model Image Inpainting (MMII) that employs various state-of-the-art inpainting pipelines primarily based on diffusion models to create diverse manipulations, and (3) Uncertainty-Guided Deceptiveness Assessment (UGDA) that evaluates image realism through comparative analysis with originals. The resulting dataset surpasses existing ones in diversity, aesthetic quality, and technical quality. We provide comprehensive benchmarking results using state-of-the-art forgery detection methods, demonstrating the dataset’s effectiveness in evaluating and improving detection algorithms. Through a human study with 42 participants on 1,000 images, we show that while humans struggle with images classified as deceiving by our methodology, models trained on our dataset maintain high performance on these challenging cases. Code and dataset are available at https://github.com/mever-team/DiQuID.

arxiv情報

著者 Paschalis Giakoumoglou,Dimitrios Karageorgiou,Symeon Papadopoulos,Panagiotis C. Petrantonakis
発行日 2025-02-10 15:56:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Large-scale AI-generated Image Inpainting Benchmark はコメントを受け付けていません

MaterialFusion: High-Quality, Zero-Shot, and Controllable Material Transfer with Diffusion Models

要約

画像内のオブジェクトの物質的な外観を操作することは、拡張現実、仮想プロトタイピング、デジタルコンテンツの作成などのアプリケーションにとって重要です。
ユーザーが新しい材料特性とオブジェクトの元の機能との間の最適なバランスをとることができる高品質の材料転送の新しいフレームワークであるMaterialSfusionを提示します。
MaterialFusionは、バックグラウンドの一貫性を維持し、境界アーティファクトを緩和することにより、変更されたオブジェクトをシーンにシームレスに統合します。
アプローチを徹底的に評価するために、実際の材料転送例のデータセットをまとめて、複雑な比較分析を実施しました。
包括的な定量的評価とユーザー調査を通じて、MaterialFusionは、品質、ユーザー制御、およびバックグラウンドの保存の点で既存の方法を大幅に上回ることを実証します。
コードはhttps://github.com/kzgarifullin/materialFusionで入手できます。

要約(オリジナル)

Manipulating the material appearance of objects in images is critical for applications like augmented reality, virtual prototyping, and digital content creation. We present MaterialFusion, a novel framework for high-quality material transfer that allows users to adjust the degree of material application, achieving an optimal balance between new material properties and the object’s original features. MaterialFusion seamlessly integrates the modified object into the scene by maintaining background consistency and mitigating boundary artifacts. To thoroughly evaluate our approach, we have compiled a dataset of real-world material transfer examples and conducted complex comparative analyses. Through comprehensive quantitative evaluations and user studies, we demonstrate that MaterialFusion significantly outperforms existing methods in terms of quality, user control, and background preservation. Code is available at https://github.com/kzGarifullin/MaterialFusion.

arxiv情報

著者 Kamil Garifullin,Maxim Nikolaev,Andrey Kuznetsov,Aibek Alanov
発行日 2025-02-10 16:04:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MaterialFusion: High-Quality, Zero-Shot, and Controllable Material Transfer with Diffusion Models はコメントを受け付けていません

Illegal Waste Detection in Remote Sensing Images: A Case Study

要約

環境犯罪は現在、世界で3番目に大きい犯罪行為を表し、生態系と人間の健康を脅かしています。
この活動に関連する犯罪の中で、不適切な廃棄物管理は、違法な埋め立て地を求めて半自動領土スキャンを可能にする非常に高解像度のリモートセンシング画像の利用可能性とコストの削減により、現在、より簡単に対抗することができます。
このペーパーでは、地元の環境機関の専門家と協力して開発されたパイプラインを提案し、候補者がリモートセンシング画像の分類子を活用する違法な投棄サイトを検出しました。
このような分類器に最適な構成を識別するために、広範な一連の実験が実施され、多様な画像特性とトレーニング設定の影響が徹底的に分析されました。
その後、地元の環境機関は、開発された分類器からの出力が専門家の日常業務に統合された実験演習に関与し、手動の写真解釈に関して時間の節約をもたらしました。
最終的に分類器は、トレーニングエリアの外側の場所で貴重な結果で実行され、提案されたパイプラインの国境を越えた適用可能性の可能性を強調しました。

要約(オリジナル)

Environmental crime currently represents the third largest criminal activity worldwide while threatening ecosystems as well as human health. Among the crimes related to this activity, improper waste management can nowadays be countered more easily thanks to the increasing availability and decreasing cost of Very-High-Resolution Remote Sensing images, which enable semi-automatic territory scanning in search of illegal landfills. This paper proposes a pipeline, developed in collaboration with professionals from a local environmental agency, for detecting candidate illegal dumping sites leveraging a classifier of Remote Sensing images. To identify the best configuration for such classifier, an extensive set of experiments was conducted and the impact of diverse image characteristics and training settings was thoroughly analyzed. The local environmental agency was then involved in an experimental exercise where outputs from the developed classifier were integrated in the experts’ everyday work, resulting in time savings with respect to manual photo-interpretation. The classifier was eventually run with valuable results on a location outside of the training area, highlighting potential for cross-border applicability of the proposed pipeline.

arxiv情報

著者 Federico Gibellini,Piero Fraternali,Giacomo Boracchi,Luca Morandini,Andrea Diecidue,Simona Malegori
発行日 2025-02-10 16:04:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Illegal Waste Detection in Remote Sensing Images: A Case Study はコメントを受け付けていません

TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

要約

拡散技術における最近の進歩により、画像とビデオ生成が前例のないレベルの品質を推進し、生成AIの展開と適用を大幅に促進しました。
ただし、3Dデータスケールの制限、3Dデータプロセスの複雑さ、および3Dドメインの高度な技術の不十分な調査に制約されている3Dシェイプ生成テクノロジーは、これまで遅れています。
3D形状生成への現在のアプローチは、出力の品質、一般化能力、および入力条件との整合に関して、大きな課題に直面しています。
入力画像に正確に対応する高忠実度3Dメッシュを生成できる新しい合理化された形状拡散パラダイムであるTriposgを提示します。
具体的には、次の提案を提案します。1)3D形状生成のための大規模な修正フロートランス。
2)3D VAEのSDF、正常、およびエイコナル損失を組み合わせたハイブリッドの監視されたトレーニング戦略と、高品質の3D再構成パフォーマンスを達成します。
3)200万台の高品質の3Dサンプルを生成するためのデータ処理パイプライン。3Dジェネレーティブモデルのトレーニングにおけるデータ品質と数量の重要なルールを強調します。
包括的な経験を通じて、新しいフレームワークの各コンポーネントの有効性を検証しました。
これらの部品のシームレスな統合により、Triposgは3D形状生成で最先端のパフォーマンスを実現することができました。
結果として得られる3D形状は、高解像度の機能のために詳細を示し、入力するための例外的な忠実度を示します。
さらに、TRIPOSGは、多様な画像スタイルと内容から3Dモデルを生成する際の汎用性の向上を示し、強力な源泉徴収能力を示しています。
3D世代の分野での進歩と革新を促進するために、モデルを公開します。

要約(オリジナル)

Recent advancements in diffusion techniques have propelled image and video generation to unprece- dented levels of quality, significantly accelerating the deployment and application of generative AI. However, 3D shape generation technology has so far lagged behind, constrained by limitations in 3D data scale, complexity of 3D data process- ing, and insufficient exploration of advanced tech- niques in the 3D domain. Current approaches to 3D shape generation face substantial challenges in terms of output quality, generalization capa- bility, and alignment with input conditions. We present TripoSG, a new streamlined shape diffu- sion paradigm capable of generating high-fidelity 3D meshes with precise correspondence to input images. Specifically, we propose: 1) A large-scale rectified flow transformer for 3D shape generation, achieving state-of-the-art fidelity through training on extensive, high-quality data. 2) A hybrid supervised training strategy combining SDF, normal, and eikonal losses for 3D VAE, achieving high- quality 3D reconstruction performance. 3) A data processing pipeline to generate 2 million high- quality 3D samples, highlighting the crucial rules for data quality and quantity in training 3D gen- erative models. Through comprehensive experi- ments, we have validated the effectiveness of each component in our new framework. The seamless integration of these parts has enabled TripoSG to achieve state-of-the-art performance in 3D shape generation. The resulting 3D shapes exhibit en- hanced detail due to high-resolution capabilities and demonstrate exceptional fidelity to input im- ages. Moreover, TripoSG demonstrates improved versatility in generating 3D models from diverse image styles and contents, showcasing strong gen- eralization capabilities. To foster progress and innovation in the field of 3D generation, we will make our model publicly available.

arxiv情報

著者 Yangguang Li,Zi-Xin Zou,Zexiang Liu,Dehu Wang,Yuan Liang,Zhipeng Yu,Xingchao Liu,Yuan-Chen Guo,Ding Liang,Wanli Ouyang,Yan-Pei Cao
発行日 2025-02-10 16:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models はコメントを受け付けていません

Multi-Scale Feature Fusion with Image-Driven Spatial Integration for Left Atrium Segmentation from Cardiac MRI Images

要約

後期ガドリニウム強化磁気共鳴画像診断からの左心房(LA)の正確なセグメンテーションは、病気の心房構造を視覚化し、心血管疾患の診断と管理を可能にする上で重要な役割を果たします。
心房細動(AF)の重要な介入であるアブレーション療法による治療を計画するために特に不可欠です。
ただし、手動のセグメンテーションは時間型であり、観察者間の変動を起こしやすく、自動化されたソリューションの必要性を強調しています。
DINOV2のようなクラスに依存しない基礎モデルは、視覚タスクにおける顕著な特徴抽出機能を実証しています。
ただし、ドメインの特異性の欠如とタスク固有の適応は、特徴抽出中の空間分解能を減らし、医療画像における細かい解剖学的詳細のキャプチャに影響を与える可能性があります。
この制限に対処するために、DinoV2をUNETスタイルのデコーダーとエンコーダーとして統合するセグメンテーションフレームワークを提案し、マルチスケールの特徴融合と入力画像統合を組み込んでセグメンテーションの精度を強化します。
学習可能な重み付けメカニズムは、ファンデーションモデルのさまざまなエンコーダーブロックからの階層的特徴を動的に優先し、タスク関連の機能選択を最適化します。
さらに、入力画像はデコード段階で再導入され、高解像度の空間的詳細を維持し、エンコーダーのダウンサンプリングの制限に対処します。
LASCARQS 2022データセットでのアプローチを検証し、NNNUNETベースラインモデルと比較して、92.3%のサイコロと84.1%のIOUスコアでパフォーマンスの改善を示します。
これらの発見は、心臓MRIからの自動化された左心房セグメンテーションの分野を進める際のアプローチの有効性を強調しています。

要約(オリジナル)

Accurate segmentation of the left atrium (LA) from late gadolinium-enhanced magnetic resonance imaging plays a vital role in visualizing diseased atrial structures, enabling the diagnosis and management of cardiovascular diseases. It is particularly essential for planning treatment with ablation therapy, a key intervention for atrial fibrillation (AF). However, manual segmentation is time-intensive and prone to inter-observer variability, underscoring the need for automated solutions. Class-agnostic foundation models like DINOv2 have demonstrated remarkable feature extraction capabilities in vision tasks. However, their lack of domain specificity and task-specific adaptation can reduce spatial resolution during feature extraction, impacting the capture of fine anatomical detail in medical imaging. To address this limitation, we propose a segmentation framework that integrates DINOv2 as an encoder with a UNet-style decoder, incorporating multi-scale feature fusion and input image integration to enhance segmentation accuracy. The learnable weighting mechanism dynamically prioritizes hierarchical features from different encoder blocks of the foundation model, optimizing feature selection for task relevance. Additionally, the input image is reintroduced during the decoding stage to preserve high-resolution spatial details, addressing limitations of downsampling in the encoder. We validate our approach on the LAScarQS 2022 dataset and demonstrate improved performance with a 92.3% Dice and 84.1% IoU score for giant architecture compared to the nnUNet baseline model. These findings emphasize the efficacy of our approach in advancing the field of automated left atrium segmentation from cardiac MRI.

arxiv情報

著者 Bipasha Kundu,Zixin Yang,Richard Simon,Cristian Linte
発行日 2025-02-10 16:12:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Multi-Scale Feature Fusion with Image-Driven Spatial Integration for Left Atrium Segmentation from Cardiac MRI Images はコメントを受け付けていません

Unleashing the Potential of Pre-Trained Diffusion Models for Generalizable Person Re-Identification

要約

Domain-Generalizable Redification(DG Reid)は、1つ以上のソースドメインでモデルをトレーニングし、目に見えないターゲットドメインでのパフォーマンスを評価することを目指しています。
多数の方法が提案されていますが、ほとんどが差別的または対照的な学習フレームワークに依存して、一般化可能な機能表現を学習しています。
ただし、これらのアプローチは、ショートカット学習を軽減できず、最適ではないパフォーマンスにつながることがよくあります。
この作業では、DG Reidを強化するために、相関認識条件付けスキーム(DCAC)を使用した拡散モデル支援表現学習と呼ばれる新しい方法を提案します。
私たちの方法は、相関認識条件付けスキームを通じて、識別と対照的なReidモデルと事前に訓練された拡散モデルを統合します。
REIDモデルから生成されたID分類確率を、学習可能なIDワイズプロンプトのセットで組み込むことにより、コンディショニングスキームは、拡散プロセスをガイドするためにID相関をキャプチャする暗い知識を注入します。
同時に、拡散モデルからのフィードバックは、コンディショニングスキームを通じてREIDモデルに戻り、REID機能の一般化能力を効果的に改善します。
シングルソースとマルチソースの両方のDG Reidタスクの両方の広範な実験は、この方法が最先端のパフォーマンスを達成することを示しています。
包括的なアブレーション研究は、提案されたアプローチの有効性をさらに検証し、その堅牢性に関する洞察を提供します。
コードはhttps://github.com/rikoli/dcacで入手できます。

要約(オリジナル)

Domain-generalizable re-identification (DG Re-ID) aims to train a model on one or more source domains and evaluate its performance on unseen target domains, a task that has attracted growing attention due to its practical relevance. While numerous methods have been proposed, most rely on discriminative or contrastive learning frameworks to learn generalizable feature representations. However, these approaches often fail to mitigate shortcut learning, leading to suboptimal performance. In this work, we propose a novel method called diffusion model-assisted representation learning with a correlation-aware conditioning scheme (DCAC) to enhance DG Re-ID. Our method integrates a discriminative and contrastive Re-ID model with a pre-trained diffusion model through a correlation-aware conditioning scheme. By incorporating ID classification probabilities generated from the Re-ID model with a set of learnable ID-wise prompts, the conditioning scheme injects dark knowledge that captures ID correlations to guide the diffusion process. Simultaneously, feedback from the diffusion model is back-propagated through the conditioning scheme to the Re-ID model, effectively improving the generalization capability of Re-ID features. Extensive experiments on both single-source and multi-source DG Re-ID tasks demonstrate that our method achieves state-of-the-art performance. Comprehensive ablation studies further validate the effectiveness of the proposed approach, providing insights into its robustness. Codes will be available at https://github.com/RikoLi/DCAC.

arxiv情報

著者 Jiachen Li,Xiaojin Gong
発行日 2025-02-10 16:16:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unleashing the Potential of Pre-Trained Diffusion Models for Generalizable Person Re-Identification はコメントを受け付けていません

Conformal Predictions for Human Action Recognition with Vision-Language Models

要約

Human-in-the-Loop(HITL)フレームワークは、多くの現実世界のコンピュータービジョンシステムに不可欠であり、人間のオペレーターがAI支援で情報に基づいた意思決定を行うことができます。
グラウンドトゥルースインクルージョンの確率に関する厳格な保証をラベルセットに提供するコンフォーマル予測(CP)は、最近、HITL設定の貴重なツールとして牽引力を獲得しました。
重要なアプリケーション領域の1つは、人間の行動認識(HAR)と密接に関連するビデオ監視です。
この研究では、先立って訓練された視覚言語モデル(VLM)を利用する最先端のHARメソッドの上にCPの適用を調査します。
私たちの調査結果は、CPが基礎となるVLMを変更せずに候補クラスの平均数を大幅に削減できることを明らかにしています。
ただし、これらの削減は、しばしば長い尾を持つ分布をもたらします。
これに対処するために、追加のキャリブレーションデータを必要とせずにこれらのテールを最小限に抑えるために、VLMSの温度パラメーターを調整することに基づいてメソッドを紹介します。
私たちのコードは、アドレスhttps://github.com/tbary/cp4vlmのGithubで利用可能になります。

要約(オリジナル)

Human-In-The-Loop (HITL) frameworks are integral to many real-world computer vision systems, enabling human operators to make informed decisions with AI assistance. Conformal Predictions (CP), which provide label sets with rigorous guarantees on ground truth inclusion probabilities, have recently gained traction as a valuable tool in HITL settings. One key application area is video surveillance, closely associated with Human Action Recognition (HAR). This study explores the application of CP on top of state-of-the-art HAR methods that utilize extensively pre-trained Vision-Language Models (VLMs). Our findings reveal that CP can significantly reduce the average number of candidate classes without modifying the underlying VLM. However, these reductions often result in distributions with long tails. To address this, we introduce a method based on tuning the temperature parameter of the VLMs to minimize these tails without requiring additional calibration data. Our code is made available on GitHub at the address https://github.com/tbary/CP4VLM.

arxiv情報

著者 Bary Tim,Fuchs Clément,Macq Benoît
発行日 2025-02-10 16:27:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Conformal Predictions for Human Action Recognition with Vision-Language Models はコメントを受け付けていません

Few-Shot Classification and Anatomical Localization of Tissues in SPECT Imaging

要約

正確な分類と解剖学的局在は、効果的な医療診断と研究に不可欠であり、深い学習技術を使用して効率的に実行される可能性があります。
ただし、限られたラベル付きデータの可用性は大きな課題をもたらします。
これに対処するために、単一の光子排出量コンピューター断層撮影(SPECT)画像で、それぞれ少数のショット分類とローカリゼーションのために、プロトタイプネットワークと伝播再構築ネットワーク(PRNET)を適応させました。
概念実証のために、心臓の周りにトリミングされた2Dスライス画像を使用しました。
96.67%のトレーニングと93.33%の検証精度を備えた、事前に訓練されたResNet-18バックボーン、分類された心室、心筋、および肝臓組織を備えたプロトタイプネットワーク。
Encoder-Decoderアーキテクチャとスキップ接続を備えた2Dイメージングに適応したPRNETは、1.395のトレーニング損失を達成し、パッチを正確に再構築し、空間関係をキャプチャしました。
これらの結果は、限られたラベル付きデータと解剖学的ランドマークのローカリゼーションのPRNETを使用した組織分類のプロトタイプネットワークの可能性を強調し、ディープラーニングフレームワークのパフォーマンスを改善する方法を開催します。

要約(オリジナル)

Accurate classification and anatomical localization are essential for effective medical diagnostics and research, which may be efficiently performed using deep learning techniques. However, availability of limited labeled data poses a significant challenge. To address this, we adapted Prototypical Networks and the Propagation-Reconstruction Network (PRNet) for few-shot classification and localization, respectively, in Single Photon Emission Computed Tomography (SPECT) images. For the proof of concept we used a 2D-sliced image cropped around heart. The Prototypical Network, with a pre-trained ResNet-18 backbone, classified ventricles, myocardium, and liver tissues with 96.67% training and 93.33% validation accuracy. PRNet, adapted for 2D imaging with an encoder-decoder architecture and skip connections, achieved a training loss of 1.395, accurately reconstructing patches and capturing spatial relationships. These results highlight the potential of Prototypical Networks for tissue classification with limited labeled data and PRNet for anatomical landmark localization, paving the way for improved performance in deep learning frameworks.

arxiv情報

著者 Mohammed Abdul Hafeez Khan,Samuel Morries Boddepalli,Siddhartha Bhattacharyya,Debasis Mitra
発行日 2025-02-10 16:28:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Few-Shot Classification and Anatomical Localization of Tissues in SPECT Imaging はコメントを受け付けていません

Do generative video models learn physical principles from watching videos?

要約

AIビデオ生成は革命を起こしており、品質とリアリズムが急速に進歩しています。
これらの進歩は、情熱的な科学的議論につながりました。ビデオモデルは物理学の法則を発見する「世界モデル」を学びますか、それとも、現実の物理的原則を理解せずに視覚的リアリズムを達成する洗練されたピクセル予測因子ですか?
この質問に対処し、物理学-IQを開発します。これは、流体のダイナミクス、光学、固体力学、磁気、熱力学など、さまざまな物理的原理を深く理解することによってのみ解決できる包括的なベンチマークデータセットです。
さまざまな現在のモデル(Sora、Runway、Pika、Lumiere、Stable Video Diffusion、videopoet)にわたって、身体的理解は厳しく制限されており、視覚的リアリズムとは無関係であることがわかります。
同時に、一部のテストケースはすでに正常に解決できます。
これは、観察だけで特定の物理的原則を獲得することが可能であることを示していますが、重要な課題が残っています。
私たちの仕事は、急速な進歩を期待していますが、私たちの仕事は視覚的リアリズムが肉体的理解を暗示していないことを示しています。
プロジェクトページはhttps://physics-iq.github.ioにあります。
https://github.com/google-deepmind/physics-iq-benchmarkのコード。

要約(オリジナル)

AI video generation is undergoing a revolution, with quality and realism advancing rapidly. These advances have led to a passionate scientific debate: Do video models learn ‘world models’ that discover laws of physics — or, alternatively, are they merely sophisticated pixel predictors that achieve visual realism without understanding the physical principles of reality? We address this question by developing Physics-IQ, a comprehensive benchmark dataset that can only be solved by acquiring a deep understanding of various physical principles, like fluid dynamics, optics, solid mechanics, magnetism and thermodynamics. We find that across a range of current models (Sora, Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical understanding is severely limited, and unrelated to visual realism. At the same time, some test cases can already be successfully solved. This indicates that acquiring certain physical principles from observation alone may be possible, but significant challenges remain. While we expect rapid advances ahead, our work demonstrates that visual realism does not imply physical understanding. Our project page is at https://physics-iq.github.io; code at https://github.com/google-deepmind/physics-IQ-benchmark.

arxiv情報

著者 Saman Motamed,Laura Culp,Kevin Swersky,Priyank Jaini,Robert Geirhos
発行日 2025-02-10 16:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Do generative video models learn physical principles from watching videos? はコメントを受け付けていません