Zero-Shot Pupil Segmentation with SAM 2: A Case Study of Over 14 Million Images

要約

私たちは、視線推定および視線追跡技術の進歩における、視覚基盤モデルである SAM 2 の変革の可能性を探ります。
SAM 2 は、アノテーション時間を大幅に短縮し、導入の容易さによって技術的な障壁を低くし、セグメンテーションの精度を向上させることにより、研究者や専門家が直面する重要な課題に対処します。
最小限のユーザー入力 (ビデオごとに 1 回クリックするだけ) でゼロショット セグメンテーション機能を利用して、仮想現実セットアップやウェアラブル アイ トラッカーを使用して記録された世界最大の統合データセットなど、さまざまなデータセットからの 1,400 万を超える目の画像で SAM 2 をテストしました。
注目すべきことに、瞳孔セグメンテーションタスクでは、SAM 2 は目の画像のみでトレーニングされたドメイン固有モデルのパフォーマンスと同等であり、微調整なしで最大 93% の競合平均交差オーバーユニオン (mIoU) スコアを達成します。
さらに、さらなる研究を促進するために、これらの広く使用されているデータセット用のコードとセグメンテーション マスクを提供します。

要約(オリジナル)

We explore the transformative potential of SAM 2, a vision foundation model, in advancing gaze estimation and eye tracking technologies. By significantly reducing annotation time, lowering technical barriers through its ease of deployment, and enhancing segmentation accuracy, SAM 2 addresses critical challenges faced by researchers and practitioners. Utilizing its zero-shot segmentation capabilities with minimal user input-a single click per video-we tested SAM 2 on over 14 million eye images from diverse datasets, including virtual reality setups and the world’s largest unified dataset recorded using wearable eye trackers. Remarkably, in pupil segmentation tasks, SAM 2 matches the performance of domain-specific models trained solely on eye images, achieving competitive mean Intersection over Union (mIoU) scores of up to 93% without fine-tuning. Additionally, we provide our code and segmentation masks for these widely used datasets to promote further research.

arxiv情報

著者 Virmarie Maquiling,Sean Anthony Byrne,Diederick C. Niehorster,Marco Carminati,Enkelejda Kasneci
発行日 2024-10-11 15:50:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC | コメントする

For a semiotic AI: Bridging computer vision and visual semiotics for computational observation of large scale facial image archives

要約

ソーシャル ネットワークは、人間の顔や体の画像の認知的、感情的、実用的な価値がおそらく変化しているデジタル世界を生み出しています。
しかし、デジタル人文科学の研究者は、これらの現象を大規模に研究するための設備が整っていないことがよくあります。
この研究では、ソーシャル メディア プラットフォーム上の画像の社会文化的意味を大規模に調査するために設計されたフレームワークである FRESCO (Face Representation in E-Societies through Computational Observation) を紹介します。
FRESCO は、視覚記号論の原理に沿った最先端のコンピューター ビジョン技術を使用して、画像を数値変数とカテゴリ変数に分解します。
このフレームワークは、3 つのレベルにわたって画像を分析します。1 つは線や色などの基本的な視覚的特徴を含むプラスチック レベルです。
比喩的なレベル。特定の実体または概念を表します。
そして、特に観客と観察者の視点を構築することに焦点を当てた発声レベル。
これらのレベルは、画像内のより深い物語の層を識別するために分析されます。
実験による検証により、FRESCO の信頼性と有用性が確認され、2 つの公開データセットにわたるその一貫性と精度が評価されます。
続いて、画像コンテンツの類似性の信頼できる尺度として機能する、フレームワークの出力から得られる指標である FRESCO スコアを導入します。

要約(オリジナル)

Social networks are creating a digital world in which the cognitive, emotional, and pragmatic value of the imagery of human faces and bodies is arguably changing. However, researchers in the digital humanities are often ill-equipped to study these phenomena at scale. This work presents FRESCO (Face Representation in E-Societies through Computational Observation), a framework designed to explore the socio-cultural implications of images on social media platforms at scale. FRESCO deconstructs images into numerical and categorical variables using state-of-the-art computer vision techniques, aligning with the principles of visual semiotics. The framework analyzes images across three levels: the plastic level, encompassing fundamental visual features like lines and colors; the figurative level, representing specific entities or concepts; and the enunciation level, which focuses particularly on constructing the point of view of the spectator and observer. These levels are analyzed to discern deeper narrative layers within the imagery. Experimental validation confirms the reliability and utility of FRESCO, and we assess its consistency and precision across two public datasets. Subsequently, we introduce the FRESCO score, a metric derived from the framework’s output that serves as a reliable measure of similarity in image content.

arxiv情報

著者 Lia Morra,Antonio Santangelo,Pietro Basci,Luca Piano,Fabio Garcea,Fabrizio Lamberti,Massimo Leone
発行日 2024-10-11 16:03:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images

要約

セマンティック対応方法は、モデルの能力を最大化することを目的として、複雑なネットワークを使用して高品質の対応を取得するように進歩しました。
ただし、パフォーマンスが向上したにもかかわらず、トレーニング画像の制限とキーポイントの希薄さの結果、トレーニング キーポイント ペアの不足によって制約が残る可能性があります。
この論文は、意味論的対応関係の学習には本質的にデータを必要とする問題があるという仮説に基づいて構築されており、高密度化されたトレーニング ペアを採用することでモデルをさらにトレーニングできることを明らかにしています。
私たちは、単純なマシン アノテーターがマシンの監視を通じてペアのキー ポイントを確実に強化することを実証します。追加のラベル付きキー ポイントも、ラベルのない画像からのトレーニング可能なモジュールも必要ありません。
その結果、私たちのモデルは、SPair-71k、PF-PASCAL、PF-WILLOW などのセマンティック対応学習ベンチマークで現在の最先端のモデルを上回り、破損ベンチマークでさらなる堅牢性を享受できます。
私たちのコードは https://github.com/naver-ai/matchme で入手できます。

要約(オリジナル)

Semantic correspondence methods have advanced to obtaining high-quality correspondences employing complicated networks, aiming to maximize the model capacity. However, despite the performance improvements, they may remain constrained by the scarcity of training keypoint pairs, a consequence of the limited training images and the sparsity of keypoints. This paper builds on the hypothesis that there is an inherent data-hungry matter in learning semantic correspondences and uncovers the models can be more trained by employing densified training pairs. We demonstrate a simple machine annotator reliably enriches paired key points via machine supervision, requiring neither extra labeled key points nor trainable modules from unlabeled images. Consequently, our models surpass current state-of-the-art models on semantic correspondence learning benchmarks like SPair-71k, PF-PASCAL, and PF-WILLOW and enjoy further robustness on corruption benchmarks. Our code is available at https://github.com/naver-ai/matchme.

arxiv情報

著者 Jiwon Kim,Byeongho Heo,Sangdoo Yun,Seungryong Kim,Dongyoon Han
発行日 2024-10-11 16:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

MeshGS: Adaptive Mesh-Aligned Gaussian Splatting for High-Quality Rendering

要約

最近、3D ガウス スプラッティングは、高忠実度のレンダリング結果を生成できる機能として注目を集めています。
同時に、ゲーム、アニメーション、AR/VR などのほとんどのアプリケーションは、メッシュベースの表現を使用して 3D シーンを表現およびレンダリングします。
私たちは、メッシュ表現を 3D ガウス スプラットと統合して、再構築された現実世界のシーンの高品質なレンダリングを実行する新しいアプローチを提案します。
特に、距離ベースのガウス スプラッティング手法を導入して、ガウス スプラットをメッシュ サーフェスに位置合わせし、レンダリングに寄与しない冗長なガウス スプラットを削除します。
各ガウス スプラットとメッシュ サーフェスの間の距離を考慮して、しっかりと結合されたガウス スプラットと緩く結合されたガウス スプラットを区別します。
しっかりと結合されたスプラットは平らになり、メッシュ ジオメトリと適切に位置合わせされます。
緩やかに結合されたガウス スプラットは、レンダリングの観点から再構築された 3D メッシュ内のアーティファクトを考慮するために使用されます。
ガウス スプラットをメッシュ ジオメトリにバインドするトレーニング戦略を提示し、両方のタイプのスプラットを考慮します。
これに関連して、トレーニング プロセス中に緊密にバインドされたガウス スプラットをメッシュ サーフェスと正確に位置合わせすることを目的としたいくつかの正則化手法を導入します。
mip-NeRF 360 およびディープ ブレンディング データセットからの大規模で境界のないシーンに対するこの方法の有効性を検証します。
私たちの手法は、2dB 高い PSNR を達成することで最近のメッシュベースのニューラル レンダリング技術を上回り、特に屋外の mip-NeRF 360 データセットにおいて、メッシュベースのガウス スプラッティング手法を 1.3 dB PSNR 上回り、より優れたレンダリング品質を示しています。
ガウス スプラットの各タイプの分析を提供し、元の 3D ガウス スプラッティングと比較してガウス スプラットの数を 30% 削減しました。

要約(オリジナル)

Recently, 3D Gaussian splatting has gained attention for its capability to generate high-fidelity rendering results. At the same time, most applications such as games, animation, and AR/VR use mesh-based representations to represent and render 3D scenes. We propose a novel approach that integrates mesh representation with 3D Gaussian splats to perform high-quality rendering of reconstructed real-world scenes. In particular, we introduce a distance-based Gaussian splatting technique to align the Gaussian splats with the mesh surface and remove redundant Gaussian splats that do not contribute to the rendering. We consider the distance between each Gaussian splat and the mesh surface to distinguish between tightly-bound and loosely-bound Gaussian splats. The tightly-bound splats are flattened and aligned well with the mesh geometry. The loosely-bound Gaussian splats are used to account for the artifacts in reconstructed 3D meshes in terms of rendering. We present a training strategy of binding Gaussian splats to the mesh geometry, and take into account both types of splats. In this context, we introduce several regularization techniques aimed at precisely aligning tightly-bound Gaussian splats with the mesh surface during the training process. We validate the effectiveness of our method on large and unbounded scene from mip-NeRF 360 and Deep Blending datasets. Our method surpasses recent mesh-based neural rendering techniques by achieving a 2dB higher PSNR, and outperforms mesh-based Gaussian splatting methods by 1.3 dB PSNR, particularly on the outdoor mip-NeRF 360 dataset, demonstrating better rendering quality. We provide analyses for each type of Gaussian splat and achieve a reduction in the number of Gaussian splats by 30% compared to the original 3D Gaussian splatting.

arxiv情報

著者 Jaehoon Choi,Yonghan Lee,Hyungtae Lee,Heesung Kwon,Dinesh Manocha
発行日 2024-10-11 16:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Parallel Watershed Partitioning: GPU-Based Hierarchical Image Segmentation

要約

多くの画像処理アプリケーションは、ピクセルが「類似している」互いに素な領域に画像を分割することに依存しています。
ウォーターシェッド変換とウォーターフォール変換は、確立された数学的形態学のピクセル クラスタリング手法です。
これらは両方とも、ピクセルのグループを一度に決定する必要がある、または隣接情報が関連する最新のアプリケーションに関連しています。
GPU 用の 3 つの新しい並列パーティショニング アルゴリズムを導入します。
ウォーターシェッド アルゴリズムを繰り返し適用することで、入力画像上に分割領域の階層を形成するウォーターフォール結果が生成されます。
当社のウォーターシェッド アルゴリズムは、2D と 3D の両方で競争力のある実行時間を達成し、800 メガボクセルの画像を 1.4 秒未満で処理します。
また、この完全に決定的な画像分割を機械学習ベースのセマンティック セグメンテーションの前処理ステップとして使用する方法も示します。
これはスーパーピクセル アルゴリズムの役割を置き換え、同等の精度とより速いトレーニング時間をもたらします。

要約(オリジナル)

Many image processing applications rely on partitioning an image into disjoint regions whose pixels are ‘similar.’ The watershed and waterfall transforms are established mathematical morphology pixel clustering techniques. They are both relevant to modern applications where groups of pixels are to be decided upon in one go, or where adjacency information is relevant. We introduce three new parallel partitioning algorithms for GPUs. By repeatedly applying watershed algorithms, we produce waterfall results which form a hierarchy of partition regions over an input image. Our watershed algorithms attain competitive execution times in both 2D and 3D, processing an 800 megavoxel image in less than 1.4 sec. We also show how to use this fully deterministic image partitioning as a pre-processing step to machine learning based semantic segmentation. This replaces the role of superpixel algorithms, and results in comparable accuracy and faster training times.

arxiv情報

著者 Varduhi Yeghiazaryan,Yeva Gabrielyan,Irina Voiculescu
発行日 2024-10-11 16:15:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC | コメントする

CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes

要約

動的シーンにおける 3D 再構成と新しいビュー合成のための高速かつスケーラブルな表現である CD-NGP を紹介します。
継続的な学習にインスピレーションを得た私たちのメソッドは、まず入力ビデオを複数のチャンクに分割し、続いてモデルをチャンクごとにトレーニングし、最後に最初のブランチと後続のブランチの特徴を融合します。
一般的な DyNeRF データセットでの実験では、私たちが提案した新しい表現がメモリ消費量、モデル サイズ、トレーニング速度、レンダリング品質の間で優れたバランスに達していることが実証されました。
具体的には、私たちの方法はオフライン方法よりも $85\%$ 少ないトレーニング メモリ ($<14$GB) を消費し、他のオンライン方法よりも大幅に低いストリーミング帯域幅 ($<0.4$MB/フレーム) を必要とします。

要約(オリジナル)

We present CD-NGP, which is a fast and scalable representation for 3D reconstruction and novel view synthesis in dynamic scenes. Inspired by continual learning, our method first segments input videos into multiple chunks, followed by training the model chunk by chunk, and finally, fuses features of the first branch and subsequent branches. Experiments on the prevailing DyNeRF dataset demonstrate that our proposed novel representation reaches a great balance between memory consumption, model size, training speed, and rendering quality. Specifically, our method consumes $85\%$ less training memory ($<14$GB) than offline methods and requires significantly lower streaming bandwidth ($<0.4$MB/frame) than other online alternatives.

arxiv情報

著者 Zhenhuan Liu,Shuai Liu,Zhiwei Ning,Jie Yang,Wei Liu
発行日 2024-10-11 16:16:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow

要約

拡散モデルはビジュアル生成を大幅に改善しましたが、生成 ODE を解く際の計算量が多いため、生成速度が遅いことが妨げとなっています。
広く認識されているソリューションである整流は、ODE パスを直線化することで生成速度を向上させます。
その主要なコンポーネントには、1) フローマッチングの拡散形式の使用、2) $\boldsymbol v$-prediction の使用、3) 修正 (別名リフロー) の実行が含まれます。
この論文では、調整の成功は主に、事前トレーニングされた拡散モデルを使用してノイズとサンプルの一致したペアを取得し、その後、これらの一致したノイズとサンプルのペアで再トレーニングすることにあると主張します。
このことから、構成要素 1) および 2) は不要です。
さらに、真直さは矯正のための必須のトレーニング目標ではないことを強調します。
むしろ、これはフローマッチングモデルの特殊なケースです。
より重要なトレーニング目標は、DDPM や Sub-VP などのモデルでは本質的に曲線である 1 次近似 ODE パスを達成することです。
この洞察に基づいて、私たちは整流拡散を提案します。これは、整流の設計空間と適用範囲を一般化し、フローマッチングモデルに限定されるのではなく、より広いカテゴリの拡散モデルを包含します。
Stable Diffusion v1-5 および Stable Diffusion XL でメソッドを検証します。
私たちの方法は、修正されたフローベースの以前の作品 (InstaFlow など) のトレーニング手順を大幅に簡素化するだけでなく、さらに低いトレーニング コストで優れたパフォーマンスを実現します。
私たちのコードは https://github.com/G-U-N/Rectified-Diffusion で入手できます。

要約(オリジナル)

Diffusion models have greatly improved visual generation but are hindered by slow generation speed due to the computationally intensive nature of solving generative ODEs. Rectified flow, a widely recognized solution, improves generation speed by straightening the ODE path. Its key components include: 1) using the diffusion form of flow-matching, 2) employing $\boldsymbol v$-prediction, and 3) performing rectification (a.k.a. reflow). In this paper, we argue that the success of rectification primarily lies in using a pretrained diffusion model to obtain matched pairs of noise and samples, followed by retraining with these matched noise-sample pairs. Based on this, components 1) and 2) are unnecessary. Furthermore, we highlight that straightness is not an essential training target for rectification; rather, it is a specific case of flow-matching models. The more critical training target is to achieve a first-order approximate ODE path, which is inherently curved for models like DDPM and Sub-VP. Building on this insight, we propose Rectified Diffusion, which generalizes the design space and application scope of rectification to encompass the broader category of diffusion models, rather than being restricted to flow-matching models. We validate our method on Stable Diffusion v1-5 and Stable Diffusion XL. Our method not only greatly simplifies the training procedure of rectified flow-based previous works (e.g., InstaFlow) but also achieves superior performance with even lower training cost. Our code is available at https://github.com/G-U-N/Rectified-Diffusion.

arxiv情報

著者 Fu-Yun Wang,Ling Yang,Zhaoyang Huang,Mengdi Wang,Hongsheng Li
発行日 2024-10-11 16:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Rapid Grassmannian Averaging with Chebyshev Polynomials

要約

我々は、集中設定と分散設定の両方でグラスマン多様体上の点の集合を効率的に平均化するための新しいアルゴリズムを提案します。
グラスマン点は、(多くの場合低次元の) 部分空間を通じてデータを表現するために、機械学習、コンピューター ビジョン、信号処理で広く使用されています。
これらの点を平均することは多くのタスク (特に分散設定) にとって重要ですが、残念ながら、多様体の非ユークリッド幾何学のため、既存の方法は依然として計算コストが高くなります。
私たちが提案するアルゴリズム、Rapid Grassmannian Averaging (RGrAv) および Decentralized Rapid Grassmannian Averaging (DRGrAv) は、問題のスペクトル構造を活用して、小さな行列の乗算と QR 分解のみを使用して平均を迅速に計算することで、この課題を克服します。
私たちは最適性の理論的保証を提供し、最小限の時間で高精度のソリューションを提供する点で私たちのアルゴリズムが最先端の方法よりも優れていることを実証する数値実験を示します。
追加の実験では、ビデオ モーション データの K 平均法クラスタリングなどのタスクに対するアルゴリズムの多用途性を示し、RGrAv と DRGrAv が一般的なグラスマン平均化のための強力なツールとして確立されました。

要約(オリジナル)

We propose new algorithms to efficiently average a collection of points on a Grassmannian manifold in both the centralized and decentralized settings. Grassmannian points are used ubiquitously in machine learning, computer vision, and signal processing to represent data through (often low-dimensional) subspaces. While averaging these points is crucial to many tasks (especially in the decentralized setting), existing methods unfortunately remain computationally expensive due to the non-Euclidean geometry of the manifold. Our proposed algorithms, Rapid Grassmannian Averaging (RGrAv) and Decentralized Rapid Grassmannian Averaging (DRGrAv), overcome this challenge by leveraging the spectral structure of the problem to rapidly compute an average using only small matrix multiplications and QR factorizations. We provide a theoretical guarantee of optimality and present numerical experiments which demonstrate that our algorithms outperform state-of-the-art methods in providing high accuracy solutions in minimal time. Additional experiments showcase the versatility of our algorithms to tasks such as K-means clustering on video motion data, establishing RGrAv and DRGrAv as powerful tools for generic Grassmannian averaging.

arxiv情報

著者 Brighton Ancelin,Alex Saad-Falcon,Kason Ancelin,Justin Romberg
発行日 2024-10-11 16:25:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NA, G.1.6, math.NA, math.OC | コメントする

Fusing Echocardiography Images and Medical Records for Continuous Patient Stratification

要約

深層学習により、駆出率や緊張などの心エコー検査シーケンスから心機能記述子を自動的かつ堅牢に抽出できます。
これらの記述子は、医師が患者の状態を評価するために臨床記録からのよりグローバルな変数と組み合わせて考慮する詳細な情報を提供します。
表形式のデータに適用された新しい変換モデルを利用して、医療記録と心エコー図から抽出されたすべての記述子を考慮して、特徴付けが困難な連続体を持つ心血管病理、つまり高血圧の表現を学習する方法を提案します。
私たちの方法では、まずモダリティ固有のアプローチを使用して、各変数を独自の表現空間に投影します。
次に、これらのマルチモーダル データの標準化された表現がトランスフォーマー エンコーダーに供給され、トランスフォーマー エンコーダーは、臨床評価を予測するタスクを通じて、それらを統合して患者の包括的な表現を学習します。
この階層化タスクは、表現空間内で病理学的連続体を強制するための順序分類として定式化されます。
私たちは、239 人の高血圧患者のコホートでこの一連の流れに沿った主要な傾向を観察し、さまざまな心機能記述子に対する高血圧の影響について前例のない詳細を提供します。
私たちの分析では、i) XTab 基礎モデルのアーキテクチャにより、限られたデータ (トレーニング サンプル数 200 未満) であっても優れたパフォーマンス (98% AUROC) を達成できること、ii) 母集団全体の階層化がトレーニング間で再現可能であること (MAE 3.6% 以内)、
iii) 記述子にパターンが出現し、その一部は高血圧に関する確立された生理学的知識と一致する一方、他のものはこの病態のより包括的な理解への道を開く可能性があります。

要約(オリジナル)

Deep learning enables automatic and robust extraction of cardiac function descriptors from echocardiographic sequences, such as ejection fraction or strain. These descriptors provide fine-grained information that physicians consider, in conjunction with more global variables from the clinical record, to assess patients’ condition. Drawing on novel transformer models applied to tabular data, we propose a method that considers all descriptors extracted from medical records and echocardiograms to learn the representation of a cardiovascular pathology with a difficult-to-characterize continuum, namely hypertension. Our method first projects each variable into its own representation space using modality-specific approaches. These standardized representations of multimodal data are then fed to a transformer encoder, which learns to merge them into a comprehensive representation of the patient through the task of predicting a clinical rating. This stratification task is formulated as an ordinal classification to enforce a pathological continuum in the representation space. We observe the major trends along this continuum on a cohort of 239 hypertensive patients, providing unprecedented details in the description of hypertension’s impact on various cardiac function descriptors. Our analysis shows that i) the XTab foundation model’s architecture allows to reach outstanding performance (98% AUROC) even with limited data (less than 200 training samples), ii) stratification across the population is reproducible between trainings (within 3.6% MAE), and iii) patterns emerge in descriptors, some of which align with established physiological knowledge about hypertension, while others could pave the way for a more comprehensive understanding of this pathology.

arxiv情報

著者 Nathan Painchaud,Jérémie Stym-Popper,Pierre-Yves Courand,Nicolas Thome,Pierre-Marc Jodoin,Nicolas Duchateau,Olivier Bernard
発行日 2024-10-11 16:28:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

DEL: Discrete Element Learner for Learning 3D Particle Dynamics with Neural Rendering

要約

学習ベースのシミュレーターは、3D グラウンドトゥルースが利用可能な場合に粒子ダイナミクスをシミュレートする大きな可能性を示しますが、粒子ごとの対応に常にアクセスできるとは限りません。
ニューラル レンダリングの開発は、逆レンダリングによって 2D 画像から 3D ダイナミクスを学習するという、この分野への新しいソリューションを提供します。
しかし、既存のアプローチは、2D から 3D への不確実性から生じる不適切な性質に依然として悩まされており、たとえば、特定の 2D 画像がさまざまな 3D 粒子分布に対応する可能性があります。
このような不確実性を軽減するために、従来の機械的に解釈可能なフレームワークを物理的な事前分布として考慮し、それを学習ベースのバージョンに拡張します。
簡単に言うと、学習可能なグラフ カーネルを古典的な離散要素解析 (DEA) フレームワークに組み込んで、新しい力学統合学習システムを実装します。
この場合、グラフ ネットワーク カーネルは、ダイナミクス マッピング全体ではなく、DEA フレームワーク内の一部の特定の機械演算子を近似するためにのみ使用されます。
強力な物理事前分布を統合することにより、私たちの方法は、統合された方法で部分的な 2D 観察からさまざまな材料のダイナミクスを効果的に学習することができます。
実験の結果、このコンテキストでは、私たちのアプローチが他の学習済みシミュレーターよりも大幅に優れており、さまざまなレンダラー、少ないトレーニング サンプル、および少ないカメラ ビューに対して堅牢であることが示されています。

要約(オリジナル)

Learning-based simulators show great potential for simulating particle dynamics when 3D groundtruth is available, but per-particle correspondences are not always accessible. The development of neural rendering presents a new solution to this field to learn 3D dynamics from 2D images by inverse rendering. However, existing approaches still suffer from ill-posed natures resulting from the 2D to 3D uncertainty, for example, specific 2D images can correspond with various 3D particle distributions. To mitigate such uncertainty, we consider a conventional, mechanically interpretable framework as the physical priors and extend it to a learning-based version. In brief, we incorporate the learnable graph kernels into the classic Discrete Element Analysis (DEA) framework to implement a novel mechanics-integrated learning system. In this case, the graph network kernels are only used for approximating some specific mechanical operators in the DEA framework rather than the whole dynamics mapping. By integrating the strong physics priors, our methods can effectively learn the dynamics of various materials from the partial 2D observations in a unified manner. Experiments show that our approach outperforms other learned simulators by a large margin in this context and is robust to different renderers, fewer training samples, and fewer camera views.

arxiv情報

著者 Jiaxu Wang,Jingkai Sun,Junhao He,Ziyi Zhang,Qiang Zhang,Mingyuan Sun,Renjing Xu
発行日 2024-10-11 16:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | コメントする