Post-processing of coronary and myocardial spatial data

要約

実際の現象の数値シミュレーションには、計算スキームと計算ドメインが必要です。
血行動態のコンテキストでは、計算ドメインは、血液が流れる血管ネットワークです。
このようなネットワークには、シリーズおよび並行して結合される数百万の容器が含まれています。
ネットワーク全体の血流を明示的にシミュレートすることは計算不可能です。
単一のブタの左冠動脈樹から、部分的な冠動脈樹を表すグラフから心筋の血行動態シミュレーションの計算ドメインを取得するためのデータパイプラインを開発します。
さらに、検証のために左心室のアメリカ心臓協会部門との比較を使用して、特定の動脈を介して灌流される可能性が高くなる可能性が高いかを確認する方法を開発します。

要約(オリジナル)

Numerical simulations of real-world phenomena require a computational scheme and a computational domain. In the context of haemodynamics, the computational domain is the blood vessel network through which blood flows. Such networks contain millions of vessels that are joined in series and in parallel. It is computationally unfeasible to explicitly simulate blood flow throughout the network. From a single porcine left coronary arterial tree, we develop a data pipeline to obtain computational domains for haemodynamic simulations in the myocardium from a graph representing a partial coronary arterial tree. In addition, we develop a method to ascertain which subregions of the left-ventricular wall are more likely to be perfused via a given artery, using a comparison with the American Heart Association division of the left ventricle for validation.

arxiv情報

著者 Jay Aodh Mackenzie,Megan Jeanne Miller,Nicholas Hill,Mette Olufsen
発行日 2025-02-18 14:37:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DM | Post-processing of coronary and myocardial spatial data はコメントを受け付けていません

Don’t drop your samples! Coherence-aware training benefits Conditional diffusion

要約

条件付き拡散モデルは、クラスラベル、セグメンテーションマスク、テキストキャプションなど、さまざまな種類の条件情報を活用できる強力な生成モデルです。
ただし、多くの現実世界のシナリオでは、条件付き情報は、人間の注釈エラーまたは弱いアライメントのために騒がしい、または信頼できない場合があります。
この論文では、条件付き情報のコヒーレンスを拡散モデルに統合する新しい方法であるコヒーレンスアウェア拡散(CAD)を提案し、データを破棄することなくノイズの多い注釈から学習できるようにします。
各データポイントには、条件付き情報の品質を反映する関連するコヒーレンススコアがあると仮定します。
次に、条件付き情報とコヒーレンススコアの両方で拡散モデルを条件付けます。
このようにして、モデルは、コヒーレンスが低いときにコンディショニングを無視または割引することを学びます。
CADは理論的に健全であり、さまざまな条件付き生成タスクで経験的に効果的であることを示します。
さらに、コヒーレンスを活用すると、コヒーレンスが低いサンプルが破棄されているクリーニングされたデータセットでトレーニングされたモデルよりも条件付き情報をよりよく尊重する現実的で多様なサンプルが生成されることを示します。

要約(オリジナル)

Conditional diffusion models are powerful generative models that can leverage various types of conditional information, such as class labels, segmentation masks, or text captions. However, in many real-world scenarios, conditional information may be noisy or unreliable due to human annotation errors or weak alignment. In this paper, we propose the Coherence-Aware Diffusion (CAD), a novel method that integrates coherence in conditional information into diffusion models, allowing them to learn from noisy annotations without discarding data. We assume that each data point has an associated coherence score that reflects the quality of the conditional information. We then condition the diffusion model on both the conditional information and the coherence score. In this way, the model learns to ignore or discount the conditioning when the coherence is low. We show that CAD is theoretically sound and empirically effective on various conditional generation tasks. Moreover, we show that leveraging coherence generates realistic and diverse samples that respect conditional information better than models trained on cleaned datasets where samples with low coherence have been discarded.

arxiv情報

著者 Nicolas Dufour,Victor Besnier,Vicky Kalogeiton,David Picard
発行日 2025-02-18 14:43:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Don’t drop your samples! Coherence-aware training benefits Conditional diffusion はコメントを受け付けていません

PTQ4RIS: Post-Training Quantization for Referring Image Segmentation

要約

画像セグメンテーション(RIS)を参照すると、視覚情報と言語情報の両方を理解することにより、特定の文で言及されたオブジェクトを画像にセグメント化することを目的としています。
ただし、既存のRISメソッドは、リソースに制限されたエッジデバイスに関する実用的なアプリケーションに関する考慮事項を無視して、トップパフォーマンスモデルを探索する傾向があります。
この監視は、デバイス上のリスファレンスに大きな課題をもたらします。
この目的のために、PTQ4RISと呼ばれる効果的で効率的なトレーニング後の量子化フレームワークを提案します。
具体的には、最初に、RISモデルの量子化におけるパフォーマンス分解の根本原因の詳細な分析を実施し、視覚およびテキストの量子化困難に対処するために、デュアル領域量子化(DRQ)および繰り返しベースの外れ値の量子化(RORQ)を提案します
エンコーダ。
さまざまなビット設定(8〜4ビット)の3つのベンチマークでの広範な実験は、その優れた性能を示しています。
重要なことに、RISタスクのために特別に設計された最初のPTQメソッドであり、RISアプリケーションでのPTQの実現可能性を強調しています。
コードとビデオは{https://github.com/gugu511yy/ptq4ris}で入手できます。

要約(オリジナル)

Referring Image Segmentation (RIS), aims to segment the object referred by a given sentence in an image by understanding both visual and linguistic information. However, existing RIS methods tend to explore top-performance models, disregarding considerations for practical applications on resources-limited edge devices. This oversight poses a significant challenge for on-device RIS inference. To this end, we propose an effective and efficient post-training quantization framework termed PTQ4RIS. Specifically, we first conduct an in-depth analysis of the root causes of performance degradation in RIS model quantization and propose dual-region quantization (DRQ) and reorder-based outlier-retained quantization (RORQ) to address the quantization difficulties in visual and text encoders. Extensive experiments on three benchmarks with different bits settings (from 8 to 4 bits) demonstrates its superior performance. Importantly, we are the first PTQ method specifically designed for the RIS task, highlighting the feasibility of PTQ in RIS applications. Code and video are available at {https://github.com/gugu511yy/PTQ4RIS}.

arxiv情報

著者 Xiaoyan Jiang,Hang Yang,Kaiying Zhu,Xihe Qiu,Shibo Zhao,Sifan Zhou
発行日 2025-02-18 14:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PTQ4RIS: Post-Training Quantization for Referring Image Segmentation はコメントを受け付けていません

Contrast-Unity for Partially-Supervised Temporal Sentence Grounding

要約

一時的な文の基礎は、与えられた非トリミングされていないビデオからの自然言語クエリによって記述されたイベントタイムスタンプを検出することを目的としています。
既存の完全に監視された設定は素晴らしい結果を達成しますが、高価な注釈コストが必要です。
弱く監視されている設定では、安価なラベルを採用していますが、パフォーマンスが低下します。
注釈コストが少ない高性能を追求するために、このペーパーでは、中間の部分的に監視された設定を紹介します。つまり、トレーニング中に短クリップのみが利用できます。
部分的なラベルを最大限に活用するために、暗黙的に優れた進行性の接地という2段階の目標とともに、1つのコントラストユニティフレームワークを特別に設計します。
暗黙の段階では、包括的な4倍の対照学習を使用して、イベントクォーリーの対照学習を使用して、イベントクエリ表現を細かく整列させます。
次に、高品質の表現は、許容可能な接地擬似ラベルをもたらします。
明示的な段階では、基地目標を明示的に最適化するために、洗練と除去のために得られた擬似ラベルを使用して、1つの完全に監視されたモデルをトレーニングします。
Charades-staとActivityNetのキャプションに関する広範な実験と徹底的なアブレーションは、部分的な監督の重要性と優れたパフォーマンスを示しています。

要約(オリジナル)

Temporal sentence grounding aims to detect event timestamps described by the natural language query from given untrimmed videos. The existing fully-supervised setting achieves great results but requires expensive annotation costs; while the weakly-supervised setting adopts cheap labels but performs poorly. To pursue high performance with less annotation costs, this paper introduces an intermediate partially-supervised setting, i.e., only short-clip is available during training. To make full use of partial labels, we specially design one contrast-unity framework, with the two-stage goal of implicit-explicit progressive grounding. In the implicit stage, we align event-query representations at fine granularity using comprehensive quadruple contrastive learning: event-query gather, event-background separation, intra-cluster compactness and inter-cluster separability. Then, high-quality representations bring acceptable grounding pseudo-labels. In the explicit stage, to explicitly optimize grounding objectives, we train one fully-supervised model using obtained pseudo-labels for grounding refinement and denoising. Extensive experiments and thoroughly ablations on Charades-STA and ActivityNet Captions demonstrate the significance of partial supervision, as well as our superior performance.

arxiv情報

著者 Haicheng Wang,Chen Ju,Weixiong Lin,Chaofan Ma,Shuai Xiao,Ya Zhang,Yanfeng Wang
発行日 2025-02-18 14:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Contrast-Unity for Partially-Supervised Temporal Sentence Grounding はコメントを受け付けていません

R3L: Relative Representations for Reinforcement Learning

要約

視覚強化学習は、深い学習のブレークスルーを最大限に活用する人気のある強力なフレームワークです。
入力ドメインの変動(季節の変化によるパノラマ色の異なる)またはタスクドメイン(たとえば、車の目標速度を変更する)がエージェントのパフォーマンスを妨害し、各変動の新しいトレーニングが必要であることが知られています。
表現学習の分野における最近の進歩により、さまざまなニューラルネットワークのコンポーネントを組み合わせてゼロショットファッションで新しいモデルを作成する可能性が実証されています。
このホワイトペーパーでは、相対的な表現に基づいて、エンコーダーの埋め込みを普遍的な空間にマッピングするフレームワークに基づいています。
このフレームワークを視覚的な強化学習設定に適応させ、エージェントコンポーネントを組み合わせて、トレーニング中に遭遇しない新しいビジュアルタスクペアを効果的に処理できる新しいエージェントを作成できるようにします。
私たちの調査結果は、モデルの再利用の可能性を強調し、再訓練の必要性を大幅に削減し、その結果、必要な時間と計算リソースを強調しています。

要約(オリジナル)

Visual Reinforcement Learning is a popular and powerful framework that takes full advantage of the Deep Learning breakthrough. It is known that variations in input domains (e.g., different panorama colors due to seasonal changes) or task domains (e.g., altering the target speed of a car) can disrupt agent performance, necessitating new training for each variation. Recent advancements in the field of representation learning have demonstrated the possibility of combining components from different neural networks to create new models in a zero-shot fashion. In this paper, we build upon relative representations, a framework that maps encoder embeddings to a universal space. We adapt this framework to the Visual Reinforcement Learning setting, allowing to combine agents components to create new agents capable of effectively handling novel visual-task pairs not encountered during training. Our findings highlight the potential for model reuse, significantly reducing the need for retraining and, consequently, the time and computational resources required.

arxiv情報

著者 Antonio Pio Ricciardi,Valentino Maiorca,Luca Moschella,Riccardo Marin,Emanuele Rodolà
発行日 2025-02-18 15:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, cs.LG, I.2.6 | R3L: Relative Representations for Reinforcement Learning はコメントを受け付けていません

LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation

要約

TiktokやYouTubeなどのプラットフォームで支配的な人気のあるマイクロバイデスは、大きな商業的価値を保持しています。
高品質のAI生成コンテンツの上昇は、AI駆動型のマイクロビデオ作成への関心を促進しました。
ただし、CHATGPTやText Generationと推論のDeepSeekなどの大規模な言語モデル(LLM)の高度な機能にもかかわらず、人気のあるマイクロビデオの作成を支援する可能性はほとんどありません。
この論文では、LLM支援の人気のあるマイクロビデオジェネレーション(LLMPopcorn)に関する実証研究を実施しています。
具体的には、次の研究質問を調査します。(i)LLMSをどのようにして効果的に利用して、一般的なマイクロビデオ生成を支援できますか?
(ii)より高い人気のために、迅速なベースの拡張機能がLLM生成コンテンツを最適化することができる程度まで?
(iii)さまざまなLLMやビデオジェネレーターが、人気のあるマイクロビデオ生成タスクでどの程度うまく機能していますか?
これらの質問を調査することにより、DeepSeek-V3のような高度なLLMがマイクロビデオ生成を可能にし、人間が作成したコンテンツに匹敵する人気を達成できることを示します。
迅速な拡張により、人気がさらに高まり、ベンチマークはLLMSでDeepSeek-V3とDeepSeek-R1を強調し、LTX-VideoとHunyuanvideoはビデオ生成でリードしています。
この先駆的な仕事は、AIアシストされたマイクロビデオの作成を進め、新しい研究の機会を明らかにします。
将来の研究をサポートするために、コードとデータセットをリリースします。

要約(オリジナル)

Popular Micro-videos, dominant on platforms like TikTok and YouTube, hold significant commercial value. The rise of high-quality AI-generated content has spurred interest in AI-driven micro-video creation. However, despite the advanced capabilities of large language models (LLMs) like ChatGPT and DeepSeek in text generation and reasoning, their potential to assist the creation of popular micro-videos remains largely unexplored. In this paper, we conduct an empirical study on LLM-assisted popular micro-video generation (LLMPopcorn). Specifically, we investigate the following research questions: (i) How can LLMs be effectively utilized to assist popular micro-video generation? (ii) To what extent can prompt-based enhancements optimize the LLM-generated content for higher popularity? (iii) How well do various LLMs and video generators perform in the popular micro-video generation task? By exploring these questions, we show that advanced LLMs like DeepSeek-V3 enable micro-video generation to achieve popularity comparable to human-created content. Prompt enhancements further boost popularity, and benchmarking highlights DeepSeek-V3 and DeepSeek-R1 among LLMs, while LTX-Video and HunyuanVideo lead in video generation. This pioneering work advances AI-assisted micro-video creation, uncovering new research opportunities. We will release the code and datasets to support future studies.

arxiv情報

著者 Junchen Fu,Xuri Ge,Kaiwen Zheng,Ioannis Arapakis,Xin Xin,Joemon M. Jose
発行日 2025-02-18 15:29:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation はコメントを受け付けていません

Fake It Till You Make It: Using Synthetic Data and Domain Knowledge for Improved Text-Based Learning for LGE Detection

要約

心臓LGE MRI画像からのハイパーエンハンスメントの検出は、重要な臨床専門知識を必要とする複雑なタスクです。
ディープラーニングベースのモデルでは、タスクに対して有望な結果が示されていますが、微細に分解された注釈を備えた大量のデータが必要です。
心臓MR研究用に生成された臨床報告には、存在するあらゆる傷跡の場所、範囲、病因を含む、豊富な臨床的に関連する情報が含まれています。
最近開発されたクリップベースのトレーニングにより、画像テキストペアを備えた事前処理モデルが可能になりますが、大量のデータと下流タスクでのさらなる微調整戦略が必要です。
この研究では、ドメイン知識に根ざしたさまざまな戦略を使用して、965人の患者の比較的小さな臨床コホートについて、臨床報告のテキストを使用してLGE検出のモデルをトレーニングします。
瘢痕画像と関連するテキストを体系的に作成することにより、合成データ増強を使用することにより、パフォーマンスを改善します。
さらに、空間機能とテキスト機能のより良い整合を可能にするために、解剖学に基づいた方法で画像の方向を標準化します。
また、キャプション損失を使用して、細粒の監督を可能にし、パフォーマンスに対するビジョンエンコーダーの事前排出の効果を調査します。
最後に、モデルの全体的なパフォーマンスへの各設計コンポーネントの貢献を解明するために、アブレーション研究が実施されます。

要約(オリジナル)

Detection of hyperenhancement from cardiac LGE MRI images is a complex task requiring significant clinical expertise. Although deep learning-based models have shown promising results for the task, they require large amounts of data with fine-grained annotations. Clinical reports generated for cardiac MR studies contain rich, clinically relevant information, including the location, extent and etiology of any scars present. Although recently developed CLIP-based training enables pretraining models with image-text pairs, it requires large amounts of data and further finetuning strategies on downstream tasks. In this study, we use various strategies rooted in domain knowledge to train a model for LGE detection solely using text from clinical reports, on a relatively small clinical cohort of 965 patients. We improve performance through the use of synthetic data augmentation, by systematically creating scar images and associated text. In addition, we standardize the orientation of the images in an anatomy-informed way to enable better alignment of spatial and text features. We also use a captioning loss to enable fine-grained supervision and explore the effect of pretraining of the vision encoder on performance. Finally, ablation studies are carried out to elucidate the contributions of each design component to the overall performance of the model.

arxiv情報

著者 Athira J Jacob,Puneet Sharma,Daniel Rueckert
発行日 2025-02-18 15:30:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Fake It Till You Make It: Using Synthetic Data and Domain Knowledge for Improved Text-Based Learning for LGE Detection はコメントを受け付けていません

Instance-Level Moving Object Segmentation from a Single Image with Events

要約

移動するオブジェクトのセグメンテーションは、複数の移動オブジェクトを含む動的なシーンを理解する上で重要な役割を果たしますが、困難は空間テクスチャ構造と時間的運動の合図の両方を考慮することにあります。
ビデオフレームに基づく既存の方法は、正確な画像ベースのモーションモデリングの複雑さのために、オブジェクトのピクセル変位がカメラの動きまたはオブジェクトの動きによって引き起こされるかどうかを区別する際に困難に遭遇します。
最近の進歩は、新しいイベントカメラのモーション感度を活用して、従来の画像「不十分なモーションモデリング能力に対抗するが、イベントに密なテクスチャ構造がないためにピクセルレベルのオブジェクトマスクをセグメント化する際の課題につながります。
単峰性設定によって課されるこれら2つの制限に対処するために、補完的なテクスチャとモーションキューを統合する最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案します。
私たちのモデルには、暗黙のクロスモーダルマスクされた注意強化、明示的な対照的な特徴学習、および単一の画像からの密なテクスチャ情報とイベントからそれぞれ豊富なモーション情報を活用するためのフロー誘導運動強化が組み込まれています。
拡張されたテクスチャとモーション機能を活用することにより、マスクセグメンテーションをモーション分類から分離して、独立して移動するオブジェクトのさまざまな数を処理します。
複数のデータセットでの広範な評価、およびさまざまな入力設定と提案されたフレームワークのリアルタイム効率分析を使用したアブレーション実験を通じて、実用的な展開のための画像とイベントデータを組み込む最初の試みは、将来の作業のための新しい洞察を提供できると考えています。
イベントベースのモーション関連作業。
モデルトレーニングと事前訓練を受けたウェイトを備えたソースコードは、https://npucvr.github.io/evinsmosでリリースされます

要約(オリジナル)

Moving object segmentation plays a crucial role in understanding dynamic scenes involving multiple moving objects, while the difficulties lie in taking into account both spatial texture structures and temporal motion cues. Existing methods based on video frames encounter difficulties in distinguishing whether pixel displacements of an object are caused by camera motion or object motion due to the complexities of accurate image-based motion modeling. Recent advances exploit the motion sensitivity of novel event cameras to counter conventional images’ inadequate motion modeling capabilities, but instead lead to challenges in segmenting pixel-level object masks due to the lack of dense texture structures in events. To address these two limitations imposed by unimodal settings, we propose the first instance-level moving object segmentation framework that integrates complementary texture and motion cues. Our model incorporates implicit cross-modal masked attention augmentation, explicit contrastive feature learning, and flow-guided motion enhancement to exploit dense texture information from a single image and rich motion information from events, respectively. By leveraging the augmented texture and motion features, we separate mask segmentation from motion classification to handle varying numbers of independently moving objects. Through extensive evaluations on multiple datasets, as well as ablation experiments with different input settings and real-time efficiency analysis of the proposed framework, we believe that our first attempt to incorporate image and event data for practical deployment can provide new insights for future work in event-based motion related works. The source code with model training and pre-trained weights is released at https://npucvr.github.io/EvInsMOS

arxiv情報

著者 Zhexiong Wan,Bin Fan,Le Hui,Yuchao Dai,Gim Hee Lee
発行日 2025-02-18 15:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Instance-Level Moving Object Segmentation from a Single Image with Events はコメントを受け付けていません

Position and Rotation Invariant Sign Language Recognition from 3D Kinect Data with Recurrent Neural Networks

要約

手話は、音声と聴覚障害者の間のジェスチャーベースの象徴的なコミュニケーション媒体です。
また、非障害者と障害のある集団の間のコミュニケーション橋としても機能します。
残念ながら、ほとんどの状況では、非障害のある人は、これらの2つのカテゴリ間の自然情報の流れを制限するこのような象徴的な言語では十分に精通していません。
したがって、手話をシームレスに自然言語に変換する自動化された翻訳メカニズムは非常に有利です。
この論文では、30の基本的なインドの看板ジェスチャーの認識を実行しようとします。
ジェスチャーは、3Dマップ(RGB +深さ)の時間シーケンスとして表され、それぞれがKinectセンサーによって捕捉された20個のボディジョイントの3D座標で構成されています。
再発性ニューラルネットワーク(RNN)が分類器として採用されています。
分類器のパフォーマンスを向上させるために、深度フレームのアライメント補正に幾何学的変換を使用します。
実験では、モデルは84.81%の精度を達成します。

要約(オリジナル)

Sign language is a gesture-based symbolic communication medium among speech and hearing impaired people. It also serves as a communication bridge between non-impaired and impaired populations. Unfortunately, in most situations, a non-impaired person is not well conversant in such symbolic languages restricting the natural information flow between these two categories. Therefore, an automated translation mechanism that seamlessly translates sign language into natural language can be highly advantageous. In this paper, we attempt to perform recognition of 30 basic Indian sign gestures. Gestures are represented as temporal sequences of 3D maps (RGB + depth), each consisting of 3D coordinates of 20 body joints captured by the Kinect sensor. A recurrent neural network (RNN) is employed as the classifier. To improve the classifier’s performance, we use geometric transformation for the alignment correction of depth frames. In our experiments, the model achieves 84.81% accuracy.

arxiv情報

著者 Prasun Roy,Saumik Bhattacharya,Partha Pratim Roy,Umapada Pal
発行日 2025-02-18 16:00:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | Position and Rotation Invariant Sign Language Recognition from 3D Kinect Data with Recurrent Neural Networks はコメントを受け付けていません

PartSDF: Part-Based Implicit Neural Representation for Composite 3D Shape Parametrization and Optimization

要約

設計、最適化、シミュレーションなどのエンジニアリングアプリケーションでは、正確な3D形状表現が不可欠です。
実際には、オブジェクトは本質的に異なるコンポーネントのアセンブリとして設計されているため、エンジニアリングワークフローには構造化された部分的な表現が必要です。
ただし、ほとんどの既存の方法は、モデルを全体的に形作るか、事前定義された部分構造なしでそれらを分解し、実際の設計タスクでの適用性を制限します。
Sportdfを提案します。これは、形状の一貫性を維持しながら、独立した制御可能な部分で複合形状を明示的にモデル化する監視された暗黙的な表現フレームワークです。
シンプルなシングルデコーダーアーキテクチャにもかかわらず、PARTSDFは、再構築および生成タスクの監視されたベースラインと監視されていないベースラインの両方を上回ります。
さらに、エンジニアリングアプリケーションの事前に構造化された形状としての有効性を実証し、全体的な一貫性を維持しながら、個々のコンポーネントを正確に制御できるようにします。
https://github.com/cvlab-epfl/partsdfで利用可能なコード。

要約(オリジナル)

Accurate 3D shape representation is essential in engineering applications such as design, optimization, and simulation. In practice, engineering workflows require structured, part-aware representations, as objects are inherently designed as assemblies of distinct components. However, most existing methods either model shapes holistically or decompose them without predefined part structures, limiting their applicability in real-world design tasks. We propose PartSDF, a supervised implicit representation framework that explicitly models composite shapes with independent, controllable parts while maintaining shape consistency. Despite its simple single-decoder architecture, PartSDF outperforms both supervised and unsupervised baselines in reconstruction and generation tasks. We further demonstrate its effectiveness as a structured shape prior for engineering applications, enabling precise control over individual components while preserving overall coherence. Code available at https://github.com/cvlab-epfl/PartSDF.

arxiv情報

著者 Nicolas Talabot,Olivier Clerc,Arda Cinar Demirtas,Doruk Oner,Pascal Fua
発行日 2025-02-18 16:08:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PartSDF: Part-Based Implicit Neural Representation for Composite 3D Shape Parametrization and Optimization はコメントを受け付けていません