Quantifying Knowledge Distillation Using Partial Information Decomposition

要約

知識蒸留は、複雑な教師モデルの内部表現をエミュレートするために、より小さな生徒モデルを訓練することによって、リソースに制約のある環境で複雑な機械学習モデルを展開する。しかし、教師の表現には、下流のタスクに関係のない厄介な情報や付加的な情報もエンコードされている可能性があります。このような無関係な情報を取り除くことは、容量に制限のある生徒モデルのパフォーマンスを実際に妨げる可能性があります。この観察は、我々の主要な質問の動機となる:知識抽出の情報理論的限界とは何か?この目的を達成するために、我々は部分情報分解を利用して、下流のタスクのために移転された知識と蒸留するために残された知識を定量化し、説明する。我々は、タスクに関連した移転知識は、教師と生徒の間のタスクに関する冗長情報の尺度によって簡潔に捉えられることを理論的に実証する。我々は、冗長情報を正則化する新しいマルチレベル最適化を提案し、冗長情報蒸留(RID)のフレームワークに導く。RIDは、単に生徒と教師の表現を整合させるのではなく、タスクに関連する知識を簡潔に定量化するため、厄介な教師が存在する状況において、より弾力的で効果的な蒸留を導く。

要約(オリジナル)

Knowledge distillation deploys complex machine learning models in resource-constrained environments by training a smaller student model to emulate internal representations of a complex teacher model. However, the teacher’s representations can also encode nuisance or additional information not relevant to the downstream task. Distilling such irrelevant information can actually impede the performance of a capacity-limited student model. This observation motivates our primary question: What are the information-theoretic limits of knowledge distillation? To this end, we leverage Partial Information Decomposition to quantify and explain the transferred knowledge and knowledge left to distill for a downstream task. We theoretically demonstrate that the task-relevant transferred knowledge is succinctly captured by the measure of redundant information about the task between the teacher and student. We propose a novel multi-level optimization to incorporate redundant information as a regularizer, leading to our framework of Redundant Information Distillation (RID). RID leads to more resilient and effective distillation under nuisance teachers as it succinctly quantifies task-relevant knowledge rather than simply aligning student and teacher representations.

arxiv情報

著者 Pasan Dissanayake,Faisal Hamman,Barproda Halder,Ilia Sucholutsky,Qiuyi Zhang,Sanghamitra Dutta
発行日 2025-04-04 16:08:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.IT, cs.LG, eess.IV, math.IT, stat.ML | Quantifying Knowledge Distillation Using Partial Information Decomposition はコメントを受け付けていません

SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

要約

エージェントとその環境との相互作用において、エージェントは行動を計画し実行することでその能力を拡張する。しかし、LLMベースのエージェントは、新しい環境に配置されたり、型破りな行動空間をナビゲートする必要がある場合、大きな課題に直面する。そこで我々は、エージェントが自律的に環境を探索し、ワークフローを最適化し、行動に対する理解を深めるために、エージェントが行動空間内で多段階の行動起動を伴う可能性のあるシナリオを合成し、モンテカルロ木探索(MCTS)を実行して、現在の環境における行動知識を効果的に改良することを可能にするフレームワークであるSynWorldを提案する。我々の実験は、SynWorldが新しい環境における行動知識を学習するための効果的で一般的なアプローチであることを示している。コードはhttps://github.com/zjunlp/SynWorld。

要約(オリジナル)

In the interaction between agents and their environments, agents expand their capabilities by planning and executing actions. However, LLM-based agents face substantial challenges when deployed in novel environments or required to navigate unconventional action spaces. To empower agents to autonomously explore environments, optimize workflows, and enhance their understanding of actions, we propose SynWorld, a framework that allows agents to synthesize possible scenarios with multi-step action invocation within the action space and perform Monte Carlo Tree Search (MCTS) exploration to effectively refine their action knowledge in the current environment. Our experiments demonstrate that SynWorld is an effective and general approach to learning action knowledge in new environments. Code is available at https://github.com/zjunlp/SynWorld.

arxiv情報

著者 Runnan Fang,Xiaobin Wang,Yuan Liang,Shuofei Qiao,Jialong Wu,Zekun Xi,Ningyu Zhang,Yong Jiang,Pengjun Xie,Fei Huang,Huajun Chen
発行日 2025-04-04 16:10:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MA | SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement はコメントを受け付けていません

PF3Det: A Prompted Foundation Feature Assisted Visual LiDAR 3D Detector

要約

3D物体検出は、正確な深度情報を得るためのLiDAR点群と、豊富な意味情報を得るためのカメラ画像の両方を活用する、自律走行にとって極めて重要である。したがって、両方のモダリティを組み合わせたマルチモーダル手法は、よりロバストな検出結果を提供します。しかしながら、LiDAR点と画像を効率的に融合させることは、領域ギャップのために依然として困難です。さらに、多くのモデルの性能は、作成にコストがかかる高品質のラベル付きデータの量によって制限される。異なるモダリティに対する大規模な事前学習を使用する基礎モデルの最近の進歩により、より優れたマルチモーダル融合が可能になりました。効率的なトレーニングのためのプロンプトエンジニアリング技術を組み合わせることで、LiDARとカメラの特徴量融合を強化するために、基礎モデルエンコーダとソフトプロンプトを統合したプロンプト基礎3D検出器(PF3Det)を提案する。PF3Detは、nuScenesデータセットにおいて、NDSを1.19%、mAPを2.42%向上させ、限られた学習データで最先端の結果を達成し、3D検出における効率性を実証した。

要約(オリジナル)

3D object detection is crucial for autonomous driving, leveraging both LiDAR point clouds for precise depth information and camera images for rich semantic information. Therefore, the multi-modal methods that combine both modalities offer more robust detection results. However, efficiently fusing LiDAR points and images remains challenging due to the domain gaps. In addition, the performance of many models is limited by the amount of high quality labeled data, which is expensive to create. The recent advances in foundation models, which use large-scale pre-training on different modalities, enable better multi-modal fusion. Combining the prompt engineering techniques for efficient training, we propose the Prompted Foundational 3D Detector (PF3Det), which integrates foundation model encoders and soft prompts to enhance LiDAR-camera feature fusion. PF3Det achieves the state-of-the-art results under limited training data, improving NDS by 1.19% and mAP by 2.42% on the nuScenes dataset, demonstrating its efficiency in 3D detection.

arxiv情報

著者 Kaidong Li,Tianxiao Zhang,Kuan-Chuan Peng,Guanghui Wang
発行日 2025-04-04 16:11:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | PF3Det: A Prompted Foundation Feature Assisted Visual LiDAR 3D Detector はコメントを受け付けていません

Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion

要約

音声合成ジェスチャーをリアルタイムで生成するには、時間的コヒーレンスと効率的なサンプリングの両方が必要である。我々は、ローリング拡散モデルを構造化されたプログレッシブノイズスケジューリングで拡張し、リアリズムと多様性を保持しながらシームレスなロングシーケンスモーション合成を可能にする、ストリーミングジェスチャー生成のための新しいフレームワークであるアクセラレーテッドローリング拡散を紹介する。さらに、ノイズスケジュールを段階的なラダーに再構築し、複数のフレームを同時にノイズ除去できるようにする新しいアプローチであるローリング拡散ラダーアクセラレーション(RDLA)を提案する。これにより、動きの一貫性を保ちながらサンプリング効率を大幅に改善し、高い視覚的忠実性と時間的一貫性を保ちながら最大2倍のスピードアップを達成する。我々はZEGGSとBEATで我々のアプローチを評価した。我々のフレームワークは、拡散ベースのジェスチャー生成モデルに普遍的に適用可能であり、ストリーミングアプローチに変換する。3つの最先端手法に適用したところ、一貫してそれらの手法を上回り、リアルタイムで高忠実度の共同音声ジェスチャー合成のための一般化可能で効率的なソリューションとしての有効性を実証した。

要約(オリジナル)

Generating co-speech gestures in real time requires both temporal coherence and efficient sampling. We introduce Accelerated Rolling Diffusion, a novel framework for streaming gesture generation that extends rolling diffusion models with structured progressive noise scheduling, enabling seamless long-sequence motion synthesis while preserving realism and diversity. We further propose Rolling Diffusion Ladder Acceleration (RDLA), a new approach that restructures the noise schedule into a stepwise ladder, allowing multiple frames to be denoised simultaneously. This significantly improves sampling efficiency while maintaining motion consistency, achieving up to a 2x speedup with high visual fidelity and temporal coherence. We evaluate our approach on ZEGGS and BEAT, strong benchmarks for real-world applicability. Our framework is universally applicable to any diffusion-based gesture generation model, transforming it into a streaming approach. Applied to three state-of-the-art methods, it consistently outperforms them, demonstrating its effectiveness as a generalizable and efficient solution for real-time, high-fidelity co-speech gesture synthesis.

arxiv情報

著者 Evgeniia Vu,Andrei Boiarov,Dmitry Vetrov
発行日 2025-04-04 16:12:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.HC, cs.LG | Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion はコメントを受け付けていません

Intuitionistic Fuzzy Cognitive Maps for Interpretable Image Classification

要約

画像分類タスクを扱うために、いくつかの深層学習(DL)アプローチが提案されている。しかし、その有効性にもかかわらず、結果を説明したり正当化したりすることができないため、解釈可能性に欠けている。解釈可能な画像分類の課題に対処するために、本稿では、解釈可能な直観的ファジィ認知マップ(I2FCM)と名付けられた新しいフレームワークを紹介する。直観的FCM(iFCM)は、FCMの拡張として提案されており、意思決定における人間のためらいに似た概念であるためらいの推定を通じて、その出力の品質を評価する自然なメカニズムを提供する。画像分類の文脈では、ためらいは画像があるクラスに分類される自信のなさの度合いとみなされる。我々の知る限り、iFCMが画像分類に適用されたのはこれが初めてである。b)iFCMの直観的ファジィ相互接続をデータ駆動で自動的に決定するための学習アルゴリズムであり、これによりグラフ構造の定義における人間の介入を減らすことができる。さらに、提案するI2FCMフレームワークは、畳み込みニューラルネットワーク(CNN)を含むDLモデルにも適用可能であり、それらを解釈可能にする。I2FCMの有効性を一般に公開されているデータセットで評価した結果、解釈可能な推論を提供しつつ、分類性能を向上できることが確認された。

要約(オリジナル)

Several deep learning (DL) approaches have been proposed to deal with image classification tasks. However, despite their effectiveness, they lack interpretability, as they are unable to explain or justify their results. To address the challenge of interpretable image classification, this paper introduces a novel framework, named Interpretable Intuitionistic Fuzzy Cognitive Maps (I2FCMs).Intuitionistic FCMs (iFCMs) have been proposed as an extension of FCMs offering a natural mechanism to assess the quality of their output through the estimation of hesitancy, a concept resembling human hesitation in decision making. In the context of image classification, hesitancy is considered as a degree of unconfidence with which an image is categorized to a class. To the best of our knowledge this is the first time iFCMs are applied for image classification. Further novel contributions of the introduced framework include the following: a) a feature extraction process focusing on the most informative image regions; b) a learning algorithm for automatic data-driven determination of the intuitionistic fuzzy interconnections of the iFCM, thereby reducing human intervention in the definition of the graph structure; c) an inherently interpretable classification approach based on image contents, providing understandable explanations of its predictions, using linguistic terms. Furthermore, the proposed I2FCM framework can be applied to DL models, including Convolutional Neural Network (CNN), rendering them interpretable. The effectiveness of I2FCM is evaluated on publicly available datasets, and the results confirm that it can provide enhanced classification performance, while providing interpretable inferences.

arxiv情報

著者 Georgia Sovatzidi,Michael D. Vasilakakis,Dimitris K. Iakovidis
発行日 2025-04-04 16:28:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | Intuitionistic Fuzzy Cognitive Maps for Interpretable Image Classification はコメントを受け付けていません

AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing

要約

Self-Supervised Video Hashing (SSVH)は、ラベル付けされていない学習用動画を用いて、効率的なインデックス作成と検索のために動画をハッシュコードに圧縮する。既存のアプローチでは、動画の特徴を学習するためにランダムなフレームサンプリングに依存しており、すべてのフレームを等しく扱っている。その結果、フレーム固有の情報密度や再構成の困難性を無視した、最適とは言えないハッシュコードになってしまう。この限界に対処するために、我々はAutoSSVHと呼ばれる、ハッシュベースのコントラスト学習と敵対的フレームサンプリングを用いた新しいフレームワークを提案する。私たちの敵対的サンプリング戦略は、再構成のために、より豊富な情報を持つ困難なフレームを自動的に識別・選択し、符号化能力を向上させる。さらに、ハッシュ成分投票戦略とポイント・ツー・セット(P2Set)ハッシュベースの対比目的語を導入することで、ハミング空間における複雑な映像間の意味関係を捉え、学習されたハッシュコードの識別性を向上させる。広範な実験により、AutoSSVHは最先端のアプローチと比較して、優れた検索効果と効率を達成することが実証されている。コードはhttps://github.com/EliSpectre/CVPR25-AutoSSVH。

要約(オリジナル)

Self-Supervised Video Hashing (SSVH) compresses videos into hash codes for efficient indexing and retrieval using unlabeled training videos. Existing approaches rely on random frame sampling to learn video features and treat all frames equally. This results in suboptimal hash codes, as it ignores frame-specific information density and reconstruction difficulty. To address this limitation, we propose a new framework, termed AutoSSVH, that employs adversarial frame sampling with hash-based contrastive learning. Our adversarial sampling strategy automatically identifies and selects challenging frames with richer information for reconstruction, enhancing encoding capability. Additionally, we introduce a hash component voting strategy and a point-to-set (P2Set) hash-based contrastive objective, which help capture complex inter-video semantic relationships in the Hamming space and improve the discriminability of learned hash codes. Extensive experiments demonstrate that AutoSSVH achieves superior retrieval efficacy and efficiency compared to state-of-the-art approaches. Code is available at https://github.com/EliSpectre/CVPR25-AutoSSVH.

arxiv情報

著者 Niu Lian,Jun Li,Jinpeng Wang,Ruisheng Luo,Yaowei Wang,Shu-Tao Xia,Bin Chen
発行日 2025-04-04 16:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.IR, cs.MM | AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing はコメントを受け付けていません

AdaViT: Adaptive Vision Transformer for Flexible Pretrain and Finetune with Variable 3D Medical Image Modalities

要約

教師あり、または自己教師ありにかかわらず、事前学習技術は、モデルの性能を向上させるために深層学習で広く使用されている。実世界の臨床シナリオでは、被験者/症例ごとに異なる磁気共鳴(MR)コントラストのセットが取得されることが多く、すべての症例間、および事前学習と微調整の間で一貫した入力モダリティを仮定する深層学習モデルにとって課題が生じる。既存の手法では、入力モダリティ/コントラストセットが事前学習済みモデルと不一致の場合、性能を維持するのに苦労し、しばしば精度が低下する。我々は、ケースごとに入力モダリティの可変セットを扱うことができる適応的な視覚変換器(AdaViT)フレームワークを提案する。我々は、異なる入力画像モダリティをトークンにエンコードするために動的トークナイザを利用し、トークンの可変長にわたって注意メカニズムを構築するために変換器の特性を利用する。広範な実験を通して、このアーキテクチャが、教師あり事前学習済みモデルを、異なる入力モダリティ/コントラストセットを持つ新しいデータセットに効果的に転送し、脳梗塞と脳腫瘍のセグメンテーションタスクにおいて、ゼロショットテスト、少数ショット微調整、後方転送で優れた性能をもたらすことを実証する。さらに、自己教師付き事前訓練において、提案手法は事前訓練データを最大化することができ、入力モダリティが変化する多様な下流タスクへの転送を容易にする。

要約(オリジナル)

Pretrain techniques, whether supervised or self-supervised, are widely used in deep learning to enhance model performance. In real-world clinical scenarios, different sets of magnetic resonance (MR) contrasts are often acquired for different subjects/cases, creating challenges for deep learning models assuming consistent input modalities among all the cases and between pretrain and finetune. Existing methods struggle to maintain performance when there is an input modality/contrast set mismatch with the pretrained model, often resulting in degraded accuracy. We propose an adaptive Vision Transformer (AdaViT) framework capable of handling variable set of input modalities for each case. We utilize a dynamic tokenizer to encode different input image modalities to tokens and take advantage of the characteristics of the transformer to build attention mechanism across variable length of tokens. Through extensive experiments, we demonstrate that this architecture effectively transfers supervised pretrained models to new datasets with different input modality/contrast sets, resulting in superior performance on zero-shot testing, few-shot finetuning, and backward transferring in brain infarct and brain tumor segmentation tasks. Additionally, for self-supervised pretrain, the proposed method is able to maximize the pretrain data and facilitate transferring to diverse downstream tasks with variable sets of input modalities.

arxiv情報

著者 Badhan Kumar Das,Gengyan Zhao,Han Liu,Thomas J. Re,Dorin Comaniciu,Eli Gibson,Andreas Maier
発行日 2025-04-04 16:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | AdaViT: Adaptive Vision Transformer for Flexible Pretrain and Finetune with Variable 3D Medical Image Modalities はコメントを受け付けていません

A Hitchhiker’s Guide to Understanding Performances of Two-Class Classifiers

要約

分類器の性能を正しく理解することは、様々なシナリオにおいて不可欠である。しかし、多くの文献では、分類器を比較するために1つか2つの標準的なスコアのみに依存しており、アプリケーション固有の要件のニュアンスを捉えることができない。タイルは最近導入された可視化ツールで、無限のランキングスコアを2Dマップに整理します。Tileのおかげで、1組のスコアに依存する代わりに、可能な限りのアプリケーション固有の嗜好を表示し、分類器を効率的に比較することが可能になりました。2クラス分類器の性能を理解するためのこのヒッチハイクガイドでは、理論的な分析者、手法設計者、ベンチマーカー、アプリケーション開発者という、異なるユーザプロファイルを示す4つのシナリオを紹介する。我々は、タイル上に異なる値をマッピングすることで、ユーザのニーズに適応したいくつかの解釈の味を紹介する。このガイドを、4つのシナリオの視点を通して、74の最先端のセマンティックセグメンテーションモデルの性能をランキングし、分析することによって説明する。これらのユーザプロファイルを通して、Tileが無限のランキングスコアに対応しながら、分類器の振る舞いを単一の視覚化で効果的に捉えることを実証する。様々なTileのフレーバーをマッピングするコードは補足資料にある。

要約(オリジナル)

Properly understanding the performances of classifiers is essential in various scenarios. However, the literature often relies only on one or two standard scores to compare classifiers, which fails to capture the nuances of application-specific requirements. The Tile is a recently introduced visualization tool organizing an infinity of ranking scores into a 2D map. Thanks to the Tile, it is now possible to compare classifiers efficiently, displaying all possible application-specific preferences instead of having to rely on a pair of scores. This hitchhiker’s guide to understanding the performances of two-class classifiers presents four scenarios showcasing different user profiles: a theoretical analyst, a method designer, a benchmarker, and an application developer. We introduce several interpretative flavors adapted to the user’s needs by mapping different values on the Tile. We illustrate this guide by ranking and analyzing the performances of 74 state-of-the-art semantic segmentation models through the perspective of the four scenarios. Through these user profiles, we demonstrate that the Tile effectively captures the behavior of classifiers in a single visualization, while accommodating an infinite number of ranking scores. Code for mapping the different Tile flavors is available in supplementary material.

arxiv情報

著者 Anaïs Halin,Sébastien Piérard,Anthony Cioppa,Marc Van Droogenbroeck
発行日 2025-04-04 16:58:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.PF | A Hitchhiker’s Guide to Understanding Performances of Two-Class Classifiers はコメントを受け付けていません

MedSAM2: Segment Anything in 3D Medical Images and Videos

要約

医療画像や映像のセグメンテーションは、精密医療にとって重要なタスクであり、2D画像については、タスクやモダリティに特化したモデルや汎用モデルの開発がかなり進んでいる。しかし、3次元画像や動画に対する汎用モデルの構築や、包括的なユーザースタディに関する研究は限られている。本論文では、3D画像や動画像のセグメンテーションのための、迅速なセグメンテーション基盤モデルであるMedSAM2を紹介する。このモデルは、455,000以上の3D画像とマスクのペア、76,000以上のフレームからなる大規模な医療データセット上で、セグメント何でもモデル2を微調整することにより開発され、幅広い臓器、病変、画像モダリティにおいて、従来のモデルを凌駕している。さらに、大規模データセットの作成を容易にするヒューマンインザループパイプラインを実装し、CT病変5,000個、肝臓MRI病変3,984個、心エコー図ビデオフレーム251,550個のアノテーションを含む、我々の知る限りこれまでで最も大規模なユーザースタディを実施し、MedSAM2が手作業によるコストを85%以上削減できることを実証した。また、MedSAM2は、ローカルおよびクラウド展開用のユーザーフレンドリーなインターフェースにより、広く使用されているプラットフォームに統合されており、研究および医療環境の両方において、効率的でスケーラブルかつ高品質なセグメンテーションをサポートする実用的なツールとなっている。

要約(オリジナル)

Medical image and video segmentation is a critical task for precision medicine, which has witnessed considerable progress in developing task or modality-specific and generalist models for 2D images. However, there have been limited studies on building general-purpose models for 3D images and videos with comprehensive user studies. Here, we present MedSAM2, a promptable segmentation foundation model for 3D image and video segmentation. The model is developed by fine-tuning the Segment Anything Model 2 on a large medical dataset with over 455,000 3D image-mask pairs and 76,000 frames, outperforming previous models across a wide range of organs, lesions, and imaging modalities. Furthermore, we implement a human-in-the-loop pipeline to facilitate the creation of large-scale datasets resulting in, to the best of our knowledge, the most extensive user study to date, involving the annotation of 5,000 CT lesions, 3,984 liver MRI lesions, and 251,550 echocardiogram video frames, demonstrating that MedSAM2 can reduce manual costs by more than 85%. MedSAM2 is also integrated into widely used platforms with user-friendly interfaces for local and cloud deployment, making it a practical tool for supporting efficient, scalable, and high-quality segmentation in both research and healthcare environments.

arxiv情報

著者 Jun Ma,Zongxin Yang,Sumin Kim,Bihui Chen,Mohammed Baharoon,Adibvafa Fallahpour,Reza Asakereh,Hongwei Lyu,Bo Wang
発行日 2025-04-04 17:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, eess.IV | MedSAM2: Segment Anything in 3D Medical Images and Videos はコメントを受け付けていません

Robust Human Registration with Body Part Segmentation on Noisy Point Clouds

要約

人間のメッシュを3D点群に登録することは、拡張現実や人間とロボットのインタラクションなどのアプリケーションに不可欠であるが、実世界のデータにはノイズや背景の乱れがあるため、しばしば不正確な結果が得られる。我々は、ボディパーツのセグメンテーションをメッシュフィッティングプロセスに組み込むハイブリッドアプローチを導入し、人間のポーズ推定とセグメンテーション精度の両方を向上させる。本手法は、まず個々の点にボディパーツラベルを割り当て、次に2段階のSMPL-Xフィッティングをガイドする:ボディパーツのセントロイドを用いた最初のポーズと姿勢の推定と、それに続く点群のアライメントの大域的な精密化である。さらに、フィッティングされた人体メッシュが、身体部位のラベルを洗練し、セグメンテーションの改善につながることを示す。乱雑でノイズの多い実世界のデータセットInterCap、EgoBody、BEHAVEで評価した結果、我々のアプローチは、ポーズ推定とセグメンテーションの精度の両方において、先行手法を大幅に上回ることが示された。コードと結果はプロジェクトのウェブサイトhttps://segfit.github.io。

要約(オリジナル)

Registering human meshes to 3D point clouds is essential for applications such as augmented reality and human-robot interaction but often yields imprecise results due to noise and background clutter in real-world data. We introduce a hybrid approach that incorporates body-part segmentation into the mesh fitting process, enhancing both human pose estimation and segmentation accuracy. Our method first assigns body part labels to individual points, which then guide a two-step SMPL-X fitting: initial pose and orientation estimation using body part centroids, followed by global refinement of the point cloud alignment. Additionally, we demonstrate that the fitted human mesh can refine body part labels, leading to improved segmentation. Evaluations on the cluttered and noisy real-world datasets InterCap, EgoBody, and BEHAVE show that our approach significantly outperforms prior methods in both pose estimation and segmentation accuracy. Code and results are available on our project website: https://segfit.github.io

arxiv情報

著者 Kai Lascheit,Daniel Barath,Marc Pollefeys,Leonidas Guibas,Francis Engelmann
発行日 2025-04-04 17:17:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Robust Human Registration with Body Part Segmentation on Noisy Point Clouds はコメントを受け付けていません