A 3D Facial Reconstruction Evaluation Methodology: Comparing Smartphone Scans with Deep Learning Based Methods Using Geometry and Morphometry Criteria

要約

潜在的な臨床応用により、3次元(3D)顔形分析が関心を集めています。
ただし、高度な3Dフェイシャル獲得システムの高コストにより、広範囲にわたる使用が制限され、低コストの取得と再建方法の開発が促進されます。
この研究では、形態計測形状分析技術を統合することにより、従来の幾何学ベースのベンチマークを超えて、顔面形態の保存を評価するための統計的枠組みを提供する新しい評価方法を紹介します。
ケーススタディとして、スマートフォンベースの3Dスキャンと、ハイエンドのステレオフォトグラミックモデルをグラウンドトゥルースとして使用して、2D画像から最先端の深い学習再構築方法を比較します。
この方法論により、グローバルおよびローカルの形状の違いの定量的評価が可能になり、低コストの3Dフェイシャル獲得と再建技術の生物学的に意味のある検証アプローチを提供します。

要約(オリジナル)

Three-dimensional (3D) facial shape analysis has gained interest due to its potential clinical applications. However, the high cost of advanced 3D facial acquisition systems limits their widespread use, driving the development of low-cost acquisition and reconstruction methods. This study introduces a novel evaluation methodology that goes beyond traditional geometry-based benchmarks by integrating morphometric shape analysis techniques, providing a statistical framework for assessing facial morphology preservation. As a case study, we compare smartphone-based 3D scans with state-of-the-art deep learning reconstruction methods from 2D images, using high-end stereophotogrammetry models as ground truth. This methodology enables a quantitative assessment of global and local shape differences, offering a biologically meaningful validation approach for low-cost 3D facial acquisition and reconstruction techniques.

arxiv情報

著者 Álvaro Heredia-Lidón,Alejandro Moñux-Bernal,Alejandro González,Luis M. Echeverry-Quiceno,Max Rubert,Aroa Casado,María Esther Esteban,Mireia Andreu-Montoriol,Susanna Gallardo,Cristina Ruffo,Neus Martínez-Abadías,Xavier Sevillano
発行日 2025-02-13 15:47:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A 3D Facial Reconstruction Evaluation Methodology: Comparing Smartphone Scans with Deep Learning Based Methods Using Geometry and Morphometry Criteria はコメントを受け付けていません

Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models

要約

高品質のサンプルを生成する途方もない能力で知られる拡散モデルは、最近、プライバシーリスクをもたらすデータ暗記行動のために懸念を提起しました。
メモリ緩和のための最近の方法は、主に、クロスモーダル生成タスクのテキストモダリティのコンテキスト内で問題に対処し、特定の条件に適用可能性を制限しています。
この論文では、視覚モダリティの観点から拡散モデルの新しい方法を提案します。これは、より一般的であり、暗記を緩和するための基本です。
視覚データをモデルに直接公開すると記憶リスクが高まるため、代わりにプロキシモデルパラメーターを通じてモデルが学習するフレームワークを設計します。
特に、トレーニングデータセットは複数のシャードに分割され、各シャードトレーニングプロキシモデルをトレーニングし、最終モデルを形成するために集約されます。
さらに、トレーニング損失の実用的な分析は、簡単に記憶に残る画像の損失が明らかに低い傾向があることを示しています。
したがって、記憶を避けるために、現在のミニバッチから異常に低い損失値でサンプルをスキップします。
ただし、高品質の画像生成のために十分なトレーニングデータを維持しながら、暗記が発生しやすいサンプルをスキップする必要性のバランスをとることは、重要な課題です。
したがって、これらのサンプルをスキップ過剰から緩和するために、シャード間で非常に記憶に残るサンプルを再配置するIET-AGC+を提案します。
さらに、記憶をさらに減らすために、その損失値に基づいてサンプルを動的に増強します。
4つのデータセットでの広範な実験と分析により、この方法はパフォーマンスを維持しながらメモリ容量を正常に削減することが示されています。
さらに、事前に訓練された拡散モデル、たとえば安定した拡散モデルを微調整し、暗記スコアを46.7 \%減少させ、方法の有効性を示しています。
コードは、https://github.com/liuxiao-guan/iet_agcで入手できます。

要約(オリジナル)

Diffusion models, known for their tremendous ability to generate high-quality samples, have recently raised concerns due to their data memorization behavior, which poses privacy risks. Recent methods for memory mitigation have primarily addressed the issue within the context of the text modality in cross-modal generation tasks, restricting their applicability to specific conditions. In this paper, we propose a novel method for diffusion models from the perspective of visual modality, which is more generic and fundamental for mitigating memorization. Directly exposing visual data to the model increases memorization risk, so we design a framework where models learn through proxy model parameters instead. Specially, the training dataset is divided into multiple shards, with each shard training a proxy model, then aggregated to form the final model. Additionally, practical analysis of training losses illustrates that the losses for easily memorable images tend to be obviously lower. Thus, we skip the samples with abnormally low loss values from the current mini-batch to avoid memorizing. However, balancing the need to skip memorization-prone samples while maintaining sufficient training data for high-quality image generation presents a key challenge. Thus, we propose IET-AGC+, which redistributes highly memorizable samples between shards, to mitigate these samples from over-skipping. Furthermore, we dynamically augment samples based on their loss values to further reduce memorization. Extensive experiments and analysis on four datasets show that our method successfully reduces memory capacity while maintaining performance. Moreover, we fine-tune the pre-trained diffusion models, e.g., Stable Diffusion, and decrease the memorization score by 46.7\%, demonstrating the effectiveness of our method. Code is available in: https://github.com/liuxiao-guan/IET_AGC.

arxiv情報

著者 Xiaoliu Guan,Yu Wu,Huayang Huang,Xiao Liu,Jiaxu Miao,Yi Yang
発行日 2025-02-13 15:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models はコメントを受け付けていません

Gaussian-Det: Learning Closed-Surface Gaussians for 3D Object Detection

要約

私たちの体の周りに包まれ、ソファの上を覆う革は、車を覆う板金コーティング – オブジェクトが一連の連続表面に囲まれていることを示唆しています。
このホワイトペーパーでは、マルチビューベースの3Dオブジェクト検出の表面表現としてガウスのスプラッティングを活用するガウスデットを提案します。
個別の位置データを介してオブジェクトを描写する既存の単眼またはNERFベースのメソッドとは異なり、ガウスDETは、部分表面の質量の特徴記述子として入力ガウスを策定することにより、オブジェクトを連続的にモデル化します。
さらに、Gaussian Splattingによって本質的に導入された多数の外れ値に対処するために、それに応じて、包括的な表面ベースのオブジェクト性控除のための閉鎖推定モジュール(CIM)を考案します。
CIMは、最初に、ガウスのスプラッティングの不足している性質を考慮して、部分表面の確率的特徴の残差を推定し、その後、オブジェクト提案の全体的な表面閉鎖に関する全体的な表現に合体されます。
このようにして、表面情報ガウス=デットのエクスプロイトは、オブジェクト性の品質と信頼性、および提案の改良の情報の基礎に関する事前の役割を果たします。
合成データセットと現実世界の両方のデータセットでの実験は、ガウスデットが平均精度とリコールの両方の観点から、さまざまな既存のアプローチよりも優れていることを示しています。

要約(オリジナル)

Skins wrapping around our bodies, leathers covering over the sofa, sheet metal coating the car – it suggests that objects are enclosed by a series of continuous surfaces, which provides us with informative geometry prior for objectness deduction. In this paper, we propose Gaussian-Det which leverages Gaussian Splatting as surface representation for multi-view based 3D object detection. Unlike existing monocular or NeRF-based methods which depict the objects via discrete positional data, Gaussian-Det models the objects in a continuous manner by formulating the input Gaussians as feature descriptors on a mass of partial surfaces. Furthermore, to address the numerous outliers inherently introduced by Gaussian splatting, we accordingly devise a Closure Inferring Module (CIM) for the comprehensive surface-based objectness deduction. CIM firstly estimates the probabilistic feature residuals for partial surfaces given the underdetermined nature of Gaussian Splatting, which are then coalesced into a holistic representation on the overall surface closure of the object proposal. In this way, the surface information Gaussian-Det exploits serves as the prior on the quality and reliability of objectness and the information basis of proposal refinement. Experiments on both synthetic and real-world datasets demonstrate that Gaussian-Det outperforms various existing approaches, in terms of both average precision and recall.

arxiv情報

著者 Hongru Yan,Yu Zheng,Yueqi Duan
発行日 2025-02-13 16:06:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Gaussian-Det: Learning Closed-Surface Gaussians for 3D Object Detection はコメントを受け付けていません

On the Importance of Backbone to the Adversarial Robustness of Object Detectors

要約

オブジェクト検出は、自律運転やビデオ監視など、さまざまなセキュリティに敏感なアプリケーションの重要なコンポーネントです。
ただし、既存のオブジェクト検出器は敵対的な攻撃に対して脆弱であり、信頼性とセキュリティに大きな課題を抱えています。
実験を通じて、最初に、オブジェクト検出器の敵対的な堅牢性を改善することに既存の作業が誤った安全感を与えることがわかりました。
第二に、オブジェクト検出器の敵対的な堅牢性を高めるためには、敵対的に事前に訓練されたバックボーンネットワークが不可欠であることがわかりました。
次に、敵対的に事前に訓練されたバックボーンを備えたオブジェクト検出器の速い敵対的な微調整のためのシンプルで効果的なレシピを提案しました。
オブジェクト検出器の構造を変更することなく、私たちのレシピは、以前の作品よりも大幅に優れた敵対的堅牢性を達成しました。
最後に、レシピで敵対的な堅牢性を改善するためのさまざまな最新のオブジェクト検出器設計の可能性を調査し、興味深い調査結果を実証しました。
私たちの経験的結果は、敵対的に堅牢なオブジェクト検出のための新しいマイルストーンを設定しました。
コードとトレーニングされたチェックポイントは、https://github.com/thu-ml/oddefenseで入手できます。

要約(オリジナル)

Object detection is a critical component of various security-sensitive applications, such as autonomous driving and video surveillance. However, existing object detectors are vulnerable to adversarial attacks, which poses a significant challenge to their reliability and security. Through experiments, first, we found that existing works on improving the adversarial robustness of object detectors give a false sense of security. Second, we found that adversarially pre-trained backbone networks were essential for enhancing the adversarial robustness of object detectors. We then proposed a simple yet effective recipe for fast adversarial fine-tuning on object detectors with adversarially pre-trained backbones. Without any modifications to the structure of object detectors, our recipe achieved significantly better adversarial robustness than previous works. Finally, we explored the potential of different modern object detector designs for improving adversarial robustness with our recipe and demonstrated interesting findings, which inspired us to design state-of-the-art (SOTA) robust detectors. Our empirical results set a new milestone for adversarially robust object detection. Code and trained checkpoints are available at https://github.com/thu-ml/oddefense.

arxiv情報

著者 Xiao Li,Hang Chen,Xiaolin Hu
発行日 2025-02-13 16:11:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG | On the Importance of Backbone to the Adversarial Robustness of Object Detectors はコメントを受け付けていません

Pixel-Level Reasoning Segmentation via Multi-turn Conversations

要約

既存の視覚認識システムは、複雑で明示的なクエリの指示に依存して、一ターンダイアログでの地域レベルのセグメンテーションに焦点を当てています。
このようなシステムは、ピクセルレベルで推論することはできず、相互作用上で変化する動的なユーザーの意図を理解することはできません。
私たちの仕事は、マルチターン会話に基づいて、新しいタスクのセグメンテーション(ピクセルレベルのRS)を紹介することにより、この問題に取り組み、細粒セグメンテーションのためのマルチターンインタラクションを介して進化するユーザーの意図を追跡します。
この新しいタスクのベンチマークを確立するために、マルチターン会話(プリスト)に基づいてピクセルレベルの推論セグメンテーションデータセットを構築します。
プリストに基づいて、マルチターンインタラクティブな推論セグメンテーションフレームワークであるMIRASをさらに提案し、ピクセルレベルのセグメンテーションと堅牢なマルチターン会話理解を統合し、ユーザーの意図に合わせたピクセルグラウンドの説明を生成します。
プリストデータセットとmiRSAフレームワークは、ピクセルレベルの推論セグメンテーションのギャップを埋めます。
プリストデータセットの実験結果は、この方法がセグメンテーションとLLMベースの推論メトリックの観点から現在のセグメンテーション固有のベースラインよりも優れていることを示しています。
コードとデータは、https://github.com/ccccai239/pixelristで入手できます。

要約(オリジナル)

Existing visual perception systems focus on region-level segmentation in single-turn dialogues, relying on complex and explicit query instructions. Such systems cannot reason at the pixel level and comprehend dynamic user intent that changes over interaction. Our work tackles this issue by introducing a novel task, Pixel-level Reasoning Segmentation (Pixel-level RS) based on multi-turn conversations, tracking evolving user intent via multi-turn interactions for fine-grained segmentation. To establish a benchmark for this novel task, we build a Pixel-level ReasonIng Segmentation Dataset Based on Multi-Turn Conversations (PRIST), comprising 24k utterances from 8.3k multi-turn conversational scenarios with segmentation targets. Building on PRIST, we further propose MIRAS, a Multi-turn Interactive ReAsoning Segmentation framework, integrates pixel-level segmentation with robust multi-turn conversation understanding, generating pixel-grounded explanations aligned with user intent. The PRIST dataset and MIRSA framework fill the gap in pixel-level reasoning segmentation. Experimental results on the PRIST dataset demonstrate that our method outperforms current segmentation-specific baselines in terms of segmentation and LLM-based reasoning metrics. The code and data are available at: https://github.com/ccccai239/PixelRIST.

arxiv情報

著者 Dexian Cai,Xiaocui Yang,Yongkang Liu,Daling Wang,Shi Feng,Yifei Zhang,Soujanya Poria
発行日 2025-02-13 16:16:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Pixel-Level Reasoning Segmentation via Multi-turn Conversations はコメントを受け付けていません

4-LEGS: 4D Language Embedded Gaussian Splatting

要約

神経表現の出現は、幅広い3Dシーンをデジタル的に表示するための私たちの手段に革命をもたらし、新しい視野からレンダリングされたフォトリアリスティックな画像の統合を可能にしました。
最近、これらの低レベルの表現をシーン内で具体化した高レベルのセマンティクス理解と接続するためのいくつかの手法が提案されています。
これらの方法は、豊富なセマンティック理解を2D画像から3D表現に向上させ、高次元空間機能を3D空間に蒸留します。
私たちの仕事では、言語を世界の動的なモデリングと結び付けることに興味があります。
3Dガウスのスプラッティングに基づいて、時空間的特徴を4D表現に持ち上げる方法を示します。
これにより、ユーザーがテキストプロンプトからビデオ内のイベントを空間的にローカライズできるインタラクティブなインターフェイスが可能になります。
さまざまなアクションを実行している人や動物の公開3Dビデオデータセットでシステムを示します。

要約(オリジナル)

The emergence of neural representations has revolutionized our means for digitally viewing a wide range of 3D scenes, enabling the synthesis of photorealistic images rendered from novel views. Recently, several techniques have been proposed for connecting these low-level representations with the high-level semantics understanding embodied within the scene. These methods elevate the rich semantic understanding from 2D imagery to 3D representations, distilling high-dimensional spatial features onto 3D space. In our work, we are interested in connecting language with a dynamic modeling of the world. We show how to lift spatio-temporal features to a 4D representation based on 3D Gaussian Splatting. This enables an interactive interface where the user can spatiotemporally localize events in the video from text prompts. We demonstrate our system on public 3D video datasets of people and animals performing various actions.

arxiv情報

著者 Gal Fiebelman,Tamir Cohen,Ayellet Morgenstern,Peter Hedman,Hadar Averbuch-Elor
発行日 2025-02-13 16:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | 4-LEGS: 4D Language Embedded Gaussian Splatting はコメントを受け付けていません

Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes

要約

人間の動き統合における最近の進歩は、人間のシーンの相互作用、移動、人間の相互作用などの特定の種類の動きに焦点を当てていますが、運動タイプの多様な組み合わせを生成できる統一されたシステムが不足しています。
これに応じて、3D空間での人間の動きの生成のための包括的で拡張可能なシステムであるSitcom-Crafterを紹介します。これは、アニメおよびゲームデザイナーのワークフロー効率を高めるために、広範なプロットコンテキストによって導かれます。
このシステムは8つのモジュールで構成されており、そのうち3つはモーション生成専用ですが、残りの5つはモーションシーケンスとシステム機能の一貫した融合を保証する増強モジュールです。
Generationモジュールの中心は、私たちの新しい3Dシーンを意識した人間と人間の相互作用モジュールであり、モーションスペースの周りに暗黙の3D署名距離関数(SDF)ポイントを合成することにより衝突問題に対処し、それによって追加のデータ収集コストなしで人間の衝突を最小限に抑えます。
これを補完すると、私たちの移動と人間のシーン相互作用モジュールは、既存の方法を活用して、システムのモーション生成機能を豊かにします。
増強モジュールには、コマンド生成のためのプロットの理解、さまざまなモーションタイプのシームレスな統合のためのモーション同期、手ポーズの検索、モーションリアリズムを強化し、人間の衝突を防ぐためのモーション衝突修正、視覚的忠実度を確保するための3Dリターゲティングが含まれます。
実験的評価は、高品質で多様な、物理的に現実的な動きを生成するシステムの能力を検証し、創造的なワークフローを進める可能性を強調しています。
プロジェクトページ:https://windvchen.github.io/sitcom-crafter。

要約(オリジナル)

Recent advancements in human motion synthesis have focused on specific types of motions, such as human-scene interaction, locomotion or human-human interaction, however, there is a lack of a unified system capable of generating a diverse combination of motion types. In response, we introduce Sitcom-Crafter, a comprehensive and extendable system for human motion generation in 3D space, which can be guided by extensive plot contexts to enhance workflow efficiency for anime and game designers. The system is comprised of eight modules, three of which are dedicated to motion generation, while the remaining five are augmentation modules that ensure consistent fusion of motion sequences and system functionality. Central to the generation modules is our novel 3D scene-aware human-human interaction module, which addresses collision issues by synthesizing implicit 3D Signed Distance Function (SDF) points around motion spaces, thereby minimizing human-scene collisions without additional data collection costs. Complementing this, our locomotion and human-scene interaction modules leverage existing methods to enrich the system’s motion generation capabilities. Augmentation modules encompass plot comprehension for command generation, motion synchronization for seamless integration of different motion types, hand pose retrieval to enhance motion realism, motion collision revision to prevent human collisions, and 3D retargeting to ensure visual fidelity. Experimental evaluations validate the system’s ability to generate high-quality, diverse, and physically realistic motions, underscoring its potential for advancing creative workflows. Project page: https://windvchen.github.io/Sitcom-Crafter.

arxiv情報

著者 Jianqi Chen,Panwen Hu,Xiaojun Chang,Zhenwei Shi,Michael Kampffmeyer,Xiaodan Liang
発行日 2025-02-13 16:20:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes はコメントを受け付けていません

Metamorphic Testing for Pose Estimation Systems

要約

ポーズ推定システムは、スポーツ分析から家畜ケアまで、さまざまな分野で使用されています。
潜在的な影響を考えると、行動と失敗の可能性を体系的にテストすることが最も重要です。
これは、Oracleの問題と、グラウンドトゥルースキーポイントを構築するために必要なマニュアルラベルの高いコストによる複雑なタスクです。
この問題は、さまざまなアプリケーションが、システムが異なる被験者(たとえば、人間対動物)またはランドマーク(例えば、四肢と全身と顔のみ)に焦点を合わせるためにシステムを必要とするという事実によって悪化しているため、ラベル付けされたテストデータがめったに再利用できません。
これらの問題に対処するために、Met-Poseは、さまざまな状況下でこれらのシステムのパフォーマンスを評価しながら、手動注釈の必要性をバイパスするポーズ推定システムの変成テストフレームワークであると提案します。
したがって、Met-Poseは、ポーズ推定システムのユーザーが、アドホックテストデータセットにラベルを付けることなく、またはアプリケーションドメインに適合しない可能性のある利用可能なデータセットのみに依存することなく、アプリケーションにより密接に関連する条件でシステムを評価できるようになります。
Met-Poseを一般的な用語で定義しますが、コンピュータービジョンアプリケーションの共通の課題を表す変態ルールの非網羅的なリストと、これらのルールを評価する特定の方法も提示します。
次に、FLICとPhoenixのデータセットを使用して、最先端の人間のポーズ推定システムであるMediapipe Holisticに適用することにより、Met-Poseの有効性を実験的に示します。
これらの実験により、Met-Poseの出力が、ハンドラベルのデータを使用してクラシックテストと同様または高いレートでポーズ推定システムの障害を明らかにし、ユーザーが使用するルールセットを調整できることを示す多くの方法を概説します。
アプリケーションに関連する障害と精度のレベル。

要約(オリジナル)

Pose estimation systems are used in a variety of fields, from sports analytics to livestock care. Given their potential impact, it is paramount to systematically test their behaviour and potential for failure. This is a complex task due to the oracle problem and the high cost of manual labelling necessary to build ground truth keypoints. This problem is exacerbated by the fact that different applications require systems to focus on different subjects (e.g., human versus animal) or landmarks (e.g., only extremities versus whole body and face), which makes labelled test data rarely reusable. To combat these problems we propose MET-POSE, a metamorphic testing framework for pose estimation systems that bypasses the need for manual annotation while assessing the performance of these systems under different circumstances. MET-POSE thus allows users of pose estimation systems to assess the systems in conditions that more closely relate to their application without having to label an ad-hoc test dataset or rely only on available datasets, which may not be adapted to their application domain. While we define MET-POSE in general terms, we also present a non-exhaustive list of metamorphic rules that represent common challenges in computer vision applications, as well as a specific way to evaluate these rules. We then experimentally show the effectiveness of MET-POSE by applying it to Mediapipe Holistic, a state of the art human pose estimation system, with the FLIC and PHOENIX datasets. With these experiments, we outline numerous ways in which the outputs of MET-POSE can uncover faults in pose estimation systems at a similar or higher rate than classic testing using hand labelled data, and show that users can tailor the rule set they use to the faults and level of accuracy relevant to their application.

arxiv情報

著者 Matias Duran,Thomas Laurent,Ellen Rushe,Anthony Ventresque
発行日 2025-02-13 16:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SE | Metamorphic Testing for Pose Estimation Systems はコメントを受け付けていません

ArthroPhase: A Novel Dataset and Method for Phase Recognition in Arthroscopic Video

要約

この研究の目的は、最初の関節鏡検査データセットを導入し、新しいトランスベースのモデルを開発することにより、関節鏡視鏡手術、特に前十字靭帯(ACL)再構築における外科期認識を前進させることです。
私たちは、限られた視野、閉塞、視覚的歪みを含む関節鏡ビデオの特定の課題に対処するために、時空間的特徴を活用することにより、関節鏡部の外科期認識のベンチマークを確立することを目指しています。
ACL27データセットを開発しました。これは、それぞれが手術段階でラベル付けされたACL手術の27のビデオで構成されています。
私たちのモデルでは、トランスベースのアーキテクチャを採用しており、resNet-50およびトランス層を介した一時的なフレームごとの特徴抽出を利用しています。
このアプローチは、時空間的特徴を統合し、外科的進行指数(SPI)を導入して手術の進行を定量化します。
モデルのパフォーマンスは、ACL27およびCHOLEC80データセットの精度、精度、リコール、およびJaccardインデックスを使用して評価されました。
提案されたモデルは、ACL27データセットで72.91%の全体的な精度を達成しました。
CHOLEC80データセットでは、モデルは92.4%の精度で最先端の方法で同等のパフォーマンスを達成しました。
SPIは、それぞれACL27およびCHOLEC80データセットで10.6%と9.86%の出力誤差を示し、信頼できる手術の進行推定を示しています。
この研究では、関節鏡検査の外科期認識の大幅な進歩を導入し、包括的なデータセットと堅牢なトランスベースのモデルを提供します。
結果は、モデルの有効性と一般化可能性を検証し、外科的訓練、リアルタイム支援、および整形外科手術の運用効率を改善する可能性を強調しています。
公開されているデータセットとコードは、この重要な分野での将来の研究開発を促進します。

要約(オリジナル)

This study aims to advance surgical phase recognition in arthroscopic procedures, specifically Anterior Cruciate Ligament (ACL) reconstruction, by introducing the first arthroscopy dataset and developing a novel transformer-based model. We aim to establish a benchmark for arthroscopic surgical phase recognition by leveraging spatio-temporal features to address the specific challenges of arthroscopic videos including limited field of view, occlusions, and visual distortions. We developed the ACL27 dataset, comprising 27 videos of ACL surgeries, each labeled with surgical phases. Our model employs a transformer-based architecture, utilizing temporal-aware frame-wise feature extraction through a ResNet-50 and transformer layers. This approach integrates spatio-temporal features and introduces a Surgical Progress Index (SPI) to quantify surgery progression. The model’s performance was evaluated using accuracy, precision, recall, and Jaccard Index on the ACL27 and Cholec80 datasets. The proposed model achieved an overall accuracy of 72.91% on the ACL27 dataset. On the Cholec80 dataset, the model achieved a comparable performance with the state-of-the-art methods with an accuracy of 92.4%. The SPI demonstrated an output error of 10.6% and 9.86% on ACL27 and Cholec80 datasets respectively, indicating reliable surgery progression estimation. This study introduces a significant advancement in surgical phase recognition for arthroscopy, providing a comprehensive dataset and a robust transformer-based model. The results validate the model’s effectiveness and generalizability, highlighting its potential to improve surgical training, real-time assistance, and operational efficiency in orthopedic surgery. The publicly available dataset and code will facilitate future research and development in this critical field.

arxiv情報

著者 Ali Bahari Malayeri,Matthias Seibold,Nicola Cavalcanti,Jonas Hein,Sascha Jecklin,Lazaros Vlachopoulos,Sandro Fucentese,Sandro Hodel,Philipp Furnstahl
発行日 2025-02-13 16:32:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ArthroPhase: A Novel Dataset and Method for Phase Recognition in Arthroscopic Video はコメントを受け付けていません

Wholly-WOOD: Wholly Leveraging Diversified-quality Labels for Weakly-supervised Oriented Object Detection

要約

コンパクトな回転境界ボックス(Rbox)を使用した視覚オブジェクトの方向を正確に推定することが顕著な需要になり、水平境界ボックス(Hbox)のみを使用する既存のオブジェクト検出パラダイムに挑戦します。
検出器に方向認識を装備するために、監視された回帰/分類モジュールが高度なローテーション注釈のコストで導入されました。
一方、指向性オブジェクトを備えた既存のデータセットには、すでに水平ボックスまたは単一ポイントが注釈が付けられています。
それは魅力的になりますが、より弱いシングルポイントと水平注釈を効果的に利用して、方向のオブジェクト検出器(OOD)を訓練するためにオープンなままです。
私たちは、統一された方法でさまざまなラベル付けフォーム(ポイント、Hbox、Rbox、およびそれらの組み合わせ)を完全に活用できる完全に監視されているOODフレームワークである完全な木材を開発します。
トレーニングにHboxのみを使用することで、当社のWoodは、リモートセンシングやその他の領域でのRboxトレーニングを受けたカウンターパートのパフォーマンスに非常に近いパフォーマンスを実現し、配向オブジェクトの労働集約的な注釈に対する退屈な努力を大幅に削減します。
ソースコードは、https://github.com/visionxlab/whollywood(pytorchベース)およびhttps://github.com/visionxlab/whollywood-jittor(ジッターベース)で入手できます。

要約(オリジナル)

Accurately estimating the orientation of visual objects with compact rotated bounding boxes (RBoxes) has become a prominent demand, which challenges existing object detection paradigms that only use horizontal bounding boxes (HBoxes). To equip the detectors with orientation awareness, supervised regression/classification modules have been introduced at the high cost of rotation annotation. Meanwhile, some existing datasets with oriented objects are already annotated with horizontal boxes or even single points. It becomes attractive yet remains open for effectively utilizing weaker single point and horizontal annotations to train an oriented object detector (OOD). We develop Wholly-WOOD, a weakly-supervised OOD framework, capable of wholly leveraging various labeling forms (Points, HBoxes, RBoxes, and their combination) in a unified fashion. By only using HBox for training, our Wholly-WOOD achieves performance very close to that of the RBox-trained counterpart on remote sensing and other areas, significantly reducing the tedious efforts on labor-intensive annotation for oriented objects. The source codes are available at https://github.com/VisionXLab/whollywood (PyTorch-based) and https://github.com/VisionXLab/whollywood-jittor (Jittor-based).

arxiv情報

著者 Yi Yu,Xue Yang,Yansheng Li,Zhenjun Han,Feipeng Da,Junchi Yan
発行日 2025-02-13 16:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Wholly-WOOD: Wholly Leveraging Diversified-quality Labels for Weakly-supervised Oriented Object Detection はコメントを受け付けていません