A Comprehensive Study on Medical Image Segmentation using Deep Neural Networks

要約

過去10年間で、ディープニューラルネットワーク(DNNS)を使用した医療画像セグメンテーション(MIS)は、パフォーマンスの大幅な改善を達成し、将来の開発に大きな期待を抱いています。
この論文では、DNNSに基づくMISに関する包括的な研究を紹介します。
インテリジェントビジョンシステムは、データ、情報、知識、知性、知恵(DIKIW)などの出力レベルに基づいて評価されることがよくあり、これらのレベルでのMISの最先端のソリューションは研究の焦点です。
さらに、説明可能な人工知能(XAI)は、透明性と倫理の要件を満たすために以前のDNNアーキテクチャの「ブラックボックス」の性質を明らかにすることを目的としているため、重要な研究方向になりました。
この研究では、特にタイムリーな診断を通じてがん患者の生存率を高めるため、疾患診断と早期発見におけるMISの重要性を強調しています。
Xaiと初期の予測は、「知性」から「知恵」までの旅における2つの重要なステップと見なされます。
さらに、この論文は、既存の課題に対処し、DNNベースのMISを実装する効率を高めるための潜在的なソリューションを提案しています。

要約(オリジナル)

Over the past decade, Medical Image Segmentation (MIS) using Deep Neural Networks (DNNs) has achieved significant performance improvements and holds great promise for future developments. This paper presents a comprehensive study on MIS based on DNNs. Intelligent Vision Systems are often evaluated based on their output levels, such as Data, Information, Knowledge, Intelligence, and Wisdom (DIKIW),and the state-of-the-art solutions in MIS at these levels are the focus of research. Additionally, Explainable Artificial Intelligence (XAI) has become an important research direction, as it aims to uncover the ‘black box’ nature of previous DNN architectures to meet the requirements of transparency and ethics. The study emphasizes the importance of MIS in disease diagnosis and early detection, particularly for increasing the survival rate of cancer patients through timely diagnosis. XAI and early prediction are considered two important steps in the journey from ‘intelligence’ to ‘wisdom.’ Additionally, the paper addresses existing challenges and proposes potential solutions to enhance the efficiency of implementing DNN-based MIS.

arxiv情報

著者 Loan Dao,Ngoc Quoc Ly
発行日 2025-06-04 16:15:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | A Comprehensive Study on Medical Image Segmentation using Deep Neural Networks はコメントを受け付けていません

Contour Errors: An Ego-Centric Metric for Reliable 3D Multi-Object Tracking

要約

自動運転車などの安全性の高いアプリケーションで、知覚システムの精度と信頼性を確保するために、マルチオブジェクト追跡では信頼できる一致を見つけることが不可欠です。
効果的なマッチングは、知覚エラーを軽減し、オブジェクトの識別を強化し、パフォーマンスと安全性を向上させる追跡を行います。
ただし、2D画像プレーンで効果的な組合(IOU)やセンターポイント距離(CPD)の交差点などの従来の指標は、複雑な3Dシーンで重要な一致を見つけることができないことがよくあります。
この制限に対処するために、機能の観点からシナリオを追跡することに関心のある一致を特定するための自我またはオブジェクト中心のメトリックである輪郭エラー(CES)を導入します。
エゴ車両のフレーム内の境界ボックスを比較することにより、等高線エラーはオブジェクトマッチのより機能的に関連する評価を提供します。
Nuscenesデータセットでの広範な実験は、輪郭エラーが、最先端の2D IOUおよびCPDメトリックにおける一致の信頼性を、追跡ごとの方法に改善することを示しています。
3Dカートラッキングでは、輪郭エラーが、評価段階のIOUと比較して、閉鎖範囲で機能障害(FPS/FNS)を80%、遠い範囲で60%減少させることを示しています。

要約(オリジナル)

Finding reliable matches is essential in multi-object tracking to ensure the accuracy and reliability of perception systems in safety-critical applications such as autonomous vehicles. Effective matching mitigates perception errors, enhancing object identification and tracking for improved performance and safety. However, traditional metrics such as Intersection over Union (IoU) and Center Point Distances (CPDs), which are effective in 2D image planes, often fail to find critical matches in complex 3D scenes. To address this limitation, we introduce Contour Errors (CEs), an ego or object-centric metric for identifying matches of interest in tracking scenarios from a functional perspective. By comparing bounding boxes in the ego vehicle’s frame, contour errors provide a more functionally relevant assessment of object matches. Extensive experiments on the nuScenes dataset demonstrate that contour errors improve the reliability of matches over the state-of-the-art 2D IoU and CPD metrics in tracking-by-detection methods. In 3D car tracking, our results show that Contour Errors reduce functional failures (FPs/FNs) by 80% at close ranges and 60% at far ranges compared to IoU in the evaluation stage.

arxiv情報

著者 Sharang Kaul,Mario Berk,Thiemo Gerbich,Abhinav Valada
発行日 2025-06-04 16:15:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Contour Errors: An Ego-Centric Metric for Reliable 3D Multi-Object Tracking はコメントを受け付けていません

Recent Advances in Medical Image Classification

要約

医療画像の分類は、診断と治療のために重要であり、人工知能の進歩から大きな恩恵を受けています。
このペーパーでは、最近のフィールドの進捗状況をレビューし、基本、具体的、適用される3つのレベルのソリューションに焦点を当てています。
畳み込みニューラルネットワークやビジョン変圧器などの深い学習モデルを使用して、ビジョン言語モデルを使用した最先端のアプローチを使用して、従来の方法の進歩を強調しています。
これらのモデルは、限られたラベル付きデータの問題に取り組み、説明可能な人工知能を通じて予測結果を強化および説明します。

要約(オリジナル)

Medical image classification is crucial for diagnosis and treatment, benefiting significantly from advancements in artificial intelligence. The paper reviews recent progress in the field, focusing on three levels of solutions: basic, specific, and applied. It highlights advances in traditional methods using deep learning models like Convolutional Neural Networks and Vision Transformers, as well as state-of-the-art approaches with Vision Language Models. These models tackle the issue of limited labeled data, and enhance and explain predictive results through Explainable Artificial Intelligence.

arxiv情報

著者 Loan Dao,Ngoc Quoc Ly
発行日 2025-06-04 16:20:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Recent Advances in Medical Image Classification はコメントを受け付けていません

MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

要約

IQテストは、人間の認知能力を評価し、言語の背景、言語能力、またはドメイン固有の知識からの意図的に分離評価を評価するための基本的な方法論として機能し、抽象化と推論におけるコアコンピテンシーを分離します。
しかし、人工知能の研究には現在、マルチモーダルシステムにおけるこれらの重要な認知能力を定量化するための体系的なベンチマークがありません。
この重要なギャップに対処するために、包括的な評価フレームワークであるMM-IQを提案します。これは、4,776の視覚的推論問題と、8個の異なる推論パラダイムにまたがる2,710の細心のキュレーションテスト項目を備えた大規模なトレーニングセットを構成します。
既存のオープンソースと独自のマルチモーダルモデルの体系的な評価を通じて、当社のベンチマークは顕著な制限を明らかにしています。最先端のアーキテクチャでさえ、ランダムなチャンスよりもわずかに優れたパフォーマンスのみを達成します(33.17%対25%のベースライン精度)。
この実質的なパフォーマンスの割れ目は、基本的な人間の推論能力を近似する際の現在のマルチモーダルモデルの不十分さを強調し、この認知的格差を埋めるためのパラダイムシフトの進歩の必要性を強調しています。
さらに、最近の大規模な推論モデルの急増に触発されて、検証可能な報酬機能を備えた補強学習を介して訓練されたベースラインとしてマルチモーダル推論モデルをリリースし、モデルサイズが顕著で最先端のパフォーマンスに達します。

要約(オリジナル)

IQ testing has served as a foundational methodology for evaluating human cognitive capabilities, deliberately decoupling assessment from linguistic background, language proficiency, or domain-specific knowledge to isolate core competencies in abstraction and reasoning. Yet, artificial intelligence research currently lacks systematic benchmarks to quantify these critical cognitive capabilities in multimodal systems. To address this crucial gap, we propose MM-IQ, a comprehensive evaluation framework, which comprises a large-scale training set with 4,776 visual reasoning problems and 2,710 meticulously curated test items spanning 8 distinct reasoning paradigms. Through systematic evaluation of existing open-source and proprietary multimodal models, our benchmark reveals striking limitations: even state-of-the-art architectures achieve only marginally superior performance to random chance (33.17% vs. 25% baseline accuracy). This substantial performance chasm highlights the inadequacy of current multimodal models in approximating fundamental human reasoning capacities, underscoring the need for paradigm-shifting advancements to bridge this cognitive divide. Moreover, inspired by the recent surge of large reasoning models, we also release a multimodal reasoning model as the baseline that is trained via reinforcement learning with verifiable reward functions, reaching competitive performance to the state-of-the-art with a notably smaller model size.

arxiv情報

著者 Huanqia Cai,Yijun Yang,Winston Hu
発行日 2025-06-04 16:20:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models はコメントを受け付けていません

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

要約

手がかりのスピーチ(CS)は、ハンドコーディングを通じてリップリーディングを強化し、聴覚障害者の正確な音声認識サポートを提供します。
CS Video-to-Speech Generation(CSV2S)タスクは、聴覚障害者のCS視覚表現(CSビデオ)を理解できる音声信号に変換することを目的としています。
CSビデオ(シングルCSV2Sと呼ばれる)からの直接生成の発生により、CSデータが不十分なため、パフォーマンスが低下します。
現在の研究は、主にビデオコンテンツを言語テキストに変換するCS認識(CSR)に焦点を当てています。
これに基づいて、CSV2Sの簡単な方法の1つは、CSRとテキストへのスピーチシステムを組み合わせることです。
この組み合わせたアーキテクチャは、段階的なクロスモーダルアライメントの中間媒体としてテキストに依存しており、エラーの伝播と音声ダイナミクスの間の時間的な不整列につながる可能性があります。
これらの課題に対処するために、中間テキストに依存せずにCSビデオからスピーチを直接生成する新しいアプローチを提案します。
これに基づいて、CSV2Sの最初の統一されたフレームワークであるUniCueを提案します。そのコアイノベーションは、CSビデオからの音声生成を促進するための微細な視覚的なセマンチックな情報を提供するCSRタスクの統合にあります。
より正確には、(1)視覚的特徴と音声コンテンツの間の正確なマッピングを確保するための新しい細粒のセマンティックアライメントプール。
(2)クロスタスク表現をブリッジする視覚志向のアダプターで、2つの異なるタスク(つまり、CSV2SおよびCSR)間のシームレスな互換性を確保します。
(3)CSビデオの唇と手の動きの間のきめ細かい時空間相関を強化するために、ポーズ認識のビジュアルプロセッサが導入されています。
新しい確立された中国のCSデータセット(14 CUERS1:8の聴覚障害と6回の正常耳)の実験は、単一のCSV2Sと比較して、単一症状が単語エラー率を78.3%削減し、唇の同期を32%改善することを示しています。

要約(オリジナル)

Cued Speech (CS) enhances lipreading through hand coding, providing precise speech perception support for the hearing-impaired. CS Video-to-Speech generation (CSV2S) task aims to convert the CS visual expressions (CS videos) of hearing-impaired individuals into comprehensible speech signals. Direct generation of speech from CS video (called single CSV2S) yields poor performance due to insufficient CS data. Current research mostly focuses on CS Recognition (CSR), which convert video content into linguistic text. Based on this, one straightforward way of CSV2S is to combine CSR with a Text-to-Speech system. This combined architecture relies on text as an intermediate medium for stepwise cross-modal alignment, which may lead to error propagation and temporal misalignment between speech and video dynamics. To address these challenges, we propose a novel approach that directly generates speech from CS videos without relying on intermediate text. Building upon this, we propose UniCUE, the first unified framework for CSV2S, whose core innovation lies in the integration of the CSR task that provides fine-grained visual-semantic information to facilitate speech generation from CS videos. More precisely, (1) a novel fine-grained semantic alignment pool to ensure precise mapping between visual features and speech contents; (2) a VisioPhonetic adapter to bridge cross-task representations, ensuring seamless compatibility between two distinct tasks (i.e., CSV2S and CSR); (3) a pose-aware visual processor is introduced to enhance fine-grained spatiotemporal correlations between lip and hand movements in CS video. Experiments on our new established Chinese CS dataset (14 cuers1: 8 hearing-impaired and 6 normal-hearing) show that our UniCUE significantly reduces Word Error Rate by 78.3% and improves lip-speech synchronization by 32% compared to the single CSV2S.

arxiv情報

著者 Jinting Wang,Shan Yang,Li Liu
発行日 2025-06-04 16:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation はコメントを受け付けていません

MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

要約

ビデオのシーケンシャル構造は、マルチフレームの証拠を見つけてマルチモーダルの推論を実施するためのマルチモーダル大手言語モデル(MLLM)の能力に挑戦します。
ただし、既存のビデオベンチマークは、主にタスクの理解に焦点を当てています。タスクは、質問(以下「質問フレーム」と呼ばれる)に記載されているフレームを一致させ、隣接するフレームをいくつか知覚するためにモデルのみを必要とします。
このギャップに対処するために、MMR-V:ビデオのマルチモーダルの深い推論のベンチマークを提案します。
ベンチマークは、次の機能によって特徴付けられます。
(1)長距離のマルチフレーム推論:モデルは、質問フレームからはほど遠い可能性のある証拠フレームを推測および分析するために必要です。
(2)認識を超えて:質問は直接的な認識だけで答えることはできませんが、隠された情報に対する推論が必要です。
(3)信頼性:すべてのタスクは手動で注釈が付けられ、一般的な認識に合わせて広範な現実世界のユーザーの理解を参照しています。
(4)混乱性:モデルショートカットを削減するために、注意深くデザインされたディストラクタ注釈戦略。
MMR-Vは、317のビデオと1,257のタスクで構成されています。
私たちの実験は、現在のモデルが依然としてマルチモーダルの推論に苦しんでいることを明らかにしています。
最高のパフォーマンスモデルであるO4-Miniでさえ、52.5%の精度しか達成されません。
さらに、現在の推論強化戦略(考え方とスケーリングのテスト時間計算)が限られた利益をもたらします。
さらなる分析では、マルチモーダル推論に対して要求されたCOTがテキストの推論においてそれとは異なることを示しています。これは、限られたパフォーマンスの向上を部分的に説明しています。
MMR-Vが、マルチモーダル推論機能の強化に関するさらなる研究を促すことができることを願っています。

要約(オリジナル)

The sequential structure of videos poses a challenge to the ability of multimodal large language models (MLLMs) to locate multi-frame evidence and conduct multimodal reasoning. However, existing video benchmarks mainly focus on understanding tasks, which only require models to match frames mentioned in the question (hereafter referred to as ‘question frame’) and perceive a few adjacent frames. To address this gap, we propose MMR-V: A Benchmark for Multimodal Deep Reasoning in Videos. The benchmark is characterized by the following features. (1) Long-range, multi-frame reasoning: Models are required to infer and analyze evidence frames that may be far from the question frame. (2) Beyond perception: Questions cannot be answered through direct perception alone but require reasoning over hidden information. (3) Reliability: All tasks are manually annotated, referencing extensive real-world user understanding to align with common perceptions. (4) Confusability: Carefully designed distractor annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos and 1,257 tasks. Our experiments reveal that current models still struggle with multi-modal reasoning; even the best-performing model, o4-mini, achieves only 52.5% accuracy. Additionally, current reasoning enhancement strategies (Chain-of-Thought and scaling test-time compute) bring limited gains. Further analysis indicates that the CoT demanded for multi-modal reasoning differs from it in textual reasoning, which partly explains the limited performance gains. We hope that MMR-V can inspire further research into enhancing multi-modal reasoning capabilities.

arxiv情報

著者 Kejian Zhu,Zhuoran Jin,Hongbang Yuan,Jiachun Li,Shangqing Tu,Pengfei Cao,Yubo Chen,Kang Liu,Jun Zhao
発行日 2025-06-04 16:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos はコメントを受け付けていません

Person Re-Identification System at Semantic Level based on Pedestrian Attributes Ontology

要約

人の再識別(REID)は、人々の追跡、公共の場所で人を見つけたり、スーパーマーケットで顧客の行動を分析するなどのビデオ監視システムで非常に重要なタスクです。
この問題を解決するための多くの作業はありましたが、大規模なデータセット、不均衡なデータ、視点、細かい粒子データ(属性)などの課題はまだ残っていますが、ローカル機能はREIDタスクのオンライン段階でセマンティックレベルで採用されていません。さらに、属性の不均衡なデータの問題は考慮されていません。
このペーパーでは、統一されたReidシステムは、歩行者属性オントロジー(PAO)、ローカルマルチタスクDCNN(ローカルMDCNN)、不均衡データソルバー(IDS)などの3つの主要なモジュールで構成されています。
REIDシステムの新しい主要なポイントは、PAO、ローカルMDCNN、およびIDの相互支援の力であり、属性の内部グループ相関を活用し、ファッション属性と顔の属性としてセット情報に基づいてセットセットからギャラリーの候補を事前にフィルターし、ネットワークアーキテクチャを調整せずに属性を調整することなく属性の不均衡なデータを解決します。
よく知られているMarket1501データセットで実験しました。
実験結果は、REIDシステムの有効性を示しており、一部の最先端のREIDメソッドと比較して、Market1501データセットでより高いパフォーマンスを達成できます。

要約(オリジナル)

Person Re-Identification (Re-ID) is a very important task in video surveillance systems such as tracking people, finding people in public places, or analysing customer behavior in supermarkets. Although there have been many works to solve this problem, there are still remaining challenges such as large-scale datasets, imbalanced data, viewpoint, fine grained data (attributes), the Local Features are not employed at semantic level in online stage of Re-ID task, furthermore, the imbalanced data problem of attributes are not taken into consideration. This paper has proposed a Unified Re-ID system consisted of three main modules such as Pedestrian Attribute Ontology (PAO), Local Multi-task DCNN (Local MDCNN), Imbalance Data Solver (IDS). The new main point of our Re-ID system is the power of mutual support of PAO, Local MDCNN and IDS to exploit the inner-group correlations of attributes and pre-filter the mismatch candidates from Gallery set based on semantic information as Fashion Attributes and Facial Attributes, to solve the imbalanced data of attributes without adjusting network architecture and data augmentation. We experimented on the well-known Market1501 dataset. The experimental results have shown the effectiveness of our Re-ID system and it could achieve the higher performance on Market1501 dataset in comparison to some state-of-the-art Re-ID methods.

arxiv情報

著者 Ngoc Q. Ly,Hieu N. M. Cao,Thi T. Nguyen
発行日 2025-06-04 16:34:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Person Re-Identification System at Semantic Level based on Pedestrian Attributes Ontology はコメントを受け付けていません

Rapid Bone Scintigraphy Enhancement via Semantic Prior Distillation from Segment Anything Model

要約

急速な骨シンチグラフィは、骨格障害の診断と子供の腫瘍転移を検出するために重要です。スキャン期間を短縮し、不快感を軽減するためです。
しかし、加速した獲得はしばしば画質を低下させ、細かい解剖学的詳細の可視性を損ない、潜在的に診断を妥協する可能性があります。
この制限を克服するために、医療画像修復のためのSAMベースのセマンティックプライアーの最初のアプリケーションを導入します。
私たちのアプローチでは、2つのカスケードネットワーク、$ f^{ir1} $と$ f^{ir2} $を採用しています。これは、3つの専門モジュールでサポートされています。セマンティック事前統合(SPI)モジュール、セマンティックナレッジ蒸留(SKD)モジュール、およびセマンティックコンシステンシーモジュール(SCM)です。
SPIおよびSKDモジュールは、微調整されたSAMからドメイン固有のセマンティックキューを注入しますが、SCMは両方のカスケード段階でコヒーレントセマンティック特徴表現を保持します。
さらに、0.5〜16歳の137人の小児患者からのペア標準(20 cm/min)および迅速な(40 cm/min)スキャンを含む新しい急速な骨シンチグラフィーデータセットであるRBSを紹介します。
公共内視鏡データセットとRBSデータセットの両方での広範な実験は、私たちの方法がPSNR、SSIM、FID、およびLPIPSメトリックの既存の手法を常に上回っていることを示しています。

要約(オリジナル)

Rapid bone scintigraphy is crucial for diagnosing skeletal disorders and detecting tumor metastases in children, as it shortens scan duration and reduces discomfort. However, accelerated acquisition often degrades image quality, impairing the visibility of fine anatomical details and potentially compromising diagnosis. To overcome this limitation, we introduce the first application of SAM-based semantic priors for medical image restoration, utilizing the Segment Anything Model (SAM) to enhance pediatric rapid bone scintigraphy. Our approach employs two cascaded networks, $f^{IR1}$ and $f^{IR2}$, supported by three specialized modules: a Semantic Prior Integration (SPI) module, a Semantic Knowledge Distillation (SKD) module, and a Semantic Consistency Module (SCM). The SPI and SKD modules inject domain-specific semantic cues from a fine-tuned SAM, while the SCM preserves coherent semantic feature representations across both cascaded stages. Moreover, we present RBS, a novel Rapid Bone Scintigraphy dataset comprising paired standard (20 cm/min) and rapid (40 cm/min) scans from 137 pediatric patients aged 0.5 – 16 years, making it the first dataset tailored for pediatric rapid bone scintigraphy restoration. Extensive experiments on both a public endoscopic dataset and our RBS dataset demonstrate that our method consistently surpasses existing techniques in PSNR, SSIM, FID, and LPIPS metrics.

arxiv情報

著者 Pengchen Liang,Leijun Shi,Huiping Yao,Bin Pu,Jianguo Chen,Lei Zhao,Haishan Huang,Zhuangzhuang Chen,Zhaozhao Xu,Lite Xu,Qing Chang,Yiwei Li
発行日 2025-06-04 16:45:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Rapid Bone Scintigraphy Enhancement via Semantic Prior Distillation from Segment Anything Model はコメントを受け付けていません

EnergyMoGen: Compositional Human Motion Generation with Energy-Based Diffusion Model in Latent Space

要約

拡散モデル、特に潜在的な拡散モデルは、テキスト駆動型の人間の運動生成において顕著な成功を示しています。
ただし、潜在的な拡散モデルが複数のセマンティック概念を単一のコヒーレントモーションシーケンスに効果的に構成することは困難なままです。
この問題に対処するために、2つのスペクトルのエネルギーベースモデルを含むエネルギーゲンを提案します。(1)拡散モデルを、潜在空間で一連の拡散モデルを構成することにより動作を生成する潜在的なエネルギーベースのモデルとして解釈します。
(2)クロスアテナンスに基づいたセマンティックアウェアエネルギーモデルを導入します。これにより、テキストの埋め込みのセマンティック構成と適応勾配降下が可能になります。
これら2つのスペクトルにわたるセマンティックな矛盾と運動の歪みの課題を克服するために、相乗的エネルギー融合を導入します。
この設計により、動きの潜在拡散モデルは、テキストの説明に対応する複数のエネルギー項を組み合わせることにより、高品質の複雑な動きを合成することができます。
実験は、私たちのアプローチが、テキストから運動の生成、構成モーション生成、マルチコンセプトモーション生成など、さまざまなモーション生成タスクの既存の最先端モデルを上回ることを示しています。
さらに、モーションデータセットを拡張し、テキストからモーションへのタスクを改善するために、この方法を使用できることを実証します。

要約(オリジナル)

Diffusion models, particularly latent diffusion models, have demonstrated remarkable success in text-driven human motion generation. However, it remains challenging for latent diffusion models to effectively compose multiple semantic concepts into a single, coherent motion sequence. To address this issue, we propose EnergyMoGen, which includes two spectrums of Energy-Based Models: (1) We interpret the diffusion model as a latent-aware energy-based model that generates motions by composing a set of diffusion models in latent space; (2) We introduce a semantic-aware energy model based on cross-attention, which enables semantic composition and adaptive gradient descent for text embeddings. To overcome the challenges of semantic inconsistency and motion distortion across these two spectrums, we introduce Synergistic Energy Fusion. This design allows the motion latent diffusion model to synthesize high-quality, complex motions by combining multiple energy terms corresponding to textual descriptions. Experiments show that our approach outperforms existing state-of-the-art models on various motion generation tasks, including text-to-motion generation, compositional motion generation, and multi-concept motion generation. Additionally, we demonstrate that our method can be used to extend motion datasets and improve the text-to-motion task.

arxiv情報

著者 Jianrong Zhang,Hehe Fan,Yi Yang
発行日 2025-06-04 16:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EnergyMoGen: Compositional Human Motion Generation with Energy-Based Diffusion Model in Latent Space はコメントを受け付けていません

Generalized Diffusion Detector: Mining Robust Features from Diffusion Models for Domain-Generalized Detection

要約

オブジェクト検出のドメイン一般化(DG)は、目に見えないシナリオでの検出器のパフォーマンスを向上させることを目的としています。
このタスクは、実際のアプリケーションの複雑な変動のために依然として困難です。
最近、拡散モデルは、多様なシーン生成において顕著な能力を実証しており、DGタスクを改善する可能性を探求するように促しています。
画像を生成する代わりに、拡散プロセス中にマルチステップ中間特徴を抽出して、一般化された検出のためのドメイン不変機能を取得します。
さらに、検出器が推論時間を増やすことなく、特徴とオブジェクトレベルのアライメントを通じて拡散モデルの一般化能力を継承できるようにする効率的な知識伝達フレームワークを提案します。
6つの挑戦的なDGベンチマークで広範な実験を行います。
結果は、私たちの方法が、異なるドメインと腐敗タイプにわたる既存のDGアプローチよりも14.0%のマップの大幅な改善を達成することを示しています。
特に、この方法は、ターゲットドメインデータにアクセスすることなく、ほとんどのドメイン適応方法よりも優れています。
さらに、拡散誘導検出器は、ベースラインと比較して平均して15.9%マップの一貫した改善を示しています。
私たちの仕事の目的は、ドメインジェネラル化検出のための効果的なアプローチを提示し、実際のシナリオで堅牢な視覚認識の潜在的な洞察を提供することです。
このコードは、https://github.com/heboyong/generalized-diffusion-detectorで入手できます。

要約(オリジナル)

Domain generalization (DG) for object detection aims to enhance detectors’ performance in unseen scenarios. This task remains challenging due to complex variations in real-world applications. Recently, diffusion models have demonstrated remarkable capabilities in diverse scene generation, which inspires us to explore their potential for improving DG tasks. Instead of generating images, our method extracts multi-step intermediate features during the diffusion process to obtain domain-invariant features for generalized detection. Furthermore, we propose an efficient knowledge transfer framework that enables detectors to inherit the generalization capabilities of diffusion models through feature and object-level alignment, without increasing inference time. We conduct extensive experiments on six challenging DG benchmarks. The results demonstrate that our method achieves substantial improvements of 14.0% mAP over existing DG approaches across different domains and corruption types. Notably, our method even outperforms most domain adaptation methods without accessing any target domain data. Moreover, the diffusion-guided detectors show consistent improvements of 15.9% mAP on average compared to the baseline. Our work aims to present an effective approach for domain-generalized detection and provide potential insights for robust visual recognition in real-world scenarios. The code is available at https://github.com/heboyong/Generalized-Diffusion-Detector.

arxiv情報

著者 Boyong He,Yuxiang Ji,Qianwen Ye,Zhuoyue Tan,Liaoni Wu
発行日 2025-06-04 16:55:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Generalized Diffusion Detector: Mining Robust Features from Diffusion Models for Domain-Generalized Detection はコメントを受け付けていません