月別アーカイブ: 2025年2月

PoGDiff: Product-of-Gaussians Diffusion Models for Imbalanced Text-to-Image Generation

要約 拡散モデルは、近年大きな進歩を遂げています。 ただし、不均衡なデータセット … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | PoGDiff: Product-of-Gaussians Diffusion Models for Imbalanced Text-to-Image Generation はコメントを受け付けていません

MagicGeo: Training-Free Text-Guided Geometric Diagram Generation

要約 幾何学的図は、数学的および科学的概念を伝える上で重要ですが、従来の図の生成 … 続きを読む

カテゴリー: cs.CV | MagicGeo: Training-Free Text-Guided Geometric Diagram Generation はコメントを受け付けていません

Regularization by Neural Style Transfer for MRI Field-Transfer Reconstruction with Limited Data

要約 MRI再構築における最近の進歩は、深い学習ベースのモデルを通じて顕著な成功 … 続きを読む

カテゴリー: cs.CV, cs.LG, physics.med-ph | Regularization by Neural Style Transfer for MRI Field-Transfer Reconstruction with Limited Data はコメントを受け付けていません

MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection

要約 ビデオカモフラージュオブジェクト検出(VCOD)は、ビデオのバックグラウン … 続きを読む

カテゴリー: cs.CV | MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection はコメントを受け付けていません

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention はコメントを受け付けていません

MEX: Memory-efficient Approach to Referring Multi-Object Tracking

要約 参照マルチオブジェクト追跡(RMOT)は、コンピュータービジョンと自然言語 … 続きを読む

カテゴリー: cs.AI, cs.CV | MEX: Memory-efficient Approach to Referring Multi-Object Tracking はコメントを受け付けていません

Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition

要約 複雑な手術室での外科的処置のワークフローを理解するには、臨床医とその環境間 … 続きを読む

カテゴリー: cs.CV | Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition はコメントを受け付けていません

MetaSSC: Enhancing 3D Semantic Scene Completion for Autonomous Driving through Meta-Learning and Long-sequence Modeling

要約 セマンティックシーンの完了(SSC)は、自律運転システムで包括的な認識を達 … 続きを読む

カテゴリー: cs.AI, cs.CV | MetaSSC: Enhancing 3D Semantic Scene Completion for Autonomous Driving through Meta-Learning and Long-sequence Modeling はコメントを受け付けていません

EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing

要約 拡散トランスは、テキスト間合成に広く採用されています。 これらのモデルを数 … 続きを読む

カテゴリー: cs.CV, cs.LG | EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing はコメントを受け付けていません

NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants

要約 なじみのない環境をナビゲートすることは、家庭用ロボットに大きな課題をもたら … 続きを読む

カテゴリー: cs.CV, cs.RO | NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants はコメントを受け付けていません