投稿者「jarxiv」のアーカイブ

Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap

要約 ドメイン一般化(DG)は、共有ラベルスペースの仮定の下で、1つ以上のソース … 続きを読む

カテゴリー: cs.CV, cs.LG | Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap はコメントを受け付けていません

Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions

要約 ビジョン言語モデル(VLMS)の最近の研究は、蒸留と強化学習を通じて、言語 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions はコメントを受け付けていません

What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities

要約 マルチモーダルの大手言語モデル(MLLMS)が進むにつれて、MLLMベース … 続きを読む

カテゴリー: cs.CV | What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities はコメントを受け付けていません

SSS: Semi-Supervised SAM-2 with Efficient Prompting for Medical Imaging Segmentation

要約 情報爆発の時代において、高品質のピクセルレベルの注釈への依存を最小限に抑え … 続きを読む

カテゴリー: cs.CV | SSS: Semi-Supervised SAM-2 with Efficient Prompting for Medical Imaging Segmentation はコメントを受け付けていません

Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF

要約 Vision Transformers(VITS)は、顔や身体認識など、幅 … 続きを読む

カテゴリー: cs.CV | Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF はコメントを受け付けていません

Segment Concealed Objects with Incomplete Supervision

要約 不完全に監視されている隠されたオブジェクトセグメンテーション(ISCOS) … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Segment Concealed Objects with Incomplete Supervision はコメントを受け付けていません

Data Augmentation For Small Object using Fast AutoAugment

要約 近年、オブジェクト検出パフォーマンスには大きな進歩があります。 ただし、こ … 続きを読む

カテゴリー: cs.CV, cs.LG | Data Augmentation For Small Object using Fast AutoAugment はコメントを受け付けていません

SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion

要約 モーションスタイルの転送は、コンピュータービジョンの分野における重要な研究 … 続きを読む

カテゴリー: cs.CV | SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion はコメントを受け付けていません

ORIDa: Object-centric Real-world Image Composition Dataset

要約 オブジェクトの合成、多様な視覚シーンの画像にオブジェクトを配置および調和さ … 続きを読む

カテゴリー: cs.CV | ORIDa: Object-centric Real-world Image Composition Dataset はコメントを受け付けていません

ADAM: Autonomous Discovery and Annotation Model using LLMs for Context-Aware Annotations

要約 オブジェクト検出モデルは通常、事前定義されたカテゴリに依存しており、オープ … 続きを読む

カテゴリー: cs.CV | ADAM: Autonomous Discovery and Annotation Model using LLMs for Context-Aware Annotations はコメントを受け付けていません