投稿者「jarxiv」のアーカイブ

Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap

投稿日: 2025年6月11日作成者: jarxiv

要約ドメイン一般化（DG）は、共有ラベルスペースの仮定の下で、1つ以上のソース … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions

投稿日: 2025年6月11日作成者: jarxiv

要約ビジョン言語モデル（VLMS）の最近の研究は、蒸留と強化学習を通じて、言語 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities

投稿日: 2025年6月11日作成者: jarxiv

要約マルチモーダルの大手言語モデル（MLLMS）が進むにつれて、MLLMベース … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SSS: Semi-Supervised SAM-2 with Efficient Prompting for Medical Imaging Segmentation

投稿日: 2025年6月11日作成者: jarxiv

要約情報爆発の時代において、高品質のピクセルレベルの注釈への依存を最小限に抑え … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF

投稿日: 2025年6月11日作成者: jarxiv

要約 Vision Transformers（VITS）は、顔や身体認識など、幅 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Segment Concealed Objects with Incomplete Supervision

投稿日: 2025年6月11日作成者: jarxiv

要約不完全に監視されている隠されたオブジェクトセグメンテーション（ISCOS） … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Data Augmentation For Small Object using Fast AutoAugment

投稿日: 2025年6月11日作成者: jarxiv

要約近年、オブジェクト検出パフォーマンスには大きな進歩があります。ただし、こ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion

投稿日: 2025年6月11日作成者: jarxiv

要約モーションスタイルの転送は、コンピュータービジョンの分野における重要な研究 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ORIDa: Object-centric Real-world Image Composition Dataset

投稿日: 2025年6月11日作成者: jarxiv

要約オブジェクトの合成、多様な視覚シーンの画像にオブジェクトを配置および調和さ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ADAM: Autonomous Discovery and Annotation Model using LLMs for Context-Aware Annotations

投稿日: 2025年6月11日作成者: jarxiv

要約オブジェクト検出モデルは通常、事前定義されたカテゴリに依存しており、オープ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap

Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions

What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities

SSS: Semi-Supervised SAM-2 with Efficient Prompting for Medical Imaging Segmentation

Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF

Segment Concealed Objects with Incomplete Supervision

Data Augmentation For Small Object using Fast AutoAugment

SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion

ORIDa: Object-centric Real-world Image Composition Dataset

ADAM: Autonomous Discovery and Annotation Model using LLMs for Context-Aware Annotations

最近の投稿

最近のコメント

アーカイブ

カテゴリー