cs.CV」カテゴリーアーカイブ

MEX: Memory-efficient Approach to Referring Multi-Object Tracking

要約 参照マルチオブジェクト追跡(RMOT)は、コンピュータービジョンと自然言語 … 続きを読む

カテゴリー: cs.AI, cs.CV | MEX: Memory-efficient Approach to Referring Multi-Object Tracking はコメントを受け付けていません

Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition

要約 複雑な手術室での外科的処置のワークフローを理解するには、臨床医とその環境間 … 続きを読む

カテゴリー: cs.CV | Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition はコメントを受け付けていません

MetaSSC: Enhancing 3D Semantic Scene Completion for Autonomous Driving through Meta-Learning and Long-sequence Modeling

要約 セマンティックシーンの完了(SSC)は、自律運転システムで包括的な認識を達 … 続きを読む

カテゴリー: cs.AI, cs.CV | MetaSSC: Enhancing 3D Semantic Scene Completion for Autonomous Driving through Meta-Learning and Long-sequence Modeling はコメントを受け付けていません

EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing

要約 拡散トランスは、テキスト間合成に広く採用されています。 これらのモデルを数 … 続きを読む

カテゴリー: cs.CV, cs.LG | EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing はコメントを受け付けていません

NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants

要約 なじみのない環境をナビゲートすることは、家庭用ロボットに大きな課題をもたら … 続きを読む

カテゴリー: cs.CV, cs.RO | NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants はコメントを受け付けていません

Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments

要約 過去数年間、屋内環境のオブジェクトへの視覚的ナビゲーションへの研究の関心は … 続きを読む

カテゴリー: cs.CV, cs.RO | Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments はコメントを受け付けていません

GroundCap: A Visually Grounded Image Captioning Dataset

要約 現在の画像キャプションシステムには、説明テキストを特定の視覚要素にリンクす … 続きを読む

カテゴリー: cs.CL, cs.CV, I.2.10 | GroundCap: A Visually Grounded Image Captioning Dataset はコメントを受け付けていません

Qwen2.5-VL Technical Report

要約 QWEN Vision-Languageシリーズの最新のフラッグシップモデ … 続きを読む

カテゴリー: cs.CL, cs.CV | Qwen2.5-VL Technical Report はコメントを受け付けていません

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

要約 最近の研究では、大きなビジョン言語モデル(VLM)が画像コンテンツを無視し … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images はコメントを受け付けていません

Continually Learning Structured Visual Representations via Network Refinement with Rerelation

要約 現在の機械学習のパラダイムは、問題の構造を直接学習するのではなく、アウトカ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Continually Learning Structured Visual Representations via Network Refinement with Rerelation はコメントを受け付けていません