「cs.CV」カテゴリーアーカイブ

MEX: Memory-efficient Approach to Referring Multi-Object Tracking

投稿日: 2025年2月20日作成者: jarxiv

要約参照マルチオブジェクト追跡（RMOT）は、コンピュータービジョンと自然言語 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition

投稿日: 2025年2月20日作成者: jarxiv

要約複雑な手術室での外科的処置のワークフローを理解するには、臨床医とその環境間 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MetaSSC: Enhancing 3D Semantic Scene Completion for Autonomous Driving through Meta-Learning and Long-sequence Modeling

投稿日: 2025年2月20日作成者: jarxiv

要約セマンティックシーンの完了（SSC）は、自律運転システムで包括的な認識を達 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing

投稿日: 2025年2月20日作成者: jarxiv

要約拡散トランスは、テキスト間合成に広く採用されています。これらのモデルを数 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants

投稿日: 2025年2月20日作成者: jarxiv

要約なじみのない環境をナビゲートすることは、家庭用ロボットに大きな課題をもたら … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments

投稿日: 2025年2月20日作成者: jarxiv

要約過去数年間、屋内環境のオブジェクトへの視覚的ナビゲーションへの研究の関心は … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

GroundCap: A Visually Grounded Image Captioning Dataset

投稿日: 2025年2月20日作成者: jarxiv

要約現在の画像キャプションシステムには、説明テキストを特定の視覚要素にリンクす … 続きを読む →

カテゴリー: cs.CL, cs.CV, I.2.10 | コメントを受け付けていません

Qwen2.5-VL Technical Report

投稿日: 2025年2月20日作成者: jarxiv

要約 QWEN Vision-Languageシリーズの最新のフラッグシップモデ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

投稿日: 2025年2月20日作成者: jarxiv

要約最近の研究では、大きなビジョン言語モデル（VLM）が画像コンテンツを無視し … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Continually Learning Structured Visual Representations via Network Refinement with Rerelation

投稿日: 2025年2月20日作成者: jarxiv

要約現在の機械学習のパラダイムは、問題の構造を直接学習するのではなく、アウトカ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

MEX: Memory-efficient Approach to Referring Multi-Object Tracking

Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition

MetaSSC: Enhancing 3D Semantic Scene Completion for Autonomous Driving through Meta-Learning and Long-sequence Modeling

EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing

NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants

Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments

GroundCap: A Visually Grounded Image Captioning Dataset

Qwen2.5-VL Technical Report

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

Continually Learning Structured Visual Representations via Network Refinement with Rerelation

最近の投稿

最近のコメント

アーカイブ

カテゴリー