月別アーカイブ: 2025年2月

Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments

投稿日: 2025年2月20日作成者: jarxiv

要約過去数年間、屋内環境のオブジェクトへの視覚的ナビゲーションへの研究の関心は … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

GroundCap: A Visually Grounded Image Captioning Dataset

投稿日: 2025年2月20日作成者: jarxiv

要約現在の画像キャプションシステムには、説明テキストを特定の視覚要素にリンクす … 続きを読む →

カテゴリー: cs.CL, cs.CV, I.2.10 | コメントを受け付けていません

Qwen2.5-VL Technical Report

投稿日: 2025年2月20日作成者: jarxiv

要約 QWEN Vision-Languageシリーズの最新のフラッグシップモデ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

投稿日: 2025年2月20日作成者: jarxiv

要約最近の研究では、大きなビジョン言語モデル（VLM）が画像コンテンツを無視し … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Continually Learning Structured Visual Representations via Network Refinement with Rerelation

投稿日: 2025年2月20日作成者: jarxiv

要約現在の機械学習のパラダイムは、問題の構造を直接学習するのではなく、アウトカ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Explaining the Impact of Training on Vision Models via Activation Clustering

投稿日: 2025年2月20日作成者: jarxiv

要約 Visionモデル向けの説明可能な人工知能（XAI）の分野での最近の開発は … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Image compositing is all you need for data augmentation

投稿日: 2025年2月20日作成者: jarxiv

要約このペーパーでは、オブジェクト検出モデルのパフォーマンスに対するさまざまな … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models

投稿日: 2025年2月20日作成者: jarxiv

要約大規模なデータで事前に処理されている大規模なビジョンと言語モデルは、視覚的 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Carefully Blending Adversarial Training, Purification, and Aggregation Improves Adversarial Robustness

投稿日: 2025年2月20日作成者: jarxiv

要約この作業では、イメージ分類のための新しい敵対的な防御メカニズム &#821 … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG | コメントを受け付けていません

GPU-Friendly Laplacian Texture Blending

投稿日: 2025年2月20日作成者: jarxiv

要約テクスチャと材料ブレンドは、レンダリングされた仮想世界に多様性を追加し、複 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

月別アーカイブ: 2025年2月

Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments

GroundCap: A Visually Grounded Image Captioning Dataset

Qwen2.5-VL Technical Report

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

Continually Learning Structured Visual Representations via Network Refinement with Rerelation

Explaining the Impact of Training on Vision Models via Activation Clustering

Image compositing is all you need for data augmentation

A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models

Carefully Blending Adversarial Training, Purification, and Aggregation Improves Adversarial Robustness

GPU-Friendly Laplacian Texture Blending

最近の投稿

最近のコメント

アーカイブ

カテゴリー