cs.CV」カテゴリーアーカイブ

Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning

要約 コンピュータ ビジョンにおける少数ショットのきめ細かい分類は、限られたデー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning はコメントを受け付けていません

VAPO: Visibility-Aware Keypoint Localization for Efficient 6DoF Object Pose Estimation

要約 2D 画像内の事前定義された 3D キーポイントの位置を特定することは、6 … 続きを読む

カテゴリー: cs.CV | VAPO: Visibility-Aware Keypoint Localization for Efficient 6DoF Object Pose Estimation はコメントを受け付けていません

Refining Skewed Perceptions in Vision-Language Models through Visual Representations

要約 CLIP などの大規模ビジョン言語モデル (VLM) は基盤となり、さまざ … 続きを読む

カテゴリー: cs.CL, cs.CV | Refining Skewed Perceptions in Vision-Language Models through Visual Representations はコメントを受け付けていません

The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better

要約 テキストから画像への生成モデルを使用すると、制御可能な方法で無制限の量の画 … 続きを読む

カテゴリー: cs.CV | The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better はコメントを受け付けていません

Region-Guided Attack on the Segment Anything Model (SAM)

要約 Segment Anything Model (SAM) は画像セグメンテ … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.CV | Region-Guided Attack on the Segment Anything Model (SAM) はコメントを受け付けていません

Hear the Scene: Audio-Enhanced Text Spotting

要約 シーン テキスト スポッティングの最近の進歩は、正確な位置の注釈に大きく依 … 続きを読む

カテゴリー: cs.CV | Hear the Scene: Audio-Enhanced Text Spotting はコメントを受け付けていません

SpecDETR: A Transformer-based Hyperspectral Point Object Detection Network

要約 ハイパースペクトル ターゲット検出 (HTD) は、ハイパースペクトル画像 … 続きを読む

カテゴリー: cs.CV | SpecDETR: A Transformer-based Hyperspectral Point Object Detection Network はコメントを受け付けていません

Causal Deep Learning

要約 私たちは、因果的ディープ ニューラル ネットワークのセットを導出します。そ … 続きを読む

カテゴリー: (Primary), 15A09, 15A69, 15A72, 62D20, 62H25, 62H30, 62H35, 62J10, 68T45, cs.AI, cs.CV, cs.LG, G.3, stat.ML | Causal Deep Learning はコメントを受け付けていません

World knowledge-enhanced Reasoning Using Instruction-guided Interactor in Autonomous Driving

要約 広範な世界知識を備えたマルチモーダル大規模言語モデル (MLLM) は、特 … 続きを読む

カテゴリー: cs.CV | World knowledge-enhanced Reasoning Using Instruction-guided Interactor in Autonomous Driving はコメントを受け付けていません

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

要約 埋め込みモデルは、意味的類似性、情報検索、クラスタリングなどのさまざまな下 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks はコメントを受け付けていません