cs.CV」カテゴリーアーカイブ

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

要約 多様なロボットデータセットでトレーニングされた最近のビジョン言語アクション … 続きを読む

カテゴリー: cs.CV, cs.RO | Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy はコメントを受け付けていません

OpenLex3D: A New Evaluation Benchmark for Open-Vocabulary 3D Scene Representations

要約 3Dシーンの理解は、自然言語を介した相互作用を可能にするオープンボキャブラ … 続きを読む

カテゴリー: cs.CV, cs.RO | OpenLex3D: A New Evaluation Benchmark for Open-Vocabulary 3D Scene Representations はコメントを受け付けていません

Pfungst and Clever Hans: Identifying the unintended cues in a widely used Alzheimer’s disease MRI dataset using explainable deep learning

要約 背景。 深いニューラルネットワークは、アルツハイマー病(AD)を分類する際 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | Pfungst and Clever Hans: Identifying the unintended cues in a widely used Alzheimer’s disease MRI dataset using explainable deep learning はコメントを受け付けていません

BiPrompt-SAM: Enhancing Image Segmentation via Explicit Selection between Point and Text Prompts

要約 セグメンテーションはコンピュータービジョンの基本的なタスクであり、柔軟性の … 続きを読む

カテゴリー: cs.CV, cs.LG | BiPrompt-SAM: Enhancing Image Segmentation via Explicit Selection between Point and Text Prompts はコメントを受け付けていません

LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation

要約 ビジョンと言語モデル(VLM)を使用して、オープンボキャブラリーセマンティ … 続きを読む

カテゴリー: cs.CV, cs.LG | LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation はコメントを受け付けていません

MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification

要約 大型ビジョン言語モデル(LVLMS)は、視覚的な質問応答や画像キャプション … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification はコメントを受け付けていません

CLIP-Adapter: Better Vision-Language Models with Feature Adapters

要約 大規模な対照的な視覚言語のプリトレーニングは、視覚表現学習に大きな進歩を示 … 続きを読む

カテゴリー: cs.CL, cs.CV | CLIP-Adapter: Better Vision-Language Models with Feature Adapters はコメントを受け付けていません

Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models

要約 Vision-Language Models(VLM)は最近、画像キャプシ … 続きを読む

カテゴリー: cs.CL, cs.CV | Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models はコメントを受け付けていません

Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation

要約 大規模なビジョン言語モデル(VLM)は、タスク固有のトレーニングなしで、プ … 続きを読む

カテゴリー: cs.AI, cs.CV | Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation はコメントを受け付けていません

OpenSDI: Spotting Diffusion-Generated Images in the Open World

要約 このペーパーでは、Opensdiを特定します。これは、オープンワールド設定 … 続きを読む

カテゴリー: cs.AI, cs.CV | OpenSDI: Spotting Diffusion-Generated Images in the Open World はコメントを受け付けていません