cs.CV」カテゴリーアーカイブ

Tailored Design of Audio-Visual Speech Recognition Models using Branchformers

要約 視聴覚音声認識(AVSR)の最近の進歩により、この分野では前例のない成果が … 続きを読む

カテゴリー: cs.CL, cs.CV | Tailored Design of Audio-Visual Speech Recognition Models using Branchformers はコメントを受け付けていません

MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing

要約 マルチモーダル言語モデル(MLMS)は、特定のアダプターを介してビジョンエ … 続きを読む

カテゴリー: (Primary), 6804, cs.CV, I.2.10 | MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing はコメントを受け付けていません

Long Video Understanding with Learnable Retrieval in Video-Language Models

要約 大規模な言語モデル(LLM)の驚くべき自然言語の理解、推論、および生成能力 … 続きを読む

カテゴリー: cs.CV | Long Video Understanding with Learnable Retrieval in Video-Language Models はコメントを受け付けていません

A large-scale multicenter breast cancer DCE-MRI benchmark dataset with expert segmentations

要約 乳がん磁気共鳴画像法(MRI)の人工知能(AI)研究は、限られた専門家標識 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.DB | A large-scale multicenter breast cancer DCE-MRI benchmark dataset with expert segmentations はコメントを受け付けていません

The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting

要約 Vision-Language Models(VLMS)は、入力画像と矛盾 … 続きを読む

カテゴリー: cs.CV | The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting はコメントを受け付けていません

DeepInteraction++: Multi-Modality Interaction for Autonomous Driving

要約 既存の最高パフォーマンスの自律駆動システムは、通常、信頼できるシーンの理解 … 続きを読む

カテゴリー: cs.CV | DeepInteraction++: Multi-Modality Interaction for Autonomous Driving はコメントを受け付けていません

Chitrarth: Bridging Vision and Language for a Billion People

要約 最近のマルチモーダルファンデーションモデルは、主に英語または高リソースのヨ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Chitrarth: Bridging Vision and Language for a Billion People はコメントを受け付けていません

LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models

要約 大規模なマルチモーダルモデル(LMM)は、ビデオ理解タスクで顕著なパフォー … 続きを読む

カテゴリー: cs.CV | LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models はコメントを受け付けていません

Enhancing Vehicle Make and Model Recognition with 3D Attention Modules

要約 車両の製造およびモデル認識(VMMR)は、インテリジェント輸送システムの重 … 続きを読む

カテゴリー: cs.AI, cs.CV | Enhancing Vehicle Make and Model Recognition with 3D Attention Modules はコメントを受け付けていません

Generative Video Diffusion for Unseen Novel Semantic Video Moment Retrieval

要約 ビデオモーメント検索(VMR)は、非トリムビデオのテキストクエリに対応する … 続きを読む

カテゴリー: cs.CV | Generative Video Diffusion for Unseen Novel Semantic Video Moment Retrieval はコメントを受け付けていません