月別アーカイブ: 2025年2月

Towards Robust Probabilistic Modeling on SO(3) via Rotation Laplace Distribution

要約 単一のRGB画像からの3DOF回転を推定することは、重要でありながら挑戦的 … 続きを読む

カテゴリー: cs.AI, cs.CV | Towards Robust Probabilistic Modeling on SO(3) via Rotation Laplace Distribution はコメントを受け付けていません

Weakly Supervised Video Scene Graph Generation via Natural Language Supervision

要約 既存のビデオシーングラフ生成(VIDSGG)の研究は、完全に監視された方法 … 続きを読む

カテゴリー: cs.CV | Weakly Supervised Video Scene Graph Generation via Natural Language Supervision はコメントを受け付けていません

Tailored Design of Audio-Visual Speech Recognition Models using Branchformers

要約 視聴覚音声認識(AVSR)の最近の進歩により、この分野では前例のない成果が … 続きを読む

カテゴリー: cs.CL, cs.CV | Tailored Design of Audio-Visual Speech Recognition Models using Branchformers はコメントを受け付けていません

MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing

要約 マルチモーダル言語モデル(MLMS)は、特定のアダプターを介してビジョンエ … 続きを読む

カテゴリー: (Primary), 6804, cs.CV, I.2.10 | MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing はコメントを受け付けていません

Long Video Understanding with Learnable Retrieval in Video-Language Models

要約 大規模な言語モデル(LLM)の驚くべき自然言語の理解、推論、および生成能力 … 続きを読む

カテゴリー: cs.CV | Long Video Understanding with Learnable Retrieval in Video-Language Models はコメントを受け付けていません

A large-scale multicenter breast cancer DCE-MRI benchmark dataset with expert segmentations

要約 乳がん磁気共鳴画像法(MRI)の人工知能(AI)研究は、限られた専門家標識 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.DB | A large-scale multicenter breast cancer DCE-MRI benchmark dataset with expert segmentations はコメントを受け付けていません

The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting

要約 Vision-Language Models(VLMS)は、入力画像と矛盾 … 続きを読む

カテゴリー: cs.CV | The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting はコメントを受け付けていません

DeepInteraction++: Multi-Modality Interaction for Autonomous Driving

要約 既存の最高パフォーマンスの自律駆動システムは、通常、信頼できるシーンの理解 … 続きを読む

カテゴリー: cs.CV | DeepInteraction++: Multi-Modality Interaction for Autonomous Driving はコメントを受け付けていません

Chitrarth: Bridging Vision and Language for a Billion People

要約 最近のマルチモーダルファンデーションモデルは、主に英語または高リソースのヨ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Chitrarth: Bridging Vision and Language for a Billion People はコメントを受け付けていません

LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models

要約 大規模なマルチモーダルモデル(LMM)は、ビデオ理解タスクで顕著なパフォー … 続きを読む

カテゴリー: cs.CV | LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models はコメントを受け付けていません