-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Towards Robust Probabilistic Modeling on SO(3) via Rotation Laplace Distribution
要約 単一のRGB画像からの3DOF回転を推定することは、重要でありながら挑戦的 … 続きを読む
Weakly Supervised Video Scene Graph Generation via Natural Language Supervision
要約 既存のビデオシーングラフ生成(VIDSGG)の研究は、完全に監視された方法 … 続きを読む
カテゴリー: cs.CV
Weakly Supervised Video Scene Graph Generation via Natural Language Supervision はコメントを受け付けていません
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers
要約 視聴覚音声認識(AVSR)の最近の進歩により、この分野では前例のない成果が … 続きを読む
MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing
要約 マルチモーダル言語モデル(MLMS)は、特定のアダプターを介してビジョンエ … 続きを読む
Long Video Understanding with Learnable Retrieval in Video-Language Models
要約 大規模な言語モデル(LLM)の驚くべき自然言語の理解、推論、および生成能力 … 続きを読む
カテゴリー: cs.CV
Long Video Understanding with Learnable Retrieval in Video-Language Models はコメントを受け付けていません
A large-scale multicenter breast cancer DCE-MRI benchmark dataset with expert segmentations
要約 乳がん磁気共鳴画像法(MRI)の人工知能(AI)研究は、限られた専門家標識 … 続きを読む
The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting
要約 Vision-Language Models(VLMS)は、入力画像と矛盾 … 続きを読む
カテゴリー: cs.CV
The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting はコメントを受け付けていません
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving
要約 既存の最高パフォーマンスの自律駆動システムは、通常、信頼できるシーンの理解 … 続きを読む
カテゴリー: cs.CV
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving はコメントを受け付けていません
Chitrarth: Bridging Vision and Language for a Billion People
要約 最近のマルチモーダルファンデーションモデルは、主に英語または高リソースのヨ … 続きを読む
LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models
要約 大規模なマルチモーダルモデル(LMM)は、ビデオ理解タスクで顕著なパフォー … 続きを読む
カテゴリー: cs.CV
LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models はコメントを受け付けていません