-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年2月
Towards Robust Probabilistic Modeling on SO(3) via Rotation Laplace Distribution
要約 単一のRGB画像からの3DOF回転を推定することは、重要でありながら挑戦的 … 続きを読む
Weakly Supervised Video Scene Graph Generation via Natural Language Supervision
要約 既存のビデオシーングラフ生成(VIDSGG)の研究は、完全に監視された方法 … 続きを読む
カテゴリー: cs.CV
Weakly Supervised Video Scene Graph Generation via Natural Language Supervision はコメントを受け付けていません
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers
要約 視聴覚音声認識(AVSR)の最近の進歩により、この分野では前例のない成果が … 続きを読む
MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing
要約 マルチモーダル言語モデル(MLMS)は、特定のアダプターを介してビジョンエ … 続きを読む
Long Video Understanding with Learnable Retrieval in Video-Language Models
要約 大規模な言語モデル(LLM)の驚くべき自然言語の理解、推論、および生成能力 … 続きを読む
カテゴリー: cs.CV
Long Video Understanding with Learnable Retrieval in Video-Language Models はコメントを受け付けていません
A large-scale multicenter breast cancer DCE-MRI benchmark dataset with expert segmentations
要約 乳がん磁気共鳴画像法(MRI)の人工知能(AI)研究は、限られた専門家標識 … 続きを読む
The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting
要約 Vision-Language Models(VLMS)は、入力画像と矛盾 … 続きを読む
カテゴリー: cs.CV
The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting はコメントを受け付けていません
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving
要約 既存の最高パフォーマンスの自律駆動システムは、通常、信頼できるシーンの理解 … 続きを読む
カテゴリー: cs.CV
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving はコメントを受け付けていません
Chitrarth: Bridging Vision and Language for a Billion People
要約 最近のマルチモーダルファンデーションモデルは、主に英語または高リソースのヨ … 続きを読む
LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models
要約 大規模なマルチモーダルモデル(LMM)は、ビデオ理解タスクで顕著なパフォー … 続きを読む
カテゴリー: cs.CV
LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models はコメントを受け付けていません