-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Flex3D: Feed-Forward 3D Generation with Flexible Reconstruction Model and Input View Curation
要約 テキスト、単一の画像、またはスパースビュー画像から高品質の3Dコンテンツを … 続きを読む
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM
要約 マルチモーダル大手言語モデル(MLLMS)のマルチモーダル幻覚は、MLLM … 続きを読む
FactCheXcker: Mitigating Measurement Hallucinations in Chest X-ray Report Generation Models
要約 医学的視覚言語モデルは、しばしば放射線レポートで正確な定量的測定を生成する … 続きを読む
カテゴリー: cs.CV
FactCheXcker: Mitigating Measurement Hallucinations in Chest X-ray Report Generation Models はコメントを受け付けていません
Urban Safety Perception Assessments via Integrating Multimodal Large Language Models with Street View Images
要約 都市の安全性の認識を測定することは、伝統的に人的資源に大きく依存している重 … 続きを読む
カテゴリー: cs.CV
Urban Safety Perception Assessments via Integrating Multimodal Large Language Models with Street View Images はコメントを受け付けていません
Distractor-free Generalizable 3D Gaussian Splatting
要約 以前に未開拓の課題に対処する新しいフレームワークであるDGGSを紹介します … 続きを読む
カテゴリー: cs.CV
Distractor-free Generalizable 3D Gaussian Splatting はコメントを受け付けていません
Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video
要約 堅牢なツールと公開されている事前に訓練されたモデルは、言語モデルの機械的解 … 続きを読む
VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
要約 Vision-Language Generative Reward Mod … 続きを読む
RADAR: Enhancing Radiology Report Generation with Supplementary Knowledge Injection
要約 大規模な言語モデル(LLMS)は、放射線レポート生成を含むさまざまなドメイ … 続きを読む
A Survey on Event-driven 3D Reconstruction: Development under Different Categories
要約 イベントカメラは、時間分解能が高い、遅延が低く、ダイナミックレンジが高いた … 続きを読む
RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers
要約 注意層ではなく、Feedforwardネットワーク(FFN)レイヤーがVi … 続きを読む