-
最近の投稿
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- RPCBF: Constructing Safety Filters Robust to Model Error and Disturbances via Policy Control Barrier Functions
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34912) cs.LG (33009) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
月別アーカイブ: 2024年6月
Task Me Anything
要約 大規模なマルチモーダル言語モデル (MLM) のベンチマークは、特定の機能 … 続きを読む
A Brief Survey on Leveraging Large Scale Vision Models for Enhanced Robot Grasping
要約 ロボットによる把持は、現実世界のシナリオでは困難な運動タスクを提示しており … 続きを読む
Mix-Domain Contrastive Learning for Unpaired H&E-to-IHC Stain Translation
要約 H&E から IHC への染色変換技術は、特に医療専門家が不足し … 続きを読む
PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models
要約 Text-to-image (T2I) モデルは、テキスト プロンプトから … 続きを読む
カテゴリー: cs.CV
PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models はコメントを受け付けていません
Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA
要約 広い時間間隔にまたがる長い形式のビデオは、情報の冗長性が高く、関連性の低い … 続きを読む
カテゴリー: cs.CV
Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA はコメントを受け付けていません
Ovis: Structural Embedding Alignment for Multimodal Large Language Model
要約 現在のマルチモーダル大規模言語モデル (MLLM) は通常、MLP などの … 続きを読む
Faces of Experimental Pain: Transferability of Deep Learned Heat Pain Features to Electrical Pain
要約 痛みのデータセットのサイズが限られていることが、痛みを認識するための堅牢な … 続きを読む
カテゴリー: cs.CV
Faces of Experimental Pain: Transferability of Deep Learned Heat Pain Features to Electrical Pain はコメントを受け付けていません
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning
要約 近年、命令調整されたラージ マルチモーダル モデル (LMM) は、画像キ … 続きを読む
VideoLLM-online: Online Video Large Language Model for Streaming Video
要約 最近の大規模言語モデルはビジョン機能で強化されており、画像、ビデオ、および … 続きを読む
カテゴリー: cs.CV
VideoLLM-online: Online Video Large Language Model for Streaming Video はコメントを受け付けていません
MegaScenes: Scene-Level View Synthesis at Scale
要約 シーンレベルのノベルビュー合成 (NVS) は、多くのビジョンおよびグラフ … 続きを読む
カテゴリー: cs.CV
MegaScenes: Scene-Level View Synthesis at Scale はコメントを受け付けていません