-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
LoSA: Long-Short-range Adapter for Scaling End-to-End Temporal Action Localization
要約 時間的アクション ローカリゼーション (TAL) には、トリミングされてい … 続きを読む
カテゴリー: cs.CV
LoSA: Long-Short-range Adapter for Scaling End-to-End Temporal Action Localization はコメントを受け付けていません
DynMF: Neural Motion Factorization for Real-time Dynamic View Synthesis with 3D Gaussian Splatting
要約 動的シーンとモーションを正確かつ効率的にモデリングすることは、時間的ダイナ … 続きを読む
ActFusion: a Unified Diffusion Model for Action Segmentation and Anticipation
要約 時間的なアクションのセグメンテーションと長期的なアクションの予測は、ビデオ … 続きを読む
GeoPos: A Minimal Positional Encoding for Enhanced Fine-Grained Details in Image Synthesis Using Convolutional Neural Networks
要約 人間の手や指に存在するような複雑な幾何学的特徴を画像生成モデルが再現できな … 続きを読む
A Hitchhiker’s Guide to Understanding Performances of Two-Class Classifiers
要約 分類器のパフォーマンスを適切に理解することは、さまざまなシナリオにおいて不 … 続きを読む
SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation
要約 大規模マルチモーダル モデル (LMM) は、多くのタスクや分野にわたって … 続きを読む
カテゴリー: cs.CV
SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation はコメントを受け付けていません
Discriminative Fine-tuning of LVLMs
要約 CLIP のような対照的にトレーニングされた視覚言語モデル (VLM) は … 続きを読む
MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding
要約 マルチモーダルな理解と生成のためのセマンティック離散エンコーディングによる … 続きを読む
カテゴリー: cs.CV
MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding はコメントを受け付けていません
EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding
要約 3D 占有予測は周囲のシーンの包括的な説明を提供し、3D 認識にとって不可 … 続きを読む
SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding
要約 3D ビジュアル グラウンディング (3DVG) は、テキストの説明に基づ … 続きを読む