-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Spatio-Temporal Context Prompting for Zero-Shot Action Detection
要約 時空間アクションの検出には、ビデオ内の個々のアクションの位置を特定し、分類 … 続きを読む
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders
要約 複雑な視覚情報を正確に解釈する機能は、マルチモーダル大規模言語モデル (M … 続きを読む
DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding
要約 テキストリッチ文書理解 (TDU) とは、実質的なテキストコンテンツを含む … 続きを読む
カテゴリー: cs.CV
DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding はコメントを受け付けていません
Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance
要約 既存のマルチモーダル顕著物体検出 (SOD) 手法のほとんどは、モデルを最 … 続きを読む
カテゴリー: cs.CV
Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance はコメントを受け付けていません
Urdu Digital Text Word Optical Character Recognition Using Permuted Auto Regressive Sequence Modeling
要約 この研究論文では、デジタル ウルドゥー語テキスト用に特別に開発された新しい … 続きを読む
VHAKG: A Multi-modal Knowledge Graph Based on Synchronized Multi-view Videos of Daily Activities
要約 さまざまな非記号データ (画像やビデオなど) をシンボルにまとめるマルチモ … 続きを読む
A Neurosymbolic Approach to Adaptive Feature Extraction in SLAM
要約 自律ロボット、自律車両、複合現実ヘッドセットを装着した人間には、動的に変化 … 続きを読む
Depth Restoration of Hand-Held Transparent Objects for Human-to-Robot Handover
要約 透明なオブジェクトは日常生活でよく使われますが、その独特の光学特性は、正確 … 続きを読む