-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Data-driven Camera and Lidar Simulation Models for Autonomous Driving: A Review from Generative Models to Volume Renderers
要約 知覚センサー、特にカメラとLIDARは、自律運転システム(ADS)の重要な … 続きを読む
Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction
要約 視覚的な質問応答(VQA)は、ドキュメント画像から特定の情報を抽出するため … 続きを読む
When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making
要約 具体化された意思決定は、実際の環境で動作するAIエージェントの基本です。 … 続きを読む
Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models
要約 トークンベースのビデオ表現は、大きな言語モデルがビデオコンテンツを解釈でき … 続きを読む
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models
要約 Sphinx-Xは、Sphinxで開発された広範なマルチモダリティ大手言語 … 続きを読む
Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification
要約 マルチモーダル大手言語モデル(MLLM)は、ビジョン理解、推論、および相互 … 続きを読む
Temporal-Guided Spiking Neural Networks for Event-Based Human Action Recognition
要約 このペーパーでは、プライバシーを提供する人間の行動認識(HAR)のためのス … 続きを読む
Embedded Visual Prompt Tuning
要約 大規模なデータで事前に訓練された基礎モデルは、さまざまな自然なイメージング … 続きを読む
Instant Adversarial Purification with Adversarial Consistency Distillation
要約 ニューラルネットワークは、並外れたパフォーマンスで多数の分野に革命をもたら … 続きを読む
D2Fusion: Dual-domain Fusion with Feature Superposition for Deepfake Detection
要約 ディープフェイクの検出は、社会に引き起こす害を抑えるために重要です。 ただ … 続きを読む