-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Efficient Data Representation for Motion Forecasting: A Scene-Specific Trajectory Set Approach
要約 自動運転における動作予測には、多様でありそうな将来の軌道を表現することが重 … 続きを読む
On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only Events
要約 イベント カメラは、わずかミリワットの電力で低遅延の認識を提供します。 そ … 続きを読む
Adaptive Graph Learning from Spatial Information for Surgical Workflow Anticipation
要約 手術ワークフローの予測は、ライブビデオデータから関連する手術イベントのタイ … 続きを読む
Perception Helps Planning: Facilitating Multi-Stage Lane-Level Integration via Double-Edge Structures
要約 自動運転を計画する場合、車線、交差点、交通規制、ダイナミック エージェント … 続きを読む
An Efficient Scene Coordinate Encoding and Relocalization Method
要約 シーン座標回帰 (SCR) は、ディープ ニューラル ネットワーク (DN … 続きを読む
PPT: Pre-Training with Pseudo-Labeled Trajectories for Motion Forecasting
要約 自動運転のための動き予測 (MF) は、複雑な都市シナリオにおける周囲のエ … 続きを読む
Improved GUI Grounding via Iterative Narrowing
要約 グラフィカル ユーザー インターフェイス (GUI) の基礎は、視覚言語モ … 続きを読む
A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs
要約 マルチモーダル大規模言語モデル (MLLM) の動作を人間の好みに合わせる … 続きを読む
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey
要約 マルチモーダル基礎モデルの急速な進化により、テキスト、画像、オーディオ、ビ … 続きを読む
From Pixels to Words: Leveraging Explainability in Face Recognition through Interactive Natural Language Processing
要約 顔認識 (FR) はディープラーニングの発展により大幅に進歩し、いくつかの … 続きを読む