-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
CrowdMAC: Masked Crowd Density Completion for Robust Crowd Density Forecasting
要約 群集密度予測タスクは、観察された過去の群集密度マップから、群集密度マップが … 続きを読む
Real-Time Multimodal Signal Processing for HRI in RoboCup: Understanding a Human Referee
要約 人間とロボットのコミュニケーションの進歩は、人間の信号をリアルタイムで正確 … 続きを読む
Mitigating the Impact of Noisy Edges on Graph-Based Algorithms via Adversarial Robustness Evaluation
要約 既存のグラフ構築方法では特定のデータセットに対して完全なグラフを生成できな … 続きを読む
Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion
要約 NOVIC は、自己回帰変換器を使用して分類ラベルを言語として生成的に出力 … 続きを読む
A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs
要約 マルチモーダル大規模言語モデル (MLLM) の動作を人間の好みに合わせる … 続きを読む
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
要約 視覚言語生成報酬モデル (VL-GenRM) は、マルチモーダル AI シ … 続きを読む
FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval
要約 あるモダリティからクエリが与えられると、少数ショットクロスモーダル検索 ( … 続きを読む
Object-centric proto-symbolic behavioural reasoning from pixels
要約 自律型インテリジェント エージェントは、感覚入力や運動コマンドの低レベル空 … 続きを読む
Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction
要約 長いビデオを処理できるビジョン モデルをトレーニングする場合、ビデオの効率 … 続きを読む