-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
ImgTrojan: Jailbreaking Vision-Language Models with ONE Image
要約 大規模な言語モデル(LLMS)の人間の価値の調整に関心が高まっています。 … 続きを読む
Dual-Flow: Transferable Multi-Target, Instance-Agnostic Attacks via In-the-wild Cascading Flow Optimization
要約 敵対的な攻撃は、モデルの堅牢性を評価するために広く使用されており、ブラック … 続きを読む
カテゴリー: cs.CV
Dual-Flow: Transferable Multi-Target, Instance-Agnostic Attacks via In-the-wild Cascading Flow Optimization はコメントを受け付けていません
MaxInfo: A Training-Free Key-Frame Selection Method Using Maximum Volume for Enhanced Video Understanding
要約 最新のビデオ大規模な言語モデル(VLLM)は、ビデオ理解のために均一なフレ … 続きを読む
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
要約 RPG、安定した拡散3、フラックスなどの高度な拡散モデルは、構成テキストか … 続きを読む
カテゴリー: cs.CV
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation はコメントを受け付けていません
LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence
要約 最近の具体化されたエージェントは、主に強化学習(RL)または大手言語モデル … 続きを読む
カテゴリー: cs.CV
LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence はコメントを受け付けていません
MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent
要約 MotionAgentを提案し、テキスト誘導画像からビデオへの生成のための … 続きを読む
iVISPAR — An Interactive Visual-Spatial Reasoning Benchmark for VLMs
要約 Vision-Language Models (VLMs) are kno … 続きを読む
PSC: Posterior Sampling-Based Compression
要約 拡散モデルは、画像生成の景観を変換し、イメージ圧縮の顕著な可能性を示してい … 続きを読む
Learnable Expansion of Graph Operators for Multi-Modal Feature Fusion
要約 コンピュータービジョンのタスクでは、機能は多様な表現、ドメイン(屋内や屋外 … 続きを読む
GARAD-SLAM: 3D GAussian splatting for Real-time Anti Dynamic SLAM
要約 3Dガウススプラッティング(3DGS)ベースのSLAMシステムは、リアルタ … 続きを読む