-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Edge Attention Module for Object Classification
要約 この研究では、オブジェクト分類タスクに関する新しい「エッジ注意ベースの畳み … 続きを読む
Tell2Reg: Establishing spatial correspondence between images by the same language prompts
要約 空間的対応は、セグメント化された領域のペアで表すことができ、画像登録ネット … 続きを読む
3D Face Reconstruction From Radar Images
要約 顔の3D再構成は、コンピュータービジョンで広く注目され、たとえばアニメーシ … 続きを読む
Assessing Open-world Forgetting in Generative Image Model Customization
要約 拡散モデルの最近の進歩により、画像生成機能が大幅に向上しています。 ただし … 続きを読む
ImgTrojan: Jailbreaking Vision-Language Models with ONE Image
要約 大規模な言語モデル(LLMS)の人間の価値の調整に関心が高まっています。 … 続きを読む
Dual-Flow: Transferable Multi-Target, Instance-Agnostic Attacks via In-the-wild Cascading Flow Optimization
要約 敵対的な攻撃は、モデルの堅牢性を評価するために広く使用されており、ブラック … 続きを読む
カテゴリー: cs.CV
Dual-Flow: Transferable Multi-Target, Instance-Agnostic Attacks via In-the-wild Cascading Flow Optimization はコメントを受け付けていません
MaxInfo: A Training-Free Key-Frame Selection Method Using Maximum Volume for Enhanced Video Understanding
要約 最新のビデオ大規模な言語モデル(VLLM)は、ビデオ理解のために均一なフレ … 続きを読む
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
要約 RPG、安定した拡散3、フラックスなどの高度な拡散モデルは、構成テキストか … 続きを読む
カテゴリー: cs.CV
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation はコメントを受け付けていません
LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence
要約 最近の具体化されたエージェントは、主に強化学習(RL)または大手言語モデル … 続きを読む
カテゴリー: cs.CV
LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence はコメントを受け付けていません
MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent
要約 MotionAgentを提案し、テキスト誘導画像からビデオへの生成のための … 続きを読む