月別アーカイブ: 2025年2月

Assessing Open-world Forgetting in Generative Image Model Customization

要約 拡散モデルの最近の進歩により、画像生成機能が大幅に向上しています。 ただし … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | コメントする

ImgTrojan: Jailbreaking Vision-Language Models with ONE Image

要約 大規模な言語モデル(LLMS)の人間の価値の調整に関心が高まっています。 … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Dual-Flow: Transferable Multi-Target, Instance-Agnostic Attacks via In-the-wild Cascading Flow Optimization

要約 敵対的な攻撃は、モデルの堅牢性を評価するために広く使用されており、ブラック … 続きを読む

カテゴリー: cs.CV | コメントする

MaxInfo: A Training-Free Key-Frame Selection Method Using Maximum Volume for Enhanced Video Understanding

要約 最新のビデオ大規模な言語モデル(VLLM)は、ビデオ理解のために均一なフレ … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

要約 RPG、安定した拡散3、フラックスなどの高度な拡散モデルは、構成テキストか … 続きを読む

カテゴリー: cs.CV | コメントする

LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence

要約 最近の具体化されたエージェントは、主に強化学習(RL)または大手言語モデル … 続きを読む

カテゴリー: cs.CV | コメントする

MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent

要約 MotionAgentを提案し、テキスト誘導画像からビデオへの生成のための … 続きを読む

カテゴリー: cs.CV, cs.GR | コメントする

iVISPAR — An Interactive Visual-Spatial Reasoning Benchmark for VLMs

要約 Vision-Language Models (VLMs) are kno … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

PSC: Posterior Sampling-Based Compression

要約 拡散モデルは、画像生成の景観を変換し、イメージ圧縮の顕著な可能性を示してい … 続きを読む

カテゴリー: cs.CV, eess.IV | コメントする

Learnable Expansion of Graph Operators for Multi-Modal Feature Fusion

要約 コンピュータービジョンのタスクでは、機能は多様な表現、ドメイン(屋内や屋外 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする