cs.CV」カテゴリーアーカイブ

Be Decisive: Noise-Induced Layouts for Multi-Subject Generation

要約 複数の異なる被験者を生成することは、既存のテキストから画像間拡散モデルの課 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Be Decisive: Noise-Induced Layouts for Multi-Subject Generation はコメントを受け付けていません

Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

要約 制御可能性、時間的一貫性、および詳細合成は、ビデオ生成における最も重要な課 … 続きを読む

カテゴリー: cs.CV | Frame In-N-Out: Unbounded Controllable Image-to-Video Generation はコメントを受け付けていません

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

要約 マルチモーダル大手言語モデル(MLLM)は、譲渡可能な敵の例に対して脆弱な … 続きを読む

カテゴリー: cs.CV | Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment はコメントを受け付けていません

UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

要約 このペーパーでは、GUIエージェントの2つの重要な課題に対処する自己改善フ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents はコメントを受け付けていません

Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

要約 アカデミックポスターの世代は、科学的コミュニケーションにおいて重要でありな … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MA | Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers はコメントを受け付けていません

ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

要約 ビジョン言語モデル(VLM)は、視覚コンテンツについての理解と推論において … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models はコメントを受け付けていません

Vision Transformers with Self-Distilled Registers

要約 ビジョントランス(VIT)は、視覚処理タスクの支配的なアーキテクチャとして … 続きを読む

カテゴリー: cs.CV | Vision Transformers with Self-Distilled Registers はコメントを受け付けていません

Generalizable and Relightable Gaussian Splatting for Human Novel View Synthesis

要約 私たちは、多様な照明条件下での高忠実度の人間の新規ビューの統合のための一般 … 続きを読む

カテゴリー: cs.CV | Generalizable and Relightable Gaussian Splatting for Human Novel View Synthesis はコメントを受け付けていません

EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition

要約 効果的な人間との相互作用は、人間の感情を正確に認識して解釈するAIの能力に … 続きを読む

カテゴリー: cs.AI, cs.CV | EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition はコメントを受け付けていません

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

要約 エンドツーエンドの自律運転に関する研究の関心は、モジュラータスク、つまり、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving はコメントを受け付けていません