月別アーカイブ: 2025年5月

ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models

要約 現在、ビジョン言語モデル(VLMS)パフォーマンスを強化するための一般的な … 続きを読む

カテゴリー: cs.CL, cs.CV | ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models はコメントを受け付けていません

Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise

要約 生成モデルの最近の進歩により、仮想世界、メディア、およびゲームのアプリケー … 続きを読む

カテゴリー: cs.CV | Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise はコメントを受け付けていません

When Are Concepts Erased From Diffusion Models?

要約 モデルが特定の概念を生成するのを選択的に防止する能力である概念消去は、関心 … 続きを読む

カテゴリー: cs.CV, cs.LG | When Are Concepts Erased From Diffusion Models? はコメントを受け付けていません

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

要約 このホワイトペーパーでは、新しい次のデテール予測戦略を介して画像をモデル化 … 続きを読む

カテゴリー: cs.CV | DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction はコメントを受け付けていません

Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration

要約 大きなビジョン言語モデル(LVLMS)は、マルチモーダルタスクで印象的なパ … 続きを読む

カテゴリー: cs.CL, cs.CV | Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration はコメントを受け付けていません

Policy Optimized Text-to-Image Pipeline Design

要約 テキストからイメージの生成は、単一のモノリシックモデルを超えて複雑なマルチ … 続きを読む

カテゴリー: cs.AI, cs.CV | Policy Optimized Text-to-Image Pipeline Design はコメントを受け付けていません

MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation

要約 オブジェクトコンポジットは、拡張現実(AR)と具体化されたインテリジェンス … 続きを読む

カテゴリー: cs.CV | MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation はコメントを受け付けていません

Be Decisive: Noise-Induced Layouts for Multi-Subject Generation

要約 複数の異なる被験者を生成することは、既存のテキストから画像間拡散モデルの課 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Be Decisive: Noise-Induced Layouts for Multi-Subject Generation はコメントを受け付けていません

Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

要約 制御可能性、時間的一貫性、および詳細合成は、ビデオ生成における最も重要な課 … 続きを読む

カテゴリー: cs.CV | Frame In-N-Out: Unbounded Controllable Image-to-Video Generation はコメントを受け付けていません

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

要約 マルチモーダル大手言語モデル(MLLM)は、譲渡可能な敵の例に対して脆弱な … 続きを読む

カテゴリー: cs.CV | Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment はコメントを受け付けていません