月別アーカイブ: 2025年5月

ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models

投稿日: 2025年5月28日作成者: jarxiv

要約現在、ビジョン言語モデル（VLMS）パフォーマンスを強化するための一般的な … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise

投稿日: 2025年5月28日作成者: jarxiv

要約生成モデルの最近の進歩により、仮想世界、メディア、およびゲームのアプリケー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

When Are Concepts Erased From Diffusion Models?

投稿日: 2025年5月28日作成者: jarxiv

要約モデルが特定の概念を生成するのを選択的に防止する能力である概念消去は、関心 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

投稿日: 2025年5月28日作成者: jarxiv

要約このホワイトペーパーでは、新しい次のデテール予測戦略を介して画像をモデル化 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration

投稿日: 2025年5月28日作成者: jarxiv

要約大きなビジョン言語モデル（LVLMS）は、マルチモーダルタスクで印象的なパ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Policy Optimized Text-to-Image Pipeline Design

投稿日: 2025年5月28日作成者: jarxiv

要約テキストからイメージの生成は、単一のモノリシックモデルを超えて複雑なマルチ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation

投稿日: 2025年5月28日作成者: jarxiv

要約オブジェクトコンポジットは、拡張現実（AR）と具体化されたインテリジェンス … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Be Decisive: Noise-Induced Layouts for Multi-Subject Generation

投稿日: 2025年5月28日作成者: jarxiv

要約複数の異なる被験者を生成することは、既存のテキストから画像間拡散モデルの課 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

投稿日: 2025年5月28日作成者: jarxiv

要約制御可能性、時間的一貫性、および詳細合成は、ビデオ生成における最も重要な課 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

投稿日: 2025年5月28日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）は、譲渡可能な敵の例に対して脆弱な … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年5月

ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models

Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise

When Are Concepts Erased From Diffusion Models?

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration

Policy Optimized Text-to-Image Pipeline Design

MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation

Be Decisive: Noise-Induced Layouts for Multi-Subject Generation

Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

最近の投稿

最近のコメント

アーカイブ

カテゴリー