月別アーカイブ: 2025年3月

Scaling Down Text Encoders of Text-to-Image Diffusion Models

要約 拡散モデルのテキストエンコーダーは急速に進化し、クリップからT5-XXLに … 続きを読む

カテゴリー: cs.CV | Scaling Down Text Encoders of Text-to-Image Diffusion Models はコメントを受け付けていません

CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning

要約 大規模なビジョン言語モデル(LVLMS)の急速な進歩により、マルチモーダル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning はコメントを受け付けていません

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

要約 多様で物理的にもっともらしいヒトシーン相互作用(HSI)の合成は、コンピュ … 続きを読む

カテゴリー: cs.CV | TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization はコメントを受け付けていません

Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation

要約 ビデオフレーム補間は、観測されたフレーム間で現実的な欠落フレームを回復し、 … 続きを読む

カテゴリー: cs.CV | Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation はコメントを受け付けていません

ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models

要約 視覚概念を定義する際の固有のあいまいさは、単一の画像から概念を正確に学習す … 続きを読む

カテゴリー: cs.CV | ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models はコメントを受け付けていません

Scaling Vision Pre-Training to 4K Resolution

要約 視覚的詳細の高解像度の認識は、毎日のタスクにとって重要です。 ただし、現在 … 続きを読む

カテゴリー: cs.CV | Scaling Vision Pre-Training to 4K Resolution はコメントを受け付けていません

Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better

要約 動画予測では、出力が一貫性があり、アーティファクトがないことを確認するため … 続きを読む

カテゴリー: cs.CV, cs.LG | Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better はコメントを受け付けていません

Reanimating Images using Neural Representations of Dynamic Stimuli

要約 コンピュータービジョンモデルは静的な画像認識で信じられないほどの進歩を遂げ … 続きを読む

カテゴリー: cs.AI, cs.CV, q-bio.NC | Reanimating Images using Neural Representations of Dynamic Stimuli はコメントを受け付けていません

AvatarArtist: Open-Domain 4D Avatarization

要約 この作品は、任意のスタイルでポートレートイメージから4Dアバターを作成する … 続きを読む

カテゴリー: cs.CV | AvatarArtist: Open-Domain 4D Avatarization はコメントを受け付けていません

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

要約 現在のビデオ生成基盤モデルは、主にテキストからビデオへのタスクに焦点を当て … 続きを読む

カテゴリー: cs.CV | FullDiT: Multi-Task Video Generative Foundation Model with Full Attention はコメントを受け付けていません