投稿者「jarxiv」のアーカイブ

Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields

要約 AIGC Foundationモデルの急速な発展は、画像圧縮のパラダイムに … 続きを読む

カテゴリー: cs.CV | コメントする

Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization

要約 Deevisum(要約のための蒸留早期出口ビジョン言語モデル)を紹介します … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

ObjectFinder: An Open-Vocabulary Assistive System for Interactive Object Search by Blind People

要約 なじみのないシナリオでオブジェクトを検索することは、盲人にとって挑戦的な作 … 続きを読む

カテゴリー: cs.CV, cs.HC | コメントする

Visual Encoders for Data-Efficient Imitation Learning in Modern Video Games

要約 ビデオゲームは意思決定コミュニティにとって有用なベンチマークとして機能しま … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

3D Stylization via Large Reconstruction Model

要約 テキストまたはイメージガイド付き3Dジェネレーターの成功が高まっているため … 続きを読む

カテゴリー: cs.CV | コメントする

Active Light Modulation to Counter Manipulation of Speech Visual Content

要約 有名なスピーチビデオは、そのアクセシビリティと影響力のために、偽造の主要な … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.CV | コメントする

Differentiable Room Acoustic Rendering with Multi-View Vision Priors

要約 空間オーディオによって可能になった没入型の音響体験は、現実的な仮想環境を作 … 続きを読む

カテゴリー: cs.CV, cs.SD | コメントする

COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning

要約 マルチモーダル大手言語モデル(MLLM)は、単純なビジョン言語タスクに優れ … 続きを読む

カテゴリー: cs.CV | コメントする

A Survey of Interactive Generative Video

要約 インタラクティブな生成ビデオ(IGV)は、さまざまなドメインにわたる高品質 … 続きを読む

カテゴリー: cs.CV | コメントする

ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction

要約 近年、ビデオ生成は大きな進歩を遂げています。 ただし、複雑な動きと相互作用 … 続きを読む

カテゴリー: cs.CV | コメントする