「cs.CV」カテゴリーアーカイブ

VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models

投稿日: 2024年11月18日作成者: jarxiv

要約 Text-to-Image (T2I) モデルの進歩により、テキストの説明 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | コメントを受け付けていません

Visual question answering based evaluation metrics for text-to-image generation

投稿日: 2024年11月18日作成者: jarxiv

要約テキストから画像への生成とテキストによる画像操作は、画像生成タスクの分野で … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Efficient Progressive Image Compression with Variance-aware Masking

投稿日: 2024年11月18日作成者: jarxiv

要約学習型プログレッシブ画像圧縮は、受信機でデコードされるビットが増えるにつれ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Try-On-Adapter: A Simple and Flexible Try-On Paradigm

投稿日: 2024年11月18日作成者: jarxiv

要約オンラインショッピングで広く使用されている画像ベースの仮想試着は、特定の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

NeISF++: Neural Incident Stokes Field for Polarized Inverse Rendering of Conductors and Dielectrics

投稿日: 2024年11月18日作成者: jarxiv

要約最近の逆レンダリング手法では、偏光キューを利用することで形状、材質、照明の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization

投稿日: 2024年11月18日作成者: jarxiv

要約ディープフェイク技術は急速に進歩し、情報の完全性と社会的信頼に重大な脅威を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing

投稿日: 2024年11月18日作成者: jarxiv

要約時空間予測学習は、過去のフレームに基づいて将来のフレームを予測することで、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Q-VLM: Post-training Quantization for Large Vision-Language Models

投稿日: 2024年11月18日作成者: jarxiv

要約この論文では、効率的なマルチモーダル推論のための大規模ビジョン言語モデル … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Block based Adaptive Compressive Sensing with Sampling Rate Control

投稿日: 2024年11月18日作成者: jarxiv

要約圧縮センシング (CS) は、ナイキストレート以下の信号を取得して再構築 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Learning Generalizable 3D Manipulation With 10 Demonstrations

投稿日: 2024年11月18日作成者: jarxiv

要約デモンストレーションから堅牢で汎用性のある操作スキルを学習することは、産業 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models

Visual question answering based evaluation metrics for text-to-image generation

Efficient Progressive Image Compression with Variance-aware Masking

Try-On-Adapter: A Simple and Flexible Try-On Paradigm

NeISF++: Neural Incident Stokes Field for Polarized Inverse Rendering of Conductors and Dielectrics

DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization

STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing

Q-VLM: Post-training Quantization for Large Vision-Language Models

Block based Adaptive Compressive Sensing with Sampling Rate Control

Learning Generalizable 3D Manipulation With 10 Demonstrations

最近の投稿

最近のコメント

アーカイブ

カテゴリー