「cs.CV」カテゴリーアーカイブ

TADACap: Time-series Adaptive Domain-Aware Captioning

投稿日: 2025年4月16日作成者: jarxiv

要約画像キャプションは大きな注目を集めていますが、金融やヘルスケアなどの分野で … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Reference-Based 3D-Aware Image Editing with Triplanes

投稿日: 2025年4月16日作成者: jarxiv

要約生成的敵対ネットワーク（GAN）は、潜在スペースを操作することにより、高品 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

投稿日: 2025年4月16日作成者: jarxiv

要約 3D LIDARシーンの完了における拡散モデルの適用は、拡散のサンプリング … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PARTFIELD: Learning 3D Feature Fields for Part Segmentation and Beyond

投稿日: 2025年4月16日作成者: jarxiv

要約 Partfieldを提案します。これは、定義済みのテンプレートやテキストベ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL

投稿日: 2025年4月16日作成者: jarxiv

要約この作業は、複雑なアーキテクチャの変更なしに、バニラの自己回帰視覚生成フレ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception

投稿日: 2025年4月16日作成者: jarxiv

要約画像生成の成功に伴い、ピクセル生成が統一された知覚インターフェイスを提供す … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LL-Gaussian: Low-Light Scene Reconstruction and Enhancement via Gaussian Splatting for Novel View Synthesis

投稿日: 2025年4月16日作成者: jarxiv

要約低光光シーンでの新規ビュー合成（NVS）は、重度のノイズ、低ダイナミックレ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents

投稿日: 2025年4月16日作成者: jarxiv

要約グラフィカルユーザーインターフェイス（GUI）エージェントの構築における既 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.HC | コメントを受け付けていません

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

投稿日: 2025年4月16日作成者: jarxiv

要約 Native Multimodal Pre-Trainingパラダイムを備 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study

投稿日: 2025年4月16日作成者: jarxiv

要約ハードウェア、コンピューターグラフィックス、AIの最近の開発により、AR/ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

TADACap: Time-series Adaptive Domain-Aware Captioning

Reference-Based 3D-Aware Image Editing with Triplanes

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

PARTFIELD: Learning 3D Feature Fields for Part Segmentation and Beyond

SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception

LL-Gaussian: Low-Light Scene Reconstruction and Enhancement via Gaussian Splatting for Novel View Synthesis

GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study

最近の投稿

最近のコメント

アーカイブ

カテゴリー